本文是计算机论文,本研究通过人工构建小规模的中文电子病历语料库,利用构建领域词典、条件随机场、深度神经网络等方法,研究中文电子病历命名实体识别问题。本文的主要工作包括以下部分:(1)本文在参考国内外相关研究及标准的基础上,结合语料特点,定义了本研究中所关注的疾病、症状、药品、操作四类医疗实体,人工标注了中文电子病历命名实体识别标注语料库。同时,利用统计方法从中文电子病历中获取关键词以及利用外部专业资源获取词典关键词,通过这两种途径构建了“呼吸科领域词典”。本文研究的问题主要是中文电子病历的命名实体识别。考虑到中文电子病历文本的语言特点,以及目前还没有统一的标注规范及公开的标注语料用以研究的现状,本文致力于在小规模标注语料的情况下提升中文医疗实体识别模型的性能。
.....
第一章绪论
本文所做的工作可概括为以下三部分内容:(1)利用统计方法从中文电子病历中获取关键词以及利用外部专业资源获取词典关键词这两种途径构建领域词典。同时,按照定义的标注规范,标注中文电子病历命名实体识别标注语料库。(2)开展中文电子病历命名实体识别研究,包括基于双层标注和基于深度学习两大类。基于双层标注的方法将条件随机场与领域词典相结合,利用预标注-二次标注两次不同粒度的标注过程提升命名实体识别效果。基于深度学习的方法利用BiLSTM-CRF和Transformer-CRF两种网络,采用领域语料预训练字嵌入和对相关实体识别模型进行Fine-tuning两种领域预处理方式,使得深度学习方法更好地应用于医疗实体识别。(3)双层标注模型的其他应用。分别研究双层标注模型对中文电子病历医疗实体识别的普适性以及对医院真实儿科病历医疗实体识别结果的展示和分析。从我国医疗信息化建设的现状,介绍了电子病历的概念及其重要性,以及命名实体识别这一信息抽取基础技术的重要作用。同时,对国内外中、英文电子病历命名实体识别研究现状进行了介绍与分析。最后,提出了本文的主要研究内容并对文章的组织结构进行了说明。基于双层标注的中文电子病历命名实体识别。首先,从与通用文本的对比和中文语言本身的特性,介绍了中文电子病历文本的语言特点。
.......
第二章基于双层标注的中文电子病历命名实体识别
2.1中文电子病历文本语言特点
电子病历文本不同于传统生物医学文本,不具有生物医学文本等文献语言符合通用领域文本语言特性的特点。由于电子病历是医务人员对临床诊疗过程的记录,更加注重文本语言的简洁性、无歧义性,中文电子病历文本语言的独特特性造成了对其中医疗实体识别的难点:(1)中文电子病历中的医疗实体数量众多、类型丰富,难以建立大而全的疾病、药品或是科室检查等医学关键词词典。并且对于固定不变的医学词典而言,病历文本中将不断地有新的未登录词出现。这些新的医疗实体变化多样,更加难以收录。(2)中文电子病历文本句子成分缺失严重,缩略词较多。如,“对光敏(对光反射灵敏)”、“可闻及爆裂音”。(3)中文电子病历医疗实体可以按照构成结构分为简单实体和复杂实体,中文医疗实体长度差异较大,存在大量医疗实体长于通用实体的现象,经统计约有40%的医疗实体字符长度大于5。中文医疗实体中还存在大量的嵌套问题。如,“无咳嗽、咳痰、气喘”,应指“无咳嗽”、“无咳痰”、“无气喘”。(4)在中文电子病历的不同部分,医疗实体的类别属性有所差异,进行命名实体标注时存在分类模糊的问题,无法清晰判断某些命名实体之间的界限。常见的是症状表现的实体也经常出现在疾病实体名中,这种互相交叉包含的情况大量存在。如“上呼吸道感染”一般认为是疾病名,但在有些时候也可以作为症状出现。
2.2领域词典构建
除与医疗实体识别任务目标实体相同的四类外,领域词典中还额外定义了四种类型的关键词。这是针对中文病历文本复合实体较多、短句内句子成分缺失严重、存在大量实体嵌套现象而制定的。为了更好的识别出医疗实体,在利用领域词典的预标注部分采用更细粒度的关键词匹配策略。其解释如下:提示词:提示后文可能出现症状词,因对症状关键词的症状描述多样,所以单独列出。如:“食欲”,后可接“食欲不振”、“食欲正常”。器官:指人体器官或部分肢体,因同一症状可能发生于不同器官或器官的不同范围而单独列出。如:“左肺”、“心”。位置:为了描述器官的某部分而单独列出,在句子成分缺失的短句中也能直接代指器官的某部分。如:“左”、“左下”。否定:病历文本中常有描述患者并未出现某些症状或并未患某种疾病的情况,在复合实体、实体嵌套中如果不注意区分可能造成语义理解相反。如:“无”、“未闻及”。给定一组输入随机变量的条件下,计算另一组输出随机变量的条件概率分布模型就是条件随机场模型(ConditionalRandomField,CRF),它假设输出的随机变量能够构成马尔可夫随机场[25]。通过数学方式对条件随机场进行定义:设两个随机变量X和Y,在已知随机变量X的情况下,计算条件概率分布P(Y|X),若随机变量Y构成马尔可夫随机场,则条件概率P(Y|X)是条件随机场[25]。值得注意的是,有的情况下假设X和Y有相同的图结构,那么条件概率分布P(Y|X)就是线性链条件随机场。
第三章双层标注模型与深度学习对医疗实体识别的比较........24
3.1深度学习处理命名实体识别问题原理..24
3.2深度神经网络的领域预处理......28
3.3实验结果与分析..30
第四章双层标注模型的其他应用...........38
4.1双层标注模型对不区分科室病历的普适性.......38
4.2真实儿科病历医疗实体识别......40
4.3本章小结..44第五章总结与展望...........45
总结..........45
......
第四章双层标注模型的其他应用
4.1双层标注模型对不区分科室病历的普适性
从图4.2可以看出,与其他三类实体相比,DLAM对不区分科室电子病历中的“操作”实体识别效果更低。尽管如此,但DLAM对四类医疗实体的识别效果仍维持在了较高水平。由呼吸科病历训练得到的DLAM对来自各个科室的电子病历医疗实体识别都具有普适性,能够对大量含有丰富医学知识的医疗文书进行有效的医疗实体识别。本章首先讨论了基于呼吸科病历构建的双层标注模型DLAM对其他科室病历医疗实体识别的效果,证明了DLAM对中文电子病历医疗实体识别具有普适的高效性。然后从电子病历的种类及结构出发,选择从医院收集的真实儿科病历中的病历记录部分,先通过实验验证了DLAM对真实儿科病历识别的有效性,然后展示了DLAM对这些来自于儿科的医学文书进行医疗实体识别的效果,并从识别结果中发现了常见的儿科发病特点。并对如何构建本研究中所需的领域词典进行了详细介绍,包括领域词典的构建方法、构建标注及关键词标签定义。然后,从标准线性链条件随机场解决序列标注问题的原理出发,将条件随机场与领域词典相结合,提出了一种一次预标注-二次精确标注的双层标注模型。介绍了实验所用的工具、数据集以及评估方法,并对该模型对中文电子病历医疗实体识别的效果进行了多方面的对比实验以及错例分析。最后对本章进行小结。
4.2真实儿科病历医疗实体识别
从“爱爱医”获取的电子病历大多数为病历记录部分。作为门诊病历的重要部分,病历记录的需要包括主诉、既往史、现病史,必要的体格检查和辅助检查结果、诊断、治疗意见。主诉包括促使患者就诊的主要症状及持续时间;既往史是指患者过去的健康和疾病情况,包括既往疾病史、传染病史、手术外伤史、输血史、食物或药物过敏史等;现病史是指患者本次疾病的发生、演变、诊疗等方面的详细情况,内容包括发病的时间、地点、起病程度、前驱症状、可能的原因或诱因,按发生的先后顺序描述主要症状的部位、性质、程度、持续时间、缓解或加剧因素,以及演变发展情况,还要描述伴随症状与主要症状之间的相互关系,患者发病后于院内、外接受检查与治疗的详细经过及效果,精神状态、食欲、睡眠、体重、大小便等情况,以及与鉴别诊断有关的其他资料等;体格检查包括体温、呼吸、血压、脉搏、皮肤、粘膜、全身浅表淋巴结、头部、胸部、腹部、脊柱四肢、神经系统等;辅助检查指所作的与本次疾病相关的主要检查及其结果;初步诊断是指医务人员根据患者入院时情况,综合分析所做出的诊断。从图4.6能发现一个显著特点:这1000份儿科病历记录所包含的医疗实体个数虽多,但重复性很高。换言之,这些病历记录应当是某几类疾病的集中记录,相同或相似的疾病导致患者的发病症状、采取的诊疗措施以及给予的治疗药品相同或相似。
.......
第五章总结与展望
(2)本文将富含领域知识的领域词典与经典序列标注算法CRF相结合,提出了一种预标注-二次标注的双层标注模型DLAM。通过两次不同粒度的标注,将领域词典的准确性和机器学习的自动性融为一体。通过DLAM对中文电子病历医疗实体识别所进行的多方面对比实验以及错例分析,显示了仅通过小规模的训练集,该模型就能达到96.7%Macro-P、97.7%Macro-R、97.2%Macro-F1的不俗实体识别能力。(3)本文基于BiLSTM-CRF和Transformer-CRF两种模型研究了深度学习在处理中文电子病历命名实体识别问题时的优缺点,并将其与双层标注模型DLAM进行多方面的对比。通过领域语料预训练字嵌入以及对已有实体识别模型进行Fine-tuning两种方式进行深度学习的领域预处理,使得深度学习方法更好地应用于医疗实体识别。因受到领域数据集大小的限制,深度学习对中文医疗实体识别的效果不及DLAM,但由于深度学习对长期依赖中的隐含特征更具有优势,对于字符长度较长的医疗实体,深度学习模型表现出更强的敏感性。(4)本文证明了构建的DLAM模型对中文电子病历医疗实体识别具有普适的高效性。并从DLAM对真实儿科病历进行的医疗实体识别结果中发现了常见的儿科发病特点。
参考文献(略)
参考文献(略)