本文是中医论文,本文从中医临床业务流程中中医临床症状采集部分开始,对中医临床症状数据元提取技术做了尝试性研究。主要是尝试采用自然语言处理方式,从临床病历、教材、经典文献、网络资源方面获取对症状的表达、描述、分类,以此从数据元方法论的角度对症状数据进行规范化、标准化。目前所做的工作主要是完成技术路线完整流程,并对其中应用到的算法进行验证以及融合具体应用场景的数据预处理功能,使算法在症状数据元提取过程中能够提高其效率。为了支持临床病历症状术语的识别和数据元的提取,对症状术语的数据结构做了尝试性研究,最终确定为采用在检索效率方面有优势的Trie结构。并对构建的Trie结构的应用做了实验,为领域数据元和术语识别提供基础研究工作。本文主要是从数据共享和交换的角度对中医临床症状规范化做了系列研究,核心工作是采用数据元标准化方法对中医临床症状术语进行规范化研究,并充分利用了现代自然语言处理技术对临床文本病历做处理,生成符合症状术语识别和数据元提取多层级术语字典。
......
第一部分绪论
本研究中,采用自然语言处理技术提取临床症状术语,并结合术语字典提取中医临床诊断数据元,这一过程包含了术语的提取和规范。因此这一技术的应用可以让医务人员可用自然语言详细描述病症情况,充分保留中医临床信息采集特色,但不影响临床信息规范化表示和结构化存储。中医实际临床诊断信息采集非常灵活多变,信息表达很难用一种结构模板来表示。这一现象导致中医结构化电子病历很难深入临床应用。目前投入使用的结构化或半结构化的电子病历系统由于缺乏灵活性、操作复杂费时,还是保留了可供医生用自然语言书写病历的功能。本研究的重要意义就是能够保留灵活的电子病历记录方式,并能够利用自然语言处理等信息化技术对病历进行后期处理,达到结构化、规范化电子病历记录的目标,实现规范化存储病历信息,支持后期数据处理和应用。根据中医临床病历特点,对已有命名实体识别算法进行分析比较,并采用不同中医医生记录的病历比较分析命名实体识别算法的优劣,从中选择出一类合适的命名实体识别算法并改进,构建适用于中医临床诊断症状术语自动提取的算法。
.....
第二部分中医临床数据元及信息抽取技术研究现状
2.1中医临床症状数据元研究现状
当一个具体的值域与一个数据元概念联系在一起时,就产生了一个数据元,如:中医临床症状采集方式有望闻问切四种,望、闻、问、切就是中医临床症状采集方式数据元的值的集合,其中望、闻、问、切可分别用“1、2、3、4”四个数字来表示,那么值域的类型就是数值型,此值域计量单位为种。又如:表示患者的医疗费用的数据元可以一组非负数字来表示其值域,那么货币就是一个可能表示类,人民币就是一种可能的度量单位,该值域的类型为数值类型。为了方便数据元管理和实现数据共享,数据元属性应该按照标准方式进行注册和管理,以此保证达到信息规范化、标准化表示。数据元一般包含名称、定义、数据元允许值、标识类型等属性,如图2.3所示,图中“1:1”和“1:N”表示该属性为必选属性,“0:1”和“0:N”表示该属性为可选属性。数据元标准化过程中,实际上是对数据名称(术语名称)、数据类型、值域以及数据分类的规范化过程。从开发先后顺序来讲,先有数据元,后有对数据元描述的元数据。在信息系统中,元数据通常是面向具体的软件、数据库的应用数据,具有一定的冗余度。而数据元是面向数据模型构建的,其(也称通用数据元)某一领域中是有限的,没有冗余的,可实现某领域中对数据的高效使用。
2.2信息抽取技术研究现状
由于中文语句中的没有词的分隔符,在做信息抽取过程中,中文与英文的处理过程是不一样的。相对来讲,中文的处理更加复杂和困难。一般需要先对中文文本做分词处理,再在处理结果中实现信息抽取、检索等功能。由于中文分词技术研究起步晚,中文文本信息抽取研究起步相对于英文来讲也比较晚,近十多年来研究比较多,并且发展迅速。命名实体是文本中以名称(术语)标识的实体,是能够表达文本含义的基本元素,命名实体识别是指抽取文本中的人名、地点、机构名、专有名词,在生物医疗领域中的命名实体识别技术的应用,可以在文本中抽取疾病名、证名、体征、症状、方剂名、汤药名、中草药名、治法、治则、病因、药品等。中文命名实体识别与抽取在自然语言处理领域有着广泛的应用,是领域中文文本信息处理的重要基础[37]。目前命名实体识别或抽取主要有基于字典、基于规则、基于统计以及规则与统计相结合的方法。
....
第三部分数据元提取方法研究...............................................23
3.1数据元的提取方法........................................................23
3.2数据元提取分析..........................................................24
3.3症状数据元提取三层模型构建研究..........................................25
3.4症状数据元提取原则......................................................29
第四部分中医临床术语字典数据结构和存储架构研究...........................35
4.1症状术语语义分析研究....................................................35
4.2中医临床症状术语字典构建及存储结构......................................40
4.3症状术语Trie字典构建...................................................41
第五部分中医临床症状术语提取方法研究.....................................47
5.1症状术语提取过程.......................................................47
5.2基于HMM的症状提取......................................................49
5.3最大概率结合HMM的症状提取.............................................51
....
第六部分中医临床症状数据元提取研究
6.1中医临床症状数据元提取需求说明
基于现有自然语言技术对系统中的数据做数据元标准化,会存在无法做到全域数据元标准化。同时,症状术语标准化也存在较多问题,在处理症状数据元标准化过程规范症状术语的工作中,应考虑公认的或无歧义的症状术语优先标准化。对于技术无法处理的症状数据,也可以采用人工辅助处理以及后期逐步优化处理;数据元标准化应用效果往往需要通过具体应用来检验,因此在标准化工作过程中要加入动态优化过程,方便提高数据元标准化效果。从第六部分抽取1986条肝病病例记录中的症状术语结果可知:医务人员对患者症状的描述非常多样,症状术语在表述上差异大并不代表其含义具有高区分度,有些可能仅仅是医务人员的表述习惯造成的差异。基于上述原则,本研究采用首选出现频次高的症状术语优先做数据元标准化,对于出现频次较低的(如仅出现1-2次)的症状术语仅采用保留术语描述,可做应用数据元提取,暂时不对其含义、分类做处理,可以通过后期专家鉴定或数据增加后再做详细处理。
6.2数据元定义和值域生成数据元的定义
(1)利用网络爬虫从网络上爬取。选取出现频次最高的作为数据元的初始定义。利用网络爬虫对百度百科检索爬取提取症状术语对应的词条,若百度百科不存在精确匹配的词条,则取搜索页面中第一条链接看是否近似,若近似则爬取近似词条对应文本保存。图6.1就是用python编写的网络爬虫爬取内容,从爬取结果来看,仅从百度百科获取网络症状释义是不够的,而且也不够权威。(2)来自教材、医学字典、经典著作等。由于教材中名词术语的定义都是有一定规则的,对于电子文稿可以通过建立定义规则快速摘取定义。考虑到定义的规范、一致、无歧义,症状的定义应该主要来源于教材、字典、医学字典等权威文献,第一种方式仅作有益补充。
.....
第七部分总结和展望
主要内容总结如下:(1)研究了中医临床症状术语特点、症状与症状之间的关系、症状的特性,以及对症状与证之间关系表达做了浅层探索。(2)研究了数据元的定义和标准化模型、管理方式,并从中医临床症状的特点,研究了临床症状数据元提取模型,为症状数据元提取、管理提供了可行的参考模型。(3)研究了症状术语识别技术,在分析1900多份临床病历记录特点的基础上,结合字典运用HMM、CRF等技术对临床病历文本做了症状术语的提取,在提取过程中兼顾了症状数据元提取需求,尽可能保留症状描述全貌。(4)研究了搜索效率较高的症状术语数据结构,并根据数据元提取需求,生成多层术语存储结构,可满足术语识别、数据元提取以及数据挖掘数据准备的需求。
参考文献(略)
参考文献(略)