本文是计算机论文,针对生物医学领域命名实体存在的众多问题,本文提出的基于机器学习的方法表现出了较好的性能,能够高效快速地从海量生物医学文献中自动获取实体的名称及类别,主要的研究工作包括三个部分:(1)采用CRF算法从词本身特征、词语块特征、拼写特征、构词特征、上下文特征、词缀特征、词形还原等特征集中筛选出最优的特征组合。分析了各个特征对识别结果的影响,进一步对特征集进行优化,从而提高CRF模型的性能。(2)充分利用词的信息和文本更深层次的语义信息,将词向量应用于生物医学命名实体识别,分析对模型性能的影响。同时,采用词向量结合Bi-LSTM-CRF算法对实体进行识别,并分别与LSTM算法、Bi-LSTM算法进行对比实验分析,说明本文所提出的Bi-LSTM-CRF算法的有效性。(3)生物医学命名实体识别系统的设计与实现。主要从系统总体架构、功能设计、系统开发技术以及系统功能实现几方面介绍,实现了实体识别、实体查询和实体关系抽取等功能,并将其更加直观地展示出来。
.......
第一章绪论
本文主要对生物医学英文文献中的命名实体识别进行研究,相关的研究内容主要从以下六个章节进行论述,各个章节的内容及框架结构如下:第一章:绪论。重点描述了生物医学领域实体识别的研究背景及意义,阐述了命名实体识别技术的国内外发展现状和未来方向以及对本文所做的工作进行了简要的概述。第二章:相关理论与技术介绍。阐述了生物医学命名实体识别的理论和相关模型的介绍,主要包括隐马尔可夫模型、条件随机场模型和长短期记忆神经网络模型等,分析了各个模型的优缺点。第三章:基于CRF的生物医学实体识别方法。本章节采用了条件随机场的命名实体识别方法,并进行各个特征之间的对比实验,分析各个特征对实验结果的影响,筛选出最优的特征组合的集合,实验结果表明该方法具有较好的性能。第四章:基于Bi-LSTM-CRF的生物医学实体识别方法.重点阐述了深度学习中的双向长短期记忆网络联合CRF的命名实体识别模型的训练、优化、测试和评估过程。最后对LSTM算法、Bi-LSTM算法以及Bi-LSTM-CRF算法进行对比分析,通过实验验证了本章节提出的双向长短期记忆神经网络和条件随机场联合算法优于其他几种类型的算法;同时,与现有的先进技术进行对比实验分析,进一步表明了此方法的有效性。
......
第二章相关理论与技术介绍
2.1生物医学命名实体识别概述
针对上述目标函数,求解其最大值,得到最优的权重值,从而得到CRF模型。这是一个无约束优化问题,求解方式很多,但在序列标注问题中涉及到的特征函数维度较高,需要对特征进行降低维度的操作。条件随机场的预测问题是在已知条件随机场P(Y|X)和输入序列x,求条件概率最大的输出序列也就是标注序列,换句话说,就是对输入序列进行序列标注。其中条件随机场的预测算法使用最广泛的是维特比算法。相关模型介绍HMM算法默认只考虑前一个状态(词)的影响,忽略了更多上下文信息(特征),并且HMM已在很多信息处理(特别是语音处理)的范畴内被普遍使用,同时也在词性标注、短语分块及信息提取等多项任务中得到大量的应用.但在多数场景下,特别是在处理的数据量较大的情况下,观察序列更多的是以一种多重的交互特征形式表现出来,观察元素之间具有普遍的长程相关性,限制和约束了HMM的效果。
2.2相关模型介绍
本章首先对生物医学命名实体识别进行简单的概述,紧接着对常见的基于浅层的机器学习和深层次的神经网络方法进行了详细地介绍,主要包括隐马尔可夫模型、CRF 模型和长短期记忆神经网络模型等,并分析总结了各个模型的优缺点。尽管通过 LSTM 神经网络训练学习出的模型可以达到令人满意的预测效果,但是也存在着以下问题:1)无法从模型中直接解读到数据变化的内在原因,仍属于“黑箱模型”的范畴。因为在模型训练中难以看到数据变化的内在机理,所以模型预测精度的进一步提高变得相对难;(2)神经网络的泛化能力与训练数据密切相关,所以训练集的生成也是一个难题;(3)迄至今日,还没有完备的理论技术来决定网络隐含层的节点数,一般依赖于经验。
....
第三章基于CRF的生物医学命名实体识别......................14
研究内容..................................................................14
CRF方法...................................................................18
第四章基于Bi-LSTM-CRF的生物医学命名实体识别.....25
词表示模型..............................................................25
Bi-LSTM-CRF模型..................................................27
实验结果与评价......................................................30
本章小结..........................................................32
第五章生物医学命名实体识别系统的设计与实现............34
命名实体识别系统的设计......................................34
命名实体识别系统的实现......................................36
......
第五章生物医学命名实体识别系统的设计与实现
5.1命名实体识别系统的设计命名
实体识别是自然语言处理领域的基础,对信息检索、智能问答系统、机器翻译和知识库构建等研究和应用具有重要的意义。目前,生物医学文献以每周数千篇论文的速度快速增长带来大量有价值的信息。生物医学命名实体识别提取重要命名实体,如基因、蛋白质和细胞,这是一个在生物医学文本中挖掘知识的自动化系统中具有挑战性的任务,对于大多数科学家来说,跟上快速增长的文献几乎是不可能的[50]。生物医学文献可以当成是一个庞大的非结构化数据库,使文本挖掘和自然语言处理技术得以发挥重要的作用。文本挖掘已然成为一种有效的解决方法,通过使用自然语言处理、机器学习和数据挖掘等技术处理大型文本集合,将非结构化文本表示为结构化的生物医学信息。本文运用第四章提出的实体识别模型,以关键词“autism”为例,检索出近三年来的文献共计11660篇,并对这些文献进行实体识别,标注出其中的实体名称。同时,将各个实体分别存入到数据库中,由此完成了实体识别的工作,为下一步进行关系的抽取提供了前提。
5.2命名实体识别系统的实现
实体识别操作主要用于标注出文本中的实体信息,主要包含protein、DNA、RNA、cell_type、cell_line五类实体.如图5.6所示在文本框内输入文本数据,点击提交按钮后得到的结果如图5.7所示,系统能够将识别出的实体标注出来,为了区分实体的类型,不同类型的实体用不同的颜色进行标注,如图5.7所示,进而实现了实体识别.该系统利用Echarts技术来实现实体间关系的可视化展示,若两个实体出现在了同一篇文献的摘要中,则本文认为它们之间存在着某种联系;然而这些联系不是单一的,不同类别的实体存在的关系是不同的。该系统结合实际需求建立了protein与protein之间相互作用关系,本文定义的protein与protein间的关系指的是protein类型的实体同时出现在了一个句子中,则认为它们之间存在着一种联系,然后统计出protein实体之间在一个句子中共现的次数,根据出现次数的大小来设定结点间距离,该系统只展示了出现次数较多的部分protein实体间的关系如图5.12所示。
....
第六章总结与展望
随着互联网科技的飞速发展,生物医学领域研究的不断进步,每年发表的文章和出版的书籍呈爆炸式增长。为了合理利用这些海量的数据资源,已经存在了几项人工管理工作,以便获取文本中实体信息(如基因、蛋白质等)及其相互关系(如protein-protein相互作用)。然而,在这个大数据时代下,要人工整理这些数据显然是行不通的,需要应用更加智能化的方法来处理这些海量的文献。其中,文本挖掘技术是一个高效快速的方法,其包括四个任务:信息检索、命名实体识别、关系提取和知识发现;命名实体识别是最基本的文本挖掘问题,也是至关重要的一步,为其他几个任务提供了前提。但是由于生物实体名称的特殊性和复杂性、没有统一的制定规则以及新的实体不断涌现等因素存在,使得生物医学范畴内的实体识别相对困难。因此,本文分析了生物医学领域命名实体识别的国内外的研究现状,介绍了当前常用技术的相关理论及其存在的不足,重点对基于机器学习的方法进行了深入的研究与探索。在第三章和第四章进行了各个实验的对比和分析,表明了算法的有效性,第五章设计实现了命名实体识别系统主要体现算法的应用价值。
参考文献(略)
参考文献(略)