本文是一篇计算机论文,计算机专业涵盖软件工程专业,主要培养具有良好的科学素养,系统地、较好地掌握计算机科学与技术包括计算机硬件、软件与应用的基本理论、基本知识和基本技能与方法,能在科研部门、教育单位、企业、事业、技术和行政管理部门等单位从事计算机教学、科学研究和应用的计算机科学与技术学科的高级科学技术人才。(以上内容来自百度百科)今天为大家推荐一篇计算机论文,供大家参考。
第 1 章 绪 论
1.1 选题背景及意义
随着人类基因组计划(Human Genome Project)和高通量测序技术的出现,生物数据累积的数量和速度急剧增加,包括基因组学、转录组学、蛋白质组学在内的海量生物组学数据得以累积,生物信息学研究进入了大数据的时代。生物大数据这座巨大宝藏中蕴藏的价值不仅体现在生物科研领域,而且已涉及健康、医学等领域。如何从数量庞大、形式多样的海量生物数据中挖掘出有价值的信息,吸引着科学家们的浓厚兴趣。人体内有许多承载着不同遗传信息的基因,这些基因共同作用保证身体每个功能正常运行。根据是否具有编码蛋白质的功能,可以将基因分为编码 RNA 和非编码 RNA(Noncoding RNAs,简称 ncRNAs)[1]。编码 RNA 通过翻译成蛋白质等各种复杂过程,实现人体各项不同功能,让它们有序运行。然而,这些具备蛋白编码功能的基因只占人类基因组中的极其少数 (大约 1.5%),不具备编码功能的非编码 RNA 数量十分庞大[2]。这类非编码的 RNA 过去曾一度被错误地认为是基因到蛋白质转录过程中的噪音,随着越来越多证据的出现,这些非编码的 RNA已经被证明对不同的生物进程具有重要的调控作用[3, 4]。此外,根据转录长度是否大于 200 个核苷酸(nt),非编码 RNA 可分为短非编码 RNA(sncRNA)和长非编码 RNA(lncRNA)[5]。miRNA 属于短非编码 RNA(大约包含 21-24 核苷酸),是一种单链、内源生的、进化保守的非编码 RNA,通常通过与目标基因信使 RNAs(mRNAs) 碱基配对对基因表达进行调控[6-8]。从已有的研究发现,miRNA 由人类基因组中大约 1-4%的基因组成[9],而且三分之一的人类基因都受到 miRNA 的调控[10]。1993 年维克多·安布罗斯等人发现了第一个 miRNA lin-4,与 lin-28 结合位点互补[8]。不久,第二个miRNA let-7 被确认。巧合的是,这两个 miRNA 是通过遗传筛选方法发现的最先被确认的两个具有正向调控作用的 miRNA[11, 12]。继前两个 miRNA 被发现后,研究 miRNA 的大门被迅速打开。许多 miRNA 在植物、绿藻类、病毒和动物体内被发现[13]。根据最新版本的 miRBase(Release 21), 28645 个条目包括人体内 2588个成熟 miRNA 被发现[13]。接下来的研究成果发现,大部分的 miRNA 发挥着负调控作用。例如,mir-17-92 集群被证明是致癌的,深入的研究表明它与恶性淋巴瘤有关[14, 15]。此外,实验表明 miRNA 在物种之间具有高保守型,甚至有些 miRNA是特定排列的。
...........
1.2 国内外研究现状
鉴于 miRNA 与癌症等人类疾病之间的密切关系,识别疾病相关的 miRNAs已经成为生物医学等科学研究领域探索的热点问题。近年来,研究人员通过生物实验方法和计算预测方法对致病 miRNAs 识别作出了巨大的贡献。本文主要研究的是基于计算预测的方法,因此,对生物实现相关方法不做详细描述。利用计算预测方法识别致病 miRNAs,主要是根据已有的 miRNA 与疾病关联数据及相关的一些生物组学数据,构建预测模型,对潜在致病 miRNAs 进行挖掘。许多流行的机器学习方法包括深度学习,在复杂疾病相关信息挖掘中都得到了广泛应用。接下来,根据本文研究内容,对当前国内外研究现状进行概述。miRNA 作为具有重要调控功能的一类非编码 RNA,通过与靶标基因的 3-UTR以碱基配对的方式进行结合,从而调控基因表达。来自超过 24000 篇专业报道和临床研究证据表明,miRNA 在包括癌症在内的复杂疾病中扮演着重要的调控作用。miRNA 的异常表达会引起许多人类复杂疾病的形成。近年来,识别复杂疾病相关的 miRNA 研究吸引了研究人员的浓厚兴趣。相关的研究方法可以分为两种,一是基于生物实验的验证方法,另一个是基于计算方法的致病 miRNA 预测方法。当前,基于生物实验的技术主要有 Northern Blot(杂交法)、定量 PCR 技术和Microarrays(基因芯片法)[13]等,比如,利用 RT-PCR 或杂交法等技术检测 miRNA表达水平,从而研究某种复杂疾病相关的 miRNA 生物标记物,为疾病预防诊断提供线索和新思路。
.........
第 2 章 致病 miRNAs 预测中相似性网络构建及相关问题概述
了解人类复杂疾病潜在的分子、生理和病理机制是生物医学研究最基本、最重要的目标之一。最近,随着有关 miRNA 功能被科学家们更深入的研究和发现,对人类疾病机制的研究已经从基因层面扩展到 miRNA 层面。越来越多的证据表明,几乎每个 miRNA 都与数以百计的靶基因具有相互作用的关系,并在某些肿瘤细胞的发生、转移、增殖和分化过程中扮演着“致癌基因”和“肿瘤抑制基因”的角色。为了便于后续章节的理解,本章首先介绍 miRNA 的产生和作用机制,现有 miRNA 相关的一些数据资源,在 miRNA 与疾病关联预测中相似性网络的常用构建方法等内容,为后续研究提供依据。
2.1 miRNA 作用机制以及对疾病的调控功能
在研究 miRNA 对疾病的调控功能之前,首先对 miRNA 的产生机制做简要描述。如图 2.1 所示,动物体内成熟 miRNA 的产生过程主要包括了以下步骤[33]:首先,在细胞核内,miRNA基因由 RNA聚合酶催化从而被转录成大约包含 1000nt的初级 miRNA(pri-microRNA)。然后,Drosha 酶将其加工成长度约 60-70nt,具有茎-环发夹结构的前体 miRNA(pre-microRNA),这两个过程均在细胞核内完成。接着,前体 miRNA 被 Exportin-5 蛋白转送出胞核,在细胞质中由 Dicer 酶催化进一步加工成双链 miRNA 复合体,其中一链即成熟 miRNA;最后双链结构解旋形成 RNA 沉默复合体(RISC),行使对基因表达的调节功能。miRNA 主要是与靶基因 mRNA 共同作用从而对基因发挥调控作用。miRNA通过碱基互补的方式绑定到其对应的靶基因 mRNA 的 3 端非编码区(Untranslatedregion,UTR),从而抑制或降解 mRNA 翻译。根据互补程度,miRNA 与其靶基因mRNA 在绑定位点的互补方式可氛围完全匹配和部分序列互补两种方式,前者导致转录降解,后者导致转录抑制。从已有的研究发现,一个 miRNA 能够调控多达 200 个 mRNA[9],而且三分之一的人类基因都受到 miRNA 的调控[10],可见miRNA 在基因表达调控中具有重要的作用。
.........
2.2 相关数据资源
本文主要研究的具有调控功能的 miRNA 和人类疾病的关联。随着测序技术和生物实验技术的不断发展,以及国内外研究者们的不懈努力,大量丰富的数据资源得以累积。与致病 miRNAs 研究相关的主要数据资源如表 2.1 所示,本节主要对与论文研究课题密切相关的一些数据资源做简要介绍,包括收集 miRNA 信息的数据库,miRNA 相互作用数据库和 miRNA 与疾病关联相关的数据库等。库当前版本(miRBase 21)包含了 28645 个条目,涉及到了来自 223 个物种的 35828 个成熟 miRNA 的相关信息。miRBase 数据库可以给用户提供搜索已发布的 miRNA 序列、注释、靶标基因、位置等信息。后续章节中计算 miRNA 相似性过程中用到的 miRNA 家族信息就来自于该数据库提供的数据。miRGen[63]数据库旨在研究 miRNA 功能与 miRNA 基因组织之间的关系,提供了 miRNA 基因组织、共转录、靶基因等信息。通过搜索 miRGen 数据库,用户可以获取 miRNA 与基因注释集之间的位置关系信息,以及通过结合广泛使用的靶基因预测程序得到的 miRNA 靶基因信息。Vir-Mir[64]数据库提供了已知的病毒 miRNA,分析了 2266 种病毒的基因组,包括人类、小鼠、老鼠、斑马鱼和拟南芥等物种。用户可以搜索特定病毒的 miRNA发卡序列结构以及潜在靶标基因。miRGator[65]数据库是 miRNA 功能阐释的指导数据库。miRGator 数据库最新版本是 miRGator v3.0,收集了 73 个深度测序数据集,涵盖 41 亿条短读物和 25亿条比对序列。这些数据被分为 38 种疾病和 71 个解剖类别。miRGator 数据库也提供 miRNA 靶基因关联信息,利用功能分析和表达谱与靶基因预测相结合来推断 miRNA 功能。
..........
第 3 章 基于改进低秩矩阵恢复方法的 miRNA-疾病关联预测研究..........26
3.1 问题描述 .......... 26
3.2 相关工作 .......... 26
3.3 数据集及预处理 .......... 28
3.4 基于低秩矩阵恢复算法预测 miRNA-疾病关联 ....... 29
3.5 实验结果与分析 .......... 33
3.6 小结 ....... 45
第 4 章 基于正则化框架融合异构组学数据的 miRNA-疾病关联预测研究 .........46
4.1 问题描述 .......... 46
4.2 RLSSLP 预测模型的总体框架 ........... 46#p#分页标题#e#
4.3 数据集及预处理 .......... 47
4.4 miRNA 相似性网络和疾病相似性网络的构建 ........ 49
4.5 基于正则化框架的信息融合策略预测 miRNA 与疾病关联 ......... 51
4.6 实验结果与分析 .......... 54
4.7 小结 ....... 69
第 5 章 基于混合受限玻尔兹曼机模型的 miRNA-疾病关联类型预测研究 .........70
5.1 问题描述 .......... 70
5.2 相关工作 .......... 71
第 5章 基于混合受限玻尔兹曼机模型的 miRNA-疾病关联类型预测研究
前面两章中已经介绍了两种 miRNA 与疾病关系预测的方法,虽然这些方法在性能评估和案例研究中均表现出不错的性能,然而,预测的结果都是 miRNA与疾病二元关系,即只能预测出 miRNA 与疾病之中有没有关联,而不能预测出具体是哪种关联。本章提出一种新的基于混合受限玻尔兹曼机模型的 miRNA 与疾病关联类型预测模型,该模型在一些方面对传统受限玻尔兹曼机模型进行扩展,从 miRNA 和疾病两个角度构建隐含层单元混合模型,有效提高了预测准确度,该方法能进行 miRNA 与疾病之间的具体关联类型进行预测。
5.1 问题描述
尽管在 miRNA 与疾病关系预测方面已经有了很多不错的研究进展,然而,miRNA 异常调控引起的潜在致病机制仍尚未完全清楚,特别是由不同类型致病机制引起的 miRNA 异常调控所导致的疾病。在人类 miRNA 和疾病关联 HMDD 数据库中,根据不同的证据,将 miRNA 与疾病的关联分为四种类型,包括从遗传学(genetics)、表观遗传学(epigenetics)、循环 miRNA(circulating miRNA)和miRNA 靶基因相互作用(miRNA-target interactions)四个方面所引起的疾病与相关 miRNA 之间的关联。基因改变(如 SNP 或缺失)和表观遗传学变异(如启动子的 CpG 甲基化和异常组蛋白修饰)可能会影响前端 miRNA 的转录,导致 miRNA 的异常表达水平,从而引起疾病。例如,在晚期乳腺癌中,miR-200b 启动子甲基化将降低其表达从而引起乳腺癌细胞转移和激素受体状态改变[131]。慢性淋巴细胞性白血病是由miR-15 和 miR-16 的缺失导致后续下调所引起的[132]。目前,循环 miRNA 被认为是诊断癌症等复杂疾病的生物标记物[133]。例如,let-7a 和 miR-16 与骨髓增生异常综合征(MDS)患者的无恶化存活期和总生存期有关,可作为无创性预后标记物[134]。另外,miRNA 能够通过绑定其靶基因 mRNA 的 UTR 区诱导其转录过程的降解或抑制。miRNA 与靶基因相互作用的异常调控也会导致多种疾病,比如,阿尔茨海默病与 miR-103,miR-107 和它们的靶基因丝切蛋白升高有关[135]。miR-let-7 和其靶基因 KRAS 之间的异常调控会诱发肺癌[136]。此外,同一种 miRNA与同一种疾病相关联,但它们之间可以有不同的关联类型。比如,miR-137 通过靶向 Cdc42 和 Cdk6 抑制肺癌细胞增殖。同时,miR-137 通过 DNA 甲基化在肺癌细胞中表达下调[137]。因此,miR-137 与肺癌之间的关联类型可以分类为表观遗传学和 miRNA 靶基因相互作用两种类型。然而,目前已发现的由不同机制引起的 miRNA 与疾病关联的丰富信息在疾病相关的 miRNA 预测中没有得到很好的利用。绝大多数方法都是预测疾病和miRNA 之间的二元关联,即只能预测出 miRNA 与疾病间是否存在关联,而不能预测出关联的具体类型。如果能预测 miRNA 与疾病之间关联的具体类型,不仅能有助于我们从 miRNA 层面更深入地了解人类疾病的不同致病机制,而且能为疾病诊断和治疗提供更全面的依据。
.........
总结
测序技术的革命性进展使得大量生物组学数据得以累积,非编码 RNA 也越来越多地呈现在人们的视野。这类不具备蛋白编码功能的 RNA 曾一度被错误地认为是基因到蛋白质转录过程中的噪音,然而越来越多地证据证明它们在不同生物进程中具有重要的调控作用。miRNA 是一类具有转录后调控作用的非编码 RNA,参与细胞分化发育等重要生物进程,对神经系统、免疫系统都具有重要调控功能,约三分之一的人类基因都受到 miRNA 的调控。大量证据显示,miRNA 的异常调控能引起许多人类复杂疾病,研究疾病相关的 miRNAs 对于疾病发病机理在分子水平上的理解至关重要,对于设计特定的分子工具对疾病进行诊断、治疗和预防具有重要意义。计算预测方法是生物实验方法的有力补充,能提供预测结果给后续验证实验提供指导,降低时间与费用,对促进复杂疾病相关研究和人类医疗的改善具有深远意义。本文选择 miRNA 作为研究对象,利用已有海量的生物组学数据,结合目前流行的计算方法对疾病相关的 miRNAs 预测问题进行建模,建立新的预测模型挖掘潜在疾病相关的 miRNAs。本文主要完成的工作如下:首先,阐述论文选题依据及研究意义,概述现有疾病相关 miRNAs 计算预测方法,并对深度学习在复杂疾病相关研究中的应用现状进行了总结。其次,对致病 miRNAs 预测研究中的相似性网络构建等关键问题进行了概述,对目前存在的疾病相似性、miRNA 相似性方法进行分析比较,列举了研究相关的数据资源。接下来,本文针对目前已有大多数 miRNA-疾病关联预测模型准确度不高,许多基于监督学习的机器学习预测方法需要负样本,而 miRNA 与疾病之间真正不存在关联的负样本不存在或难以获取等问题,提出了一种基于改进低秩矩阵恢复方法的 ILRMR 模型来预测疾病相关的 miRNA 候选基因。ILRMR 算法整合miRNA 功能相似性、拓扑结构相似性和 miRNA 家族信息重构 miRNA 相似性网络,整合疾病语义相似性和拓扑结构相似性重构疾病相似性网络,然后融合相似性信息基于 RPCA 构建 miRNA-疾病关联预测模型。ILRMR 算法是一个全局预测方法,能同时预测所有疾病相关的潜在致病 miRNAs,ILRMR 不需要负样本,特别是在样本稀疏时仍能保持可靠的预测性能。实验结果显示 ILRMR 算法预测性能优于现有方法。
..........
参考文献(略)