计算机论文哪里有?本文提出了基于改进的RAKEL算法,充分利用心电图数据标签间具有相关性的特性,改善了RAKEL算法没有充分考虑标签相关性的问题,提高心电图多标签分类问题的准确性。
第一章 绪论
1.2国内外研究现状
1.2.1 心电智能诊断研究现状
心电图可以记录人体心电信号的每一个变化情况,心电信号的一个变化,可以引起多种病症的出现,对于心律失常的诊断具有不可替代的作用,智能诊断技术也随之发展起来,成为研究热点[14]。目前心电智能诊断技术主要有基于专家系统的诊断方法和基于神经网络的诊断方法[16]。
基于专家系统的诊断方法,通过心电图诊断仪对心电图做一个初步分析后,专家根据诊断仪给出的异常位置及病症判别,进行重点关注分析,从而减轻了医生的负担,但是此方法只能关注较少的心律,具有局限性。从而,心电图自动智能专家系统被提出[17],首先将医学诊断知识灌输到计算机中,然后该系统则仿照专家诊断的经验和诊断思路分析心电图,最后结合医学知识和模拟专家思路进行推理,给出最终的诊断。专家系统重点是利用专家的经验给出诊断结果,无法合理利用心电图数据本身的相关信息,缺乏自动获取信息的能力。
随着神经网络的发展,国内外出现了许多将神经网络应用到心电智能诊断的研究。文献[18]采用了34层深度神经网络模型,对12种心律进行了自动分类,结果显示,该模型的判别能力超过了普通专家对病症的判别。Chang等人[19]利用长短时记忆网络模型检测了12种常见心律,虽然其预测结果高于专家判别结果,但是其缺点是不能解释复杂的心电图。Yildirim等人[20]利用患者12导联心电图,通过深度神经网络,学习心电图表征及时间序列,对4类常见心律失常进行了分类。另外,Hong等人[21]将特征工程和深度神经网络结合起来,从心电图数据中检测心律失常。张异凡等人[22]提出了基于长短时记忆网络和深度神经网络并行组合模型的方法,对心电图病症进行分类。Chen等人[23]提出基于多特征提取和卷积神经网络的心房扑动识别算法。以上心电智能诊断算法都是基于深度学习模型进行,深度学习模型拥有数百万个参数,涉及许多隐藏层,对与人们来说仿佛一个黑盒,这对于搭建一个安全,高性能的医疗诊断模型来说,具有一定的影响。并且在预测时,一旦遇到新的数据,则预测结果准确度将会降低,需要对模型重新训练,将耗费大量的时间,泛化性能较低。
第三章 弱标签心电数据的清洗
3.1问题描述和方法概述
针对心电图数据的智能诊断,通常在大量的具有完整且准确的心电图数据上训练模型。但是获取标记完整且正确的心电图数据是比较困难。如果想要给获取的数据打上标签,需要由专业医生花费大量的时间才能完成,需要极大的人力资源和极高的成本。例如,一张病人的心电图记录有30分钟,专业的医生可能只根据自己的专业知识打标签,那么不同专业的医生会给一条样本打上不同的标签。因此需要大量的专业医生对其标记、校正,并且在长时间诊断过程中会存在漏判、误判的情况。所以针对弱标签数据,提出了迭代清洗算法,代替人工清洗。
第一步,去除错误标记数据,将完全标记的标准数据集,按照病症的有无分别进行聚类,然后根据弱标签数据的初始标签,计算样本到标准数据集正负类簇的距离,样本最近邻k实例集的标签相似性,来判断是否该样本标签是否错误标记;第二步,添加缺失记标签,利用标签间关联规则,挖掘出标签类簇间包含规则,利用类簇间关联规则添加缺失的标签;第三步,迭代清洗数据,重复上述两个步骤,直到所有样本都清洗完全。
第四章 基于改进的RAKEL的多标签分类算法
4.1问题描述和方法概述
文献[12]提出的RAKEL算法,其基本思想是从初始标签集中随机选择𝑘个标签构成标签子集,并且标签大小参数𝑘需要用户进行输入确定,这种固定标签子集大小的方法对模型的预测性能有一定的影响,很难确定适合的参数,并且标签之间可能存在着一定的依赖关系,随机选择标签子集的方法并没有充分考虑标签之间的相关性,同样影响模型的预测性能。针对上述问题,提出了基于贝叶斯的RAKEL算法,具体框架图见图4.1,主要分为两部分,确定标签子集和进行LP分类训练。
4.2基于贝叶斯和最优特征空间相似性确定标签子集
本小节主要介绍了利用贝叶斯和最优特征空间相似性确定标签子集。首先根据贝叶斯网络的有向无环图,确定潜在标签子集,然后根据贝叶斯网络的条件概率表进一步检验标签的区分度确定候选标签子集,最后利用最优特征空间相似性进一步过滤候选标签子集,确定最终的标签子集。
4.2.1 基于贝叶斯有向图确定潜在标签子集
贝叶斯网络是一种概率的图模型[47],由有向无环图(Directed Acyclic Graph, DAG)和条件概率表(Conditional Probability Table, CPT)两部分组成(如图4.2),允许表示节点之间的依赖关系。根据DAG和CPT,可以快速得到每个节点与其父节点的所有组合的概率。
有向无环图的每个节点代表一个变量,每一条有向边代表一个依赖关系,如果一条有向边是由节点A到B,则A是B的父节点,而B是A的后代。给定其父节点,每个变量条件独立于图中它的非后代,如图4.2,如果已知C下壁心肌梗死的结果,那么C的父节点A和B就不再提供D的任何附加信息。
第五章 总结与展望
5.2展望
虽然通过机器学习迭代清洗弱标签数据,改善了弱标签数据人工标记耗时,耗力,成本极高的问题,扩大了原始数据集,并且通过贝叶斯网络挖掘标签间相关性,由算法本身确定标签子集的大小,改善了RAKEL算法没有考虑标签间相关性,需要人工提前输入标签子集大小的问题,提高了模型的预测性能,但是仍然存在不足和有待完善的地方,具体为:
首先,利用标准数据集作为标杆,通过样本到标签正负类簇距离,样本最近邻k实例集添加相关标签,挖掘标签类簇之间的包含规则添加候选标签,对弱标签数据进行迭代清洗。但在整个迭代清洗结束后,仍然会存在不确定的标签无法判别的情况,不能很好的将样本标签完全判别出来,下一步需要深入研究的是,对提出的算法进一步优化,经过迭代清洗后,可以将所有样本的相关标签完全且正确地确定下来。
其次,改进的RAKEL算法在利用贝叶斯找到标签子集后,需要进一步检测标签子集的相关性时,只是考虑了标签子集内各个标签的共同最优特征空间个数,未来可以考虑如何使用更合适的校验方法来检测标签子集的相关程度,确定最终标签子集,并且在标签子集的最优特征空间上训练LP分类器时,对标签子集的整个最优特征空间的确定方法也需要进一步改进,进一步提高模型的预测性能。
参考文献(略)