第 1 章 绪 论
1.1 课题的选题意义和目的
在高速发展的时代,每天都会涌现大量的信息,而信息是以数据形式表现在计算机中的。根据性质不同可以把数据分为定性数据和定量数据,下面来简单总结一下定性和定量数据的含义。定性数据是指数据有被分成不同类别的某种特性。一般情况下,可以对定性数据进行具有某种意义的排序,定性数据在现实生活中广泛存在,如学生的成绩有优秀、良好、及格等。定量数据是指可以进行具有数学意义的有序排列和数学运算的数据。它又可以分为离散型数据和连续型数据两类。离散型数据是指只能取在一些特定的离散点离散的数值,如一座城市的公路条数,而连续型数据是能够取到区间值域上的所有值。如人的体温。在绝大多数情况下,一个数据库是这两种属性数据的混合[1]。本文主要介绍和总结有关定性数据和定量数据的离散化方法,为更好的学习形式概念分析打下前提基础。Pawlak Z教授提出的粗糙集合理论为处理离散属性提供了一种良好的工具。粗糙集理论方法就是将这些描述作为数据库,首先从这样的数据库中提取有用信息,其次从这些有用信息中发现知识,再从知识中推理决策属性,最后将这些决策属性应用于系统。这样,数据库中的连续属性离散化问题应运而生。很多数据挖掘和机器学习算法需要处理的数据是离散化数据,例如本文中需要用到的形式概念分析,这就要求在处理前需要把连续属性数据离散化。
形式概念分析以对象与属性之间的关系为基础,建立了一种概念层次结构,其中每个概念都是对象与属性的统一体。概念格利用偏序关系图可以实现数据的可视化,基于这一特性,它已经被广泛地应用于知识发现等领域,作为数据分析和知识处理的形式化工具。利用形式概念分析处理的数据属性必须是离散型,所以需要利用离散化对连续属性数据进行预处理,同时,连续属性进行离散化的效果也直接影响了后面的学习效率。
1.2 数据离散化的发展现状
以前很少人关注离散化算法的研究,通常认为它是数据挖掘领域中的一项辅助性工作。随着数据挖掘的不断发展,人们意识到为了能够应用现有的算法处理数据,需对连续数值属性进行处理使其转变为离散属性。在上个世纪90年代初期,人们开始注重对离散化方法的研究,现如今离散化算法已经取得了很大的发展,许多不同类型的离散方法被提出来。相对最早的是在文献[2]中Chi等人提出的一种最大化信息熵的离散化算法,这种算法基于覆盖离散化空间,求出连续空间上符合要求的分区,以此类推,直到划分结束。随后,文献[3]介绍了等距离和等频率划分的离散化算法,有限制的是,这两种算法需要人为地规定划分的维数,离散化处理结果的质量不高。文献[4]提出了用于分类学习的多间隔离散化算法。
第 2 章 连续数据离散化原理.........................................................................................6
2.1 离散化问题描述 ....................................................................................................6
2.2 典型离散化核心流程 ............................................................................................8
2.3 离散化的相关评估标准 ......................................................................................10
2.4 离散化算法的分类 ...............................................................................................10
2.5 最典型的几种离散化算法 ..................................................................................11
第 3 章 连续属性离散化算法分析比较.......................................................................13
3.1 单变量连续属性离散化概述 ..............................................................................13
3.2 多变量连续属性离散化概述 ..............................................................................22
3.3 本章小结 ..............................................................................................................30
第 4 章 多值定性数据的背景及标尺基础理论...........................................................31
4.1 多值背景及背景运算 ..........................................................................................31
4.2 基本标尺 ..............................................................................................................38
4.3 本章小结 ..............................................................................................................42
第 5 章 泌尿系统疾病诊断实验研究...........................................................................44
5.1 实验数据 ..............................................................................................................44
5.2 实验设计 ..............................................................................................................45
结 论
形式概念分析作为数据挖掘的一个算法,主要用于数据分析和知识处理。它所处理的数据属性需要为离散型,然而现实中获得的数据通常是连续属性的数值。因此,有必要在应用形式概念分析处理数据之前对连续属性值进行离散化,使连续属性符号化。没有任何一种离散化算法是对所有数据集都有效,并且对离散化算法的选择主要由用户的需要和数据集的特点共同决定。实际处理时只能尽量使数据集离散后的结果达到最优。本文根据多种连续数据属性的离散化方法,做了以下工作:
(1) 本文系统的建立了连续属性离散化算法的一个层次框架,按照离散化过程中是否考虑连续属性的关联性,将离散化算法分为单变量和多变量连续属性离散化两大类别,在这个基础上再各自进一步分类,并仔细分析了各种不同类型的离散化方法的过程、优缺点及其改进算法。
(2) 系统的总结了有关形式概念分析中多值背景转变为单值背景的标尺代换基本方法。
(3) 对比各离散化算法对Iris数据集进行离散化处理得到的断点数,可以看到由于单变量连续属性离散化方法没有考虑属性间的相互关联和依赖的特性,使得离散后的断点数比多变量连续属性离散化方法的断点数多,离散化效果不如多变量连续属性离散化方法好。
(4) 对UCI中泌尿系统的数据集做了相关实验,实现了对泌尿系统疾病的诊断,可以通过分析数据的条件属性判断出被测试者的患病情况,离散化后的数据利用形式概念分析做分析处理,有利于知识的提取和发现。