第二章 相关背景知识研究概述
2.1 聚类算法简述
2.1.1 聚类分析的基本概念
聚类是最基本的人类认识活动之一,对事物进行适当的聚类能方便研究,有助于人类掌握事物的内在规律。聚类分析作为数据预处理过程仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组,是进一步分析及处理数据的基础。其目标是,组内的对象相互之间是相似的(相关的),而不同组中的对象是不同的(不相关的)。组内的相似性(同质性)越大,组间差别越大,聚类就越好。
2.1.2 主要聚类算法分类
现有的主要聚类算法大致可分为以下几类:划分方法、层次方法、基于密度的方法、基于网格的方法、以及基于模型的方法。以下是对上述聚类算法的简要介绍和简单的分析及比较。
2.1.2.1 划分方法
划分聚类(partitional clustering)将数据对象集划分成不重叠的子集(簇),使得每个数据对象恰好在一个子集中。给定一个有 n 个对象或者元组的数据集,划分方法将对其构造 k 个分组,每一个分组代表一个聚类,并且 k≤n。同时这 k 个分组满足下列条件:每一个分组至少包含一个对象,每一个对象属于且仅属于一个分组。某些使用模糊划分技术的算法不要求每一个对象属于且仅属于一个分组,一个对象可能会被分到多个组里。对于给定的 k,该算法首先给出一个初始的分组,以后经过反复迭代来改变分组,使得每一次改进之后的分组方案均比前一次好。分组时要求同一分组中的对象尽可能地“接近”,不同分组中的对象尽可能地“远离”。基于划分的聚类分析算法有 K-平均算法(K-means 算法),在此算法中每个簇用该簇中对象的平均值表示;K-中心点算法(K-medoids 算法),此算法中每个簇用接近聚类的中心的一个对象表示;CLARANS 算法等。此类启发式聚类算法对中小规模的数据库中发现的球状簇很适用,但对处理大数据集及复杂形状时不尽如人意。
2.1.2.2 层次方法
层次聚类(hierarchical clustering)允许簇具有子簇。层次聚类算法按数据分层建立簇,形成一棵以簇为节点的树。如果按自底向上进行层次分解,则称为凝聚的(agglomerative)层次聚类; 而按自顶向下的进行层次分解,则称为分裂法(divisive)层次聚类。凝聚的层次聚类首先将每个对象作为一个簇,然后逐渐合并这些簇形成较大的簇,直到所有的对象都在同一个簇中,或者满足某个终止条件。分裂的层次聚类与之相反,它首先将所有的对象置于一个簇中,然后划分为越来越小的簇,直到每个对象自成一簇,或者符合某个终止条件,例如达到了某个希望的簇数目,或两个最近的簇之间的距离超过了某个阈值。层次方法可以在不同粒度水平上对数据进行探测,而且容易实现相似度量或距离度量。但是,单纯的层次聚类算法的终止条件含糊,而且执行合并或分裂簇的操作不可修正,这很可能导致聚类结果质量很低。另外,由于需要检查和估算大量的对象和簇,才能决定簇的合并或分裂,所以这种方法的可扩展性较差。层次方法的缺陷在于:只要一个步骤如合并或分裂完成,就不能被撤消。因此,通常在解决实际聚类问题时要把层次方法与其他方法结合起来。层次方法和其他聚类方法的有效结合可以形成多阶段聚类,能够改善聚类质量。这类方法包括 BIRCH、CURE、ROCK、Chameleon 算法等。
第二章 相关背景知识............................... 7
2.1 聚类算法............................................... 7
2.2 多主体技术.................................................. 10
2.3 浅谈数学形态........................................................ 13
第三章 基于多主体技术和数学形态学....................17
3.1 基于 Agent 和数学形态学.................................17
3.2 算法描述...................................................................18
3.3 参数设定及边界.....................................................20
3.4 算法的复杂度....................................................21
3.5 实验 ........................................................21
第四章 一种基于多主体技术的..........................31
4.1 基于 Agent 和 数学形态学的.............................31
4.3 边界处理、图像内部标记和 agent ...........................37
4.4 算法的复杂度..............................................37
第五章 总结与展望
5.1 全文总结
聚类分析是数据挖掘研究领域中重要的研究课题,“物以类聚,人以群分”,聚类方法是从数据本身出发,旨在发现有用的对象组(簇),簇即潜在的类,挖掘数据内在的特征关系,自然体现数据集中蕴含的类别知识。聚类质量的好坏直接影响它所服务的决策。聚类拓宽了人们对客观现实的认识,是概念描述和偏差分析等众多数据分析和处理的先决条件。论文的主要研究内容归纳如下:
(1)系统地研究了数据挖掘中经典聚类算法的基本划分方法及其聚类算法的典型要求。简要介绍了多智能体和数学形态学相关的基础理论概念,及两者结合的可行性。
(2) AMMC(The Clustering Algorithm Based on Agent and Mathematic Morphology)聚类算法是一个基于数学形态学和 agent 技术的聚类算法,多智能体技术与数学形态学两者的结合是一个全新的领域。通过初步探索,尝试用灰度形态学膨胀和腐蚀运算采用变结构元素对栅格数据进行扫描确定数据点应属于哪个聚类簇并标识出;可以快速处理任意的、复杂的聚类形状。该算法具有结构元可变聚类的特性,并易于实现高性能并行运算,从实验结果看,AMMC 算法的聚类的质量和实时性是可保证的,同时,把该算法应用到 DEM(数字高程图像)检验算法的有效性,并针对不同的数据集验证算法的收敛性,准确性及鲁棒性。实验结果验证了 AMMC 算法的合理性,准确性和灵活性。
(3) 对 AMMC 聚类算法进行改进为进一步适应图像的空间异质性给出 ICAA(ImageClustering Algorithm through intelligence Agent and multi-structure element)聚类算法,本算法用给出的 ONA 算子采用不同形状的结构元素在一幅图像上并行实施灰度膨胀或腐蚀操作对脑部医学核磁共振图像进行聚类。通过实验证明改进的算法为应对图像空间异质性较好地做了前期准备。
(4) Agents 在二维图像空间移动,同时依照给出算子利用少量的局部邻域信息做相应操作便能自组织达到较好的聚类结果,agents 移动范围在其 Moore 邻域,经过一定代数的迭代,自组织地形成聚类簇,聚类过程是动态地、并行地可视化呈现。上述两种聚类算法均具有直观特性,并且操作简单,不但能实时修改相应参数且对参数的限制较少,计算成本相对较小,无需较多的先验知识和预处理操作,对初始聚类点不敏感勿需事先输入聚类簇数,具有分布式并行计算功能和初步的自主分析能力。能够处理任意聚类形状,聚类质量比较满意,可以解决聚类质量与聚类算法中的收敛速度之间的矛盾。