我在学matlab的统计工具箱,其中linkage命令生成一个系统聚类树,那是个什么东西?
參考答案:在经济、社会、人口研究中,存在着大量分类研究、构造分类模式的问题,比如在人口研究中,需要构造人口生育分类模式,人口死亡分类函数,以此来研究人口的生育和死亡规律。又如在经济研究中,为了研究不同地区农民家庭收支的分布规律,需要采用聚类分析作分类研究。过去人们主要靠经验和专业知识,作定性分类处理,很少利用数学方法,许多分类往往带有主观性和任意性,不能揭示客观事物内在的本质差别和联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。多元统计分析逐渐地被引进分类学中,形成了数值分类学,并且从数值分类学中逐渐地分离出聚类分析这个分支。
聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类,而描述其亲疏程度通常有两个途径,一是把每个样品看成是m维(变量的个数为m个)空间的一个点,在m维坐标中,定义点与点之间的某种距离,另一个是用某种相似系数来描述样品点之间的亲疏程度。
当确定了样品或变量问的距离或相似系数后,就要对样品或变量进行分类,分类的方法很多,一类方法是在样品距离的基础上定义类与类之间的距离,首先将m个样品自成一类,然后每次将具有最小距离的两类合并,合并后重新计算类与类之间的距离,这个过程一直继续到所有样品归为一类为止。把这个过程作成一张聚类谱系图(Hierarachical diagram),这种聚类方法称为系统聚类法(又称谱系聚类)。另一种分类方法是将m个样品初步分类,然后根据分类函数尽可能小的原则,对已分类别进行调整,直到分类合理为止,这称为调优法,如动态聚类法就属于这种类型。
此外还有模糊聚类、图论聚类、聚类预报等多种方法。
模糊聚类法是利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。图论聚类法是利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法。聚类预报是利用聚类方法处理预报问题,主要是处理一些异常数据,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报弥补了回归分析及判别分析方法之不足,这是一个很值得重视的方法。
在进行聚类分析处理时,样品间的相似系数和距离有各种不同的定义,而这些定义与变量的类型关系极大,通常按照它们的特性来分类,变量的特性有三种类型。
具体: