聚类分析——多变量分析

2010-12-18 MedSci原创 MedSci原创

沈浩但还是沿用过去的方式来讲讲聚类分析Cluster Analysis吧！物以类聚，人以群分，聚类分析是一种重要的多变量统计方法，但记住其实它是一种数据分析方法，不能进行统计推断的。当然，聚类分析主要应用在市场细分等领域，我们也经常采用聚类分析技术来实现对抽样框的分层，我就不多罗嗦了。     聚类分析：顾名思义是一种分类的多元统计分析方法。按照个体或样品(in

沈浩

但还是沿用过去的方式来讲讲聚类分析Cluster Analysis吧！物以类聚，人以群分，聚类分析是一种重要的多变量统计方法，但记住其实它是一种数据分析方法，不能进行统计推断的。当然，聚类分析主要应用在市场细分等领域，我们也经常采用聚类分析技术来实现对抽样框的分层，我就不多罗嗦了。

聚类分析：顾名思义是一种分类的多元统计分析方法。按照个体或样品(individuals, objects or subjects)的特征将它们分类，使同一类别内的个体具有尽可能高的同质性(homogeneity)，而类别之间则应具有尽可能高的异质性 (heterogeneity)。

我们也可以对变量进行聚类—分类，但是更常见的还是对个体分类（样本聚类——细分）。为了得到比较合理的分类，首先要采用适当的指标来定量地描述研究对象（样本或变量，常用的是样本）之间的联系的紧密程度。常用的指标为“距离”和“相似系数”，假定研究对象均用所谓的“点”来表示。
在聚类分析中，一般的规则是将“距离”较小的点或“相似系数”较大的点归为同一类，将“距离”较大的点或“相似系数”较小的点归为不同的类！（一般的相似系数就是相关系数了）

基本概念：

需要一组表示个体性质或特征的变量，称之为聚类变量。根据个体或样本之间联系的紧密程度进行分类。一般来说分类变量的组合都是由研究者规定的，不是像其它多元分析方法那样估计推导出来的。
聚类分析前所有个体或样本所属的类别是未知的，类别个数一般也是未知的，分析的依据就是原始数据，没有任何事先的有关类别的信息可参考。所以：严格说来聚类分析并不是纯粹的统计技术，它不像其它多元分析法那样，需要从样本去推断总体。聚类分析一般都涉及不到有关统计量的分布，也不需要进行显著性检验。聚类分析更像是一种建立假设的方法，而对假设的检验还需要借助其它统计方法。

聚类方法：

聚类分析简单、直观。
聚类分析主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析；
不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解；
聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响。
研究者在使用聚类分析时应特别注意可能影响结果的各个因素。
异常值和特殊的变量对聚类有较大影响
当分类变量的测量尺度不一致时，需要事先做标准化处理。

当然，聚类分析不能做的事情是：

自动发现和告诉你应该分成多少个类——属于非监督类分析方法
期望能很清楚的找到大致相等的类或细分市场是不现实的；
样本聚类，变量之间的关系需要研究者决定；
不会自动给出一个最佳聚类结果；

我这里提到的聚类分析主要是谱系聚类（hierarchical clustering）和快速聚类（K-means）、两阶段聚类（Two-Step）；

根据聚类变量得到的描述两个个体间（或变量间）的对应程度或联系紧密程度的度量。
可以用两种方式来测量：

采用描述个体对（变量对）之间的接近程度的指标，例如“距离”，“距离”越小的个体（变量）越具有相似性。
采用表示相似程度的指标，例如“相关系数”，“相关系数”越大的个体（变量）越具有相似性。

计算聚类——距离指标D(distance)的方法非常多：按照数据的不同性质，可选用不同的距离指标。欧氏距离(Euclidean distance)、欧氏距离的平方(Squared Euclidean distance)、曼哈顿距离(Block)、切比雪夫距离(Chebychev distance)、卡方距离(Chi-aquare measure) 等；相似性也有不少，主要是皮尔逊相关系数了！

注意：上面主要在谱系聚类方法中采用，但谱系聚类主要用在变量聚类上，如果对样本聚类样本不能太多了，否则你要等很长时间，还不一定有用！

总体推荐：

聚类变量的测量尺度不同，需要事先对变量标准化；
聚类变量中如果有些变量非常相关，意味着这个变量的权重会更大
欧式距离的平方是最常用的距离测量方法；
聚类算法要比距离测量方法对聚类结果影响更大；
标准化方法影响聚类模式：
变量标准化倾向产生基于数量的聚类；
样本标准化倾向产生基于模式的聚类；
一般聚类个数在4－6类，不易太多，或太少；
数据挖掘软件中的聚类更理想

当然我现在聚类都用数据挖掘技术了，其实聚类分析采用数据挖掘技术更合理，毕竟是发现知识，我们事先不知道是否存在显著差异的细分市场，而且往往在统计分析聚类中，需要研究者主观给出聚类变量，得到的结果也可能是研究者或客户能想到的，往往客户最希望得到事先不知道的，直觉不能感知到的，数据挖掘就体现了这一点。当然采用数据挖掘软件得到的聚类结果，也更直观，最重要的是采用SPSS聚类的结果要呈现出来，是个体力活，用Clementine得到的结果就非常容易看出来和理解了！

关于市场细分中的聚类分析，主要是采用两阶段聚类或快速聚类，一般要先进行因子分析，聚类分析，类的识别，聚成几类，类的稳定性测试，选择目标类，定位，描述细分市场，市场营销组合等！

版权声明：
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (1)

#插入话题

插入图片

[GetPortalCommentsPageByObjectIdResponse(id=2439, encodeId=c97e2439fc, content=不知道采用SPSS聚类分析出来的结果该如何解释？, beContent=null, objectType=article, channel=null, level=null, likeNumber=180, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=6e1940707, createdName=jiangfch, createdTime=Sat Jun 25 11:05:00 CST 2011, time=2011-06-25, status=1, ipAttribution=)]
2011-06-25 jiangfch

不知道采用SPSS聚类分析出来的结果该如何解释？

180 0

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

研究设计与统计

聚类分析——多变量分析

科室

工具

服务