因子分析方法——多变量分析

2010-12-18 MedSci原创 MedSci原创

沈浩因子分析（Factor Analysis）是一种非常有用的多变量分析技术。我想说，你要想学好多变量分析技术，一是：理解多元回归分析，二是：理解因子分析；这是多变量分析技术的两个出发点。为什么这么说呢？多元回归分析是掌握有因变量影响关系的重点，无论什么分析，只要研究的变量有Y，也就是因变量，一般都是回归思想，无非就是Y的测量尺度不同，选择不同的变形方法。而因子分析则是研究没有因变量和自变量之

沈浩

因子分析（Factor Analysis）是一种非常有用的多变量分析技术。我想说，你要想学好多变量分析技术，一是：理解多元回归分析，二是：理解因子分析；这是多变量分析技术的两个出发点。为什么这么说呢？多元回归分析是掌握有因变量影响关系的重点，无论什么分析，只要研究的变量有Y，也就是因变量，一般都是回归思想，无非就是Y的测量尺度不同，选择不同的变形方法。而因子分析则是研究没有因变量和自变量之分的一组变量X1 X2 X3 ... Xn之间的关系。

在市场研究中，我们经常要测量消费者的消费行为、态度、信仰和价值观，当然最重要的是测量消费者的消费行为和态度！我们往往采用一组态度量表进行测量，用1-5打分或1-9打分，经常提到的李克特量表。

上面的数据是我们为了测量消费者的生活方式或者价值观什么的，选择了24个语句，让消费者进行评估，同意还是不同意，像我还是不像，赞成还是不赞成等等，用1-9打分；

因子分析有探索性因子分析和证实性因子分析之分，这里我们主要讨论探索性因子分析！证实性因子分析主要采用SEM结构方程式来解决。

从探索性因子分析角度看：

一种非常实用的多元统计分析方法；
一种探索性变量分析技术；
分析多变量相互依赖关系的方法；
数据和变量的消减技术；
其它细分技术的预处理过程；

我们为什么要用因子分析呢？
    首先，24个可测量的观测变量之间的存在相互依赖关系，并且我们确信某些观测变量指示了潜在的结构-因子，也就是存在潜在的因子；而潜在的因子是不可观测的，例如：真实的满意度水平，购买的倾向性、收获、态度、经济地位、忠诚度、促销、广告效果、品牌形象等，所以，我们必须从多个角度或维度去测量，比如多维度测量购买产品的动机、消费习惯、生活态度和方式等；
    这样，一组量表，有太多的变量，我们希望能够消减变量，用一个新的、更小的由原始变量集组合成的新变量集作进一步分析。这就是因子分析的本质，所以在SPSS软件中，因子分析方法归类在消减变量菜单下。新的变量集能够更好的说明问题，利于简化和解释问题。
当然，因子分析也往往是预处理技术，例如，在市场研究中我们要进行市场细分研究，往往采用一组量表测量消费者，首先，通过因子分析得到消减变量后的正交的因子（概念），然后利用因子进行聚类分析，而不再用原来的测量变量了！我想这是市场研究中因子分析的主要应用！
    其实，你可以想象，例如在多元回归分析中，如果多个自变量存在相关性，如果可以用因子分析，得到几个不相关的变量（因子），再进行回归，就解决了自变量共线性问题。（理论上是这样的，但市场研究很少这么操作！）
下面是要理解的因子分析的基本概念：

一种简化数据的技术。
探索性因子分析和证实性因子分析
因子分析就是要找到具有本质意义的少量因子。
用一定的结构/模型，去表达或解释大量可观测的变量。
用相对少量的几个因子解释原来许多相互关联的变量之间的关系。
描述的变量是可观测的——显在变量。
相关性较高，联系比较紧密的变量放在一类。
每一类变量隐含一个因子——潜在变量。
不同类的变量之间相关性较弱。
各个因子之间不相关。

下面我们通过PASW Statistics软件来进行操作！

在进行因子分析前，大家务必明确你的数据集中24个变量是否存在缺失值问题！默认情况下系统采用Lisewase，也即是只要24个变量有一个缺失，该记录删除，也就是说如果你的样本存在大量缺失，可能造成因子分析的样本量大量收缩！

我们将24个变量选择后，选择描述对话框，可以选择KMO和Bartlett的球形度检验！这个指标主要从统计角度给出24个变量是否存在内在结构，也就是潜在因子结构，说白了，就是不适合因子分析！极端可能就是所有24个变量都测量的是一个维度的因子概念，另一个极端就是24个变量全部是正交不相关的，根本不存在因子，不适合因子分析！
接下来我们要选择抽取因子的方法：

在方法上，我们如果不是非常理解或有特殊要求，就选择主成份方法；这也是为什么在SPSS软件中没有独立的主成份分析，其实是包容在因子分析中了！记住一点：如果24个变量存在因子结构，用什么方法得当的结果基本相同！况且，市场研究采用量表24个变量的测量尺度都是一致的！如果你没有特殊要求，默然选择抽取特征值大于1的因子！选择碎石图——也是表达因子选择的图示方式！因为是研究结构，所以从相关矩阵出发，实际上就是标准化后的方差矩阵，没有了量纲！
接下来，我们选择因子旋转方法！

因子旋转是因子分析的核心技巧，也是我们期望得到的结果。旋转的概念就是坐标变换，不过旋转有正交和斜交旋转差别罢了！从解释因子结构的角度正交旋转是最容易解释的，得到的因子也是不相关的；斜交则得到的因子具有相关性，但更符合或能捕捉数据的维度！所以，有一种说法，如果是接下来要进行市场细分，最好采用斜交更好！当然，我们最常用的，一般采用最大方差旋转！
最后，有一个选择要完成，就是选项对话框！

我们要选择按大小排序，并且将因子负荷小于0.4的都不显示，这样我们看的更清楚！
为什么选择0.4呢？这主要依赖样本量和绝对误差的考虑！

从样本量角度看因子负荷，大部分市场研究样本量都在200以上！
记住：如果你不能精细考虑，就选0.4吧！
下面我们就可以执行了！我们看看结果：

从结果可以看出，Bartlett球检验是显著的，说明存在因子结构，另外KMO=0.764，较适宜因子分析！，一般KMO=0.8就是Excellent了！
接下来看因子方差解释，总的方差解释是63.448%，总共存在7个公因子，说明如果将来不用24个变量，而改用这7个因子可以说明原来24个变量的63.4%的变差。（如果你确认了这样的结果，可以选择把7个因子得分保存为变量了）
如果我们只是看非旋转的话，就是主成份分析部分了，我们来看旋转后的结果：

我们可以看到因子排列非常恰当和明显，这都是因为我们在选项中选择了排序和压缩了小于0.4的负荷值！
你可以看到F1_6变量在3和4因子上都有负荷，这就产生了双负荷！如果存在大量的双负荷，我们就要考虑是否要斜交旋转了！

最后，我们要完成因子命名！如果不能给出好的因子命名，我们放弃24个变量用7个因子变量都不知道意义，如何分析呢！当然如何命名因子是个艺术活了！我一般的思考方式是：1）先看意义，哪些变量负荷在一个因子上，是否能解释这些因子；2）如果可以，选择因子名称；3）如果不能给出恰当名字，就选择负荷变量的简称综合在一起，先代表着；4）随着后续的分析，因子慢慢确定；
到这里因子分析就完成了！
但因子分析往往是预处理技术，如果要用来细分市场，该如何进一步操作呢？是选因子还是选前两个负荷最大的变量，我将在聚类分析中讲解！

版权声明：
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有。非经授权，任何媒体、网站或个人不得转载，授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章，或“梅斯号”自媒体发布的文章，仅系出于传递更多信息之目的，本站仅负责审核内容合规，其内容不代表本站立场，本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。
在此留言

评论区 (0)

#插入话题

插入图片

下载梅斯医学APP，方便讨论，随时阅读！立即前往下载 >>

内科

外科

专科科室

热点

按科室浏览

临床工具

科研工具

其他工具

科研数智化

真实世界研究解决方案

数字化学术传播解决方案

其它

研究设计与统计

因子分析方法——多变量分析

科室

工具

服务