加载中........
×

一文搞懂抽样调查

2018/10/14 作者:量化研究方法   来源:量化研究方法 我要评论0
Tags: 抽样调查  
分享到:

抽样调查是社会研究中常用到的方法,但是怎么样做抽样调查?抽样调查需要注意什么?本文将提纲挈领的把抽样调查的全貌展示给大家,让大家对抽样调查有一个总体的一个宏观性的认识。

抽样调查中的两次推论

抽样调查中涉及到两次推论,第一次推论是从受访者的回答来推论受访者的特征。我们的核心的目标是要了解受访者的特征,比如受访者在一些基本的社会态度上的观点,但是受访者的特征不会赤裸裸地展现在我们面前,我们需要通过一定的技术,也就是问卷来问受访者,然后通过受访者对问卷的回答来推断它的特征。所以从受访者的回答到我们推断他的特征的过程中就产生了第一次推论。如果说受访者的回答能完美地吻合我们想要了解的目标的情况下,那么这步推论的误差就比较小,否则就会产生很大的误差。这个环节我们称为测量环节。所以第一次推论就是在测量中的推论,我们通过具体观测到的结果,来推断想要了解的目标。

第二次推断是通过样本的特征推断总体特征。研究中想要了解的是总体,总体是所研究对象构成的全体。我们清楚,不可能去调查总体中的每一个个体,那么只能抽取一个样本,通过这个样本来了解总体的情况。样本是来源于总体的,只要样本是随机的,符合概念抽象原理的,那么样本一定会携带一些总体的特征,通过这个样本是可以在一定程度上来推断总体的。但是样本不等于总体,所以这步推断总是会存在一定的误差。这一步推论我们称为抽样中的推断,通过样本特征来推断总体特征。

由此可见,抽样调查中有两个核心环节,一个是测量环节,一个是抽样环节。我们把这两个环节结合在一起,最终通过统计学的计算得到一个统计指标,然后通过统计指标得到研究中想要的个体的情况和总体的情况。统计指标就是来源于测量和抽样。这两个环节中任意一个环节出现问题,统计指标计算就会有问题。

所有抽样调查都会涉及这两次推断,由这两次推断,我们可以知道抽样调查涉及到两个核心过程,一个是测量的过程,一个是抽样的过程。



测量的过程怎么做?

首先有一个理论上的概念,就是测量的目标。也是之前所说每个人的特征,这个特征来源于一个抽象的概念,社会科学中很多概念都是很抽象不太好测量的,比如说地位、权利等,怎么测量?这时候我们需要把测量的指标落实到具体的测量问题上面,并且有一个具体的操作化的指标,把这些落实的过程就是一个测量的过程。

举个例子,经济地位怎么测量?比如我们认为收入可以反应人的的经济地位,但是收入可能和我们想要测量的目标还存在一定的差距,因为有些人收入并不高,但是他们的经济地位很高,为什么呢?可能他有很多的财产,所以财产也是一个人经济地位的表现。那究竟财产来测量经济地位好还是收入来测量经济地位好,这个是存在一定争议的,这也就意味着具体的抽样概念到操作化指标之间一定存在落差,这个落差就是存在抽样调查一个过程中的问题。

具体到的一个具体的测量指标,比如说收入,我们设计好一个问题:您过去一年的总收入是多少钱?这个问题需要受访者回答。所以从一个落实到具体的问卷上的问题,到受访者的回答是第二个测量过程。受访者在回答这些问题的时候不一定会如实回答,比如说收入问题是比较敏感的问题,有些收入比较高的人,可能会低报收入,有些家庭可能很穷,他碍于面子,可能会高报收入。因此是从测量问卷上的问题,到受访者回答之间会产生第二次误差。

第三,通过受访者的回答来推断想要测量的概念的时候,我们还需要对数据进行一些调整。我们要看这个数据有没有一些特别奇怪的值,比如说极大值或极小值,它们可能不是真实的情况,而是人为误差,比如说访问员在记录时可能多加了一个零,或者受访者回答的时候刻意低报或者高报。对于这些敏感的值我们需要注意,有的时候需要把这些值进行删除。我们还需要对逻辑上的问题进行校验,举个例子,调查时可能有人说他是1987年出生,1988年入党,我们知道一定要年满18岁才能入党,那这两个结果之间至少有一个是假的,也有可能两个都是错的,这种有逻辑上的错误的问题,就需要进行校对,找出哪个更可能是错的,然后把错误的值进行修正或者删除。所以从受访者的回答到最后用来进行计算的数据之间,需要进行一步处理。这一步处理得好,可能纠正测量误差,处理得不好,也可能带来新的误差。

整个测量过程要经过这几步,首先从理论概念落实到一个具体的问卷上的问题,从问卷上的问题再落实到受访者的回答,然后再对受访者的回答进行事后的一些调整和处理,最后才能变成一个可以用来进行统计分析的数据。这是一个测量环节过程。

抽样的过程怎么做?

抽样的过程首先从一个目标总体开始的。目标总体指的是研究对象构成的全体,比如中国人就是我们的目标总体,我们想了解的目标是所有中国人。所有中国人的概念好说,但是操作的时候是有难度的,这意味着我们需要找到一个所有中国人的名单,可能我们会通过户籍登记的资料来获取,但这些资料跟总体之间可能还会有误差。

所以就会从一个抽样总体到抽样框。抽样框就是实际可以操作的,总体中的每一个个体所构成的名单,这个名单有时候跟我们的总体是有差异的。比如在南京市做调查,南京市所有人口的名单可能不能获取,但是有另外一个替代办法,即通过电话号码来进行抽样,我们可义跟中国电信移动联通三大运营商进行合作,然后把活跃的南京市的用户手机号拿到,以这个手机号作为抽样框,也就是作为我们认为的个体名单来进行抽样。但是这个手机号作为抽样框是有问题的,首先有些人可能没有手机,有些人可能有多个手机号,可能有些人在南京生活,但他的手机号不是南京的。所以这些手机号跟我们的目标总体之间不构成一一对应的关系,这里就会产生问题。从目标总体到抽样框之间就会产生误差。

假定我们有了非常好的抽样框,下一个环节要抽取样本。抽样框里面的元素可能非常多,每个元素都要进行调查是不现实的。抽取一个样本,这个样本跟我们抽样框之间可能就会有一定的误差,因为它只是一个样本,不是抽样框的全体。比如我们拿到南京市的抽样框电话号码,假如有1000万个,但我们不可能去打1000万个电话,可能只需要打其中的50万个电话或者10万个电话,那这10万个电话就构成了这1000万个电话的一个样本,那这个样本跟总体之间,跟抽样框之间就会有一定的误差。如果打了10万个电话调查南京市的收入,发现人均月收入5000块钱,再打10万个电话,调查结果还是不是5000呢?就有可能是5100,也可能是4900,甚至可能还有其他的数字,如果再打电话,可能结果又变了。这个误差就是抽样过程中导致的误差,从抽样框到样本之间会构成第二次误差。

第三次误差是从样本到受访者的过程中产生的。刚刚举例,抽出了10万个电话号码,但是这不代表这10万个电话号码都会接受调查。做过电话调查的人知道,电话拒访率很高。拒访会导致实际能调查到的人跟抽出来的人不完全一样的一拨人,调查到的人一定会比抽取到的人少。如果乐意配合调查的人跟不配合的人之间有一定的差异,那受访者跟抽出的样本之间就有一定的误差。如果受访者样本之间有一些系统性的差距,就会导致样本的结构跟总体的结构有一定的偏差。这是抽样过程中涉及到第三个误差,从样本到受访者之间产生的误差。

因为有这些误差,我们在拿到样本以后,需要进行事后的调整,比如对数据进行加权处理等。这些办法在一定程度上能够纠正这些误差,但有的时候也会产生新的误差,总的来说抽样的环节每一步都会产生误差,直到最后拿到一个经过我们调整后的样本的数据,再结合测量环节中得到的调整后的测量结果,将这两个环节汇总进行统计计算。



小提示:78%用户已下载梅斯医学APP,更方便阅读和交流,请扫描二维码直接下载APP

分享到:

只有APP中用户,且经认证才能发表评论!马上下载

web对话