你真的懂p值吗?

2018-10-15 张之昊 协和八

你真的懂P值吗?1p值到底是个啥?►有人说:「统计学就是个p!」此p可不像彼「屁」,可以一放了之。作为假设检验的核心工具,它经常决定着一个发现的价值、一篇论文的成败。你一定忘不了做课题时为p欢喜为p忧的经历:得到p小于0.05时欣喜若狂,得到p大于0.05时灰心丧气。可以,你真的懂p值吗?它到底是什么?►随便翻开一本统计学课本,我们会看到这样的定义:p值是在假定原假设为真时,得到与样本相同或者

你真的懂P值吗?
1
p值到底是个啥?

►有人说:「统计学就是个p!」此p可不像彼「屁」,可以一放了之。作为假设检验的核心工具,它经常决定着一个发现的价值、一篇论文的成败。你一定忘不了做课题时为p欢喜为p忧的经历:得到p小于0.05时欣喜若狂,得到p大于0.05时灰心丧气。可以,你真的懂p值吗?它到底是什么?
►随便翻开一本统计学课本,我们会看到这样的定义:
p值是在假定原假设为真时,得到与样本相同或者更极端的结果的概率。
►你的反应多半会是:「说人话!」
►好好好,那咱们来举个例子:假设明天就要宿舍卫生检查了,可同住一屋的蓝精灵和格格巫都不想搞卫生,在一番谦(si)让(bi)之后,格格巫掏出一块看起来很无辜的钢蹦儿,提议这事儿交给老天爷决定:正面蓝精灵做,反面他做。被格格巫坑过或试图坑过不止一次的蓝精灵心想,这钢蹦儿会不会不太对劲,抛出来正反面的可能性不一样大?于是蓝精灵拿到钢蹦儿,跑到墙角自己先抛了五遍,结果傻眼了——五遍都是正面!格格巫的阴谋就这样再一次被挫败了……
►这事儿跟p值有半毛钱关系吗?有!
►回到刚才你读过的定义上,咱们来细想一下,蓝精灵同学如果学过统计学的话会是怎么考虑的。
►首先,本着疑罪从无的原则,善良的蓝精灵假定格格巫的钢蹦儿是均匀的,也就是抛出来正面和反面的概率都是0.5。这就是定义里的「原假设」。
►而蓝精灵的「样本」是,抛5次钢蹦儿,得到了5个正面。由于只抛了5次,不可能得到比5次更多的正面了,因此在这个例子里不存在比样本「更极端的结果」。
►那么,什么是「与样本相同」的结果?这取决于蓝精灵是否对这枚钢蹦儿偏向某一边有特定的假设。蓝精灵想起,格格巫提出的办法是如果反面就由他搞卫生,那就应该没有钢蹦儿偏向反面的可能性。所以他认为,要是这块钢蹦儿不均匀,就只可能偏向正面。在这种情况下,「与样本相同的结果」就只有5次正面这一种。
►所以,如果钢蹦儿是均匀的,连抛5次得到都是正面的概率就是0.5的5次方,也就是0.03125,这就是我们所说的p值。换句话说,这种结果得玩儿32次才会出现1次。即使不做这样的计算,蓝精灵从日常生活的经验中,也能感觉到,对于一块均匀的钢蹦来说,得到这样的结果实在不太可能了。与其相信这样的小概率事件真的发生了,我们觉得更合理的解释是这块钢蹦儿根本就不是均匀的。多小的p值算是小?在统计学中,最常用的界线是0.05,因为这个样本对应的p值小于0.05,所以蓝精灵拒绝了原假设,也就是人们常说的「具有统计学意义上的显著性」,认为格格巫拿出了一块偏向正面的钢蹦儿。
好了,现在我们再念一遍p值的定义:
p值是在假定原假设为真时,得到与样本相同或者更极端的结果的概率。
►是不是更像一点儿人话了?
►之所以费半天劲来解释这一句话,是因为p值的定义中蕴含了显著性检验的基本思维方法,这种思维方法几乎被运用在所有主流的统计学分析之中。对它的准确理解,不仅是通向掌握各种具体的统计学测试的大门,更影响着我们对统计分析结果的解读
►如果你还是觉得有点绕不过来,不妨回忆一下高中数学证明题的大杀器——反证法。在反证法中,为了证明某个命题是错误的,我们首先假设它成立。在这个前提下,我们根据已知条件推导出与此前提或者其他公理、定理相矛盾的结论。由此我们认为,我们的假设一上来就错了。
►根据p值进行统计推断的思想跟反证法是一脉相承的。但是,两者有一个关键的区别。由于随机性的存在,在统计推断中,我们无法像在反证法中一样斩钉截铁地认定原假设是错误的,我们只能根据「小概率事件在一次随机实验中不会发生」的原理做出能否推翻原假设的决策。
►回到蓝精灵和格格巫掷钢蹦儿的例子,即便是一块真正均匀的钢蹦儿,也有0.03125的概率连续出现5个正面。蓝精灵之所以能够拒绝认为钢蹦儿均匀,并非因为他确切地知道钢蹦儿有问题,而是他所拥有的数据非常不支持钢蹦儿均匀的假设。换言之,蓝精灵是有可能错怪了格格巫的,只是错怪的可能性足够小而已。
►所以p值到底是个啥?它是基于特定假设和实际样本进行统计推断的一个工具。某种意义上说,p值体现了如果原假设成立,一个人看到样本时的奇怪程度。p值越小,我们获得的样本在原假设成立的前提下越不可能出现。而当p值小到一定程度时,我们不得不认定,我们的前提是错误的,因为可能性这么小的事件实在是太难发生了。

2
p值不是什么?

►如果你看完了上面这个部分,觉得已经看懂了p值的定义,可以把文章关掉了的话,我要高呼一声:且慢!p值是目前科学界广泛使用的主流统计学方法中最重要的一个概念,同时也可能是被误读最多的一个概念。翻开各学科的文献,很容易就发现对p值的错误理解和表述,即便是发表在Nature、NEJM之类最顶级期刊的文章偶尔也不能免俗。所以,弄清楚p值是什么和p值不是什么同样重要。下面,我们就来一起认清楚这些个大坑:
✓p值不是原假设为真的概率,也不是备选假设为假的概率
►神马?刚才不是说p值很低的时候,拒绝原假设,认为备选假设是真的吗?那难道不是说p值代表原假设有多真吗?不是。这个问题最简单的解释是,对于任何一个假设,它为真的概率都是固定的。然而,我们已经知道p值是根据具体的样本数据计算得出的,同样的实验重复做几次,每次得到不同的样本,p值也自然会有区别。因此,p值不可能是原假设为真或备选假设为假的概率。
►如果我们想得再深一点儿,回忆之前我们描述的显著性检验的思维框架,p值越低,样本提供的证据越不支持原假设,低到一定程度的时候我们认为原假设是假的,而备选假设是真的。p值只描述样本与原假设的相悖程度,原假设的真与假是我们以此为根据做出的一个判断。p值并不能描述原假设和备选假设本身为真的概率。
►那么说,我们做实验收数据做分析忙活儿了半天,却依然不能知道我们的假设具体有多大可能是真的?很遗憾,对这个问题的回答是肯定的。我们今天所广泛使用的一整套统计推断和假设检验方法及其思想体系(被称为「频率学派」),是由活跃于上世纪的英国统计学家费希尔开创的。p值能做的,就是在特定的零假设条件下对数据特征进行分析。但是,我们如果要对这些假设本身作出判断,光凭数据本身还不够,我们还需要了解现实世界中除了我们感兴趣的假设以外其他假设存在的概率。实际上,假设成立与否的概率是统计学科中另一个近年来日渐受到重视的流派——贝叶斯学派——试图解决的问题,也有不少统计学家呼吁科学界应当用贝叶斯方法补充甚至替代如今以p值为中心的方法。这些已经远远超出今天的主题,我们暂时就不展开讨论了。
✓p值并不能代表你所发现的效应(或差异)的大小
►正如我们说过的,p值只关心数据与原假设之间有多不一致。但是,如果某种效应或差异存在,p值并不能准确地告诉我们效应的大小,更不能告诉我们这效应是否具有实际意义。比如说,我们开发了一种降血压药物。在临床试验中,我们比较受试者在服药前后血压的降低,得到了p值小于0.05的显著结果。这意味着什么呢?我们可以有信心地认为,这种药物能够降低受试者的血压。但是,光从p值中,我们无法知道药物到底能使血压降低多少。事实上,也许药物仅仅能够使受试者的血压降低微乎其微的程度(如2mm/Hg),如果我们有足够多的受试者,我们同样能够得到很小的p值,但是这样的效应并没有显著的临床意义,也没有实际的商业价值。
►因此,在科学文献中,当我们报告统计测试的结果时,不能仅仅给出p值,还需要给出相应的效应大小(取决于具体的测试,比如均值的差、回归系数、OR值等)及其置信区间,这样才能使读者更全面、准确地评估研究发现的意义。
✓为什么是0.05?
►我们前面提到,在显著性检验中,当p值小到一定程度时,我们就认为原假设不成立。可是为什么这条线就划在了0.05这里?这个问题有一个很无趣的答案:这是费希尔老爷子随口一说的。为了避免像错怪格格巫一样的错误,我们希望尽可能保守一些,因此显著性的界限也应该比较小。但是另一方面,这个界限也不能太小,不然社会投入到科研的资源无法满足能得到显著性结果的样本量。
►费希尔的随口一说之中似乎也包含了某种神奇的直觉。有学者提出,对于过去近百年中生物医学和社会科学(运用统计学方法最普遍的学科)研究中常见的效应大小和样本量而言,0.05这个界限恰好在任何实验都做不出显著性结果和假阳性发现满天飞之间找到了一点微妙的平衡。当然,科学研究在不断地发展,当代的许多新领域(如基因组学)中的海量数据和测试已经对0.05这条金标准作出了挑战,统计学家也发展出了新的对策。这里我们先按下不表,在后续文章中将会一一道来。
►另外,0.05的存在也是「前计算机时代」的一个历史遗留产品。九十年代以前,计算机和统计软件还没有被广泛使用,人们进行统计学分析时,往往需要借助统计学表格,把根据样本算出的统计量与表格中的临界值进行比较。由于篇幅所限,表格自然不能列出所有的p值,因此当时的人们都倾向于报告p<0.05的结果。随着统计软件的流行,如今获得精确的p值已不是难事,人们也不再采用这样模糊的表述了。但是0.05这个门槛儿却成为了一种文化,被科学界保留了下来。

参考资料:
1. Reinhart, Alex. "Statistics done wrong." (2014).
2. Nuzzo, R. (2014). Statistical errors. Nature, 506(7487), 150-152.
3. Anonymous. “Why P=0.05?” http://www.jerrydallal.com/lhsp/p05.htm


作者简介

张之昊,2005年进入清华-协和临床医学八年制专业,后转入清华生物系获理学学士学位。2010年起在耶鲁大学跨院系神经科学项目攻读哲学博士学位,利用功能核磁共振技术与计算建模研究人类经济决策的脑科学基础。同时,还作为耶鲁大学StatLab统计咨询师为耶鲁师生提供数据分析、实验设计及统计学软件的咨询服务。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=349629, encodeId=364134962926, content=本来显而易见的东西,被你从那么复杂的描述, beContent=null, objectType=article, channel=null, level=null, likeNumber=1, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=9b072428995, createdName=123b0dfbm56暂无昵称, createdTime=Wed Oct 17 09:25:54 CST 2018, time=2018-10-17, status=1, ipAttribution=)]
    2018-10-17 123b0dfbm56暂无昵称

    本来显而易见的东西,被你从那么复杂的描述

    0

相关资讯

JAMA:生物医学文献中P值的演化

研究者对P值的使用和滥用产生了广泛的辩论。为了评估在过去25年生物医学文献的摘要和全文中大规模P值的报道,并探究除P值外其他统计信息出现的频率进行了一项研究。使用自动文本采集分析了文献中P值的报道,包括12 821 790篇MEDLINE摘要和1990-2015年PubMed中心(PMC)的843884篇摘要和全文。也评估了151个英文核心期刊和PubMed分类的特定的文章类型。随机抽取1000个

科学研究中数据分析的弊病-“P-值”

世界上顶尖的统计学家们发言称:目前的科学研究中需要停止使用P-值以及显著性差异作为检验他们实验结果是否重要的依据。也许你会觉得这个说法毫无道理。什么时候研究者们会用到P-检验呢?当发现实验结果的自变量与因变量之间存在一定的相关性,为了证明该相关性是合理的或仅仅是随机误差,他们会使用P-检验。P值越低,说明他们的结果可信度越高。如果P值小于0.05,就说明两组之间存在显著性差异(statistica

Nature:P值争议新一季:我们是否需要一个统一的P值阈值?

一部分科学家反对进一步提高统计显着性发现的认定标准。

P值的统计学意义与临床意义的区别?

在医学科研领域,P值是特别神奇的数值,无数人为之欢喜或悲伤,甚至有无数种方法追求有统计学显著意义P值(P< 0.05)。但是我们真的应该只关注是否P< 0.05吗?P值有统计学意义等于有临床意义吗?

JAMA建议将P值降至0.005 会心一击

4月10日,斯坦福大学的Ioannidis JPA在《JAMA》发表了题为《The Proposal to Lower P Value Thresholds to .005.》的文章,建议将P值的阈值降至0.005。写论文的各位亲们表示心碎一地。P值和伴随的统计学显着性检验方法正在为生物医学和其他学科带来挑战。绝大多数在摘要、全文或二者中报告P值的文章(96%)都包含≤0.05的值。然而,这些报告

厉害了!百位作者借助Google Docs合作撰文讨论P值问题

有关“P<0.05表示有统计学差异”似乎从诞生之初就备受争议,事实上,为什么把检验水准定在0.05,有什么科学道理?到现在大家也没整明白,但是这并不妨碍众多作者在研究结果中对于P<0.05的痴迷,总得有点儿“有意义”的结果,论文才“好看”。但是呢,带来的问题是各种假阳性结果的泛滥。于是乎,就不断有人提出修改目前所使用的统计学显著的标准。