加载中........
×

JAMA:P值的过去,现在和未来

2018/11/7 作者:医咖会   来源:医咖会 我要评论1
Tags: P值  JAMA  
分享到:

近年来,类似“p值已死”的观点总要时不时地跳出来,刺激一下大家。但是立马丢了它,该怎么衡量我做的研究结果到底“显不显著”,能不能见刊?也成了一大问题!也不能赖研究者一味追求“p<0.05”,环境使然!这个环境(推崇p<0.05)什么时候开始的呢?今天带着大家换个角度看看过去20多年来P值的变化。

1、越来越流行的p值

虽说p值用的越来越多,如果论文没几个p<0.05的结果都不好意思跟同行打招呼,但是p值有多流行,恐怕没几个人能说清楚。

Chavalarias等人[1]基于超过1200万篇MEDLINE摘要和80万篇PubMed Central(PMC)全文(包含摘要)的自动文本挖掘,系统阐述了过去25年(1990-2015年)生物医学文献中的P值变化。该研究已在JAMA上发表。  

研究者发现,随着时间的推移,越来越多的科学论文在研究结果中报告了P值。MEDLINE摘要中P值出现比例从1990年的7.3%上升到2014年的15.6%,其中随机对照试验高居首位,摘要中报告P值的比例达54.8%(95%CI, 54.0% - 55.6%);Meta分析增长速度最快,在过去的二十年中几乎增加了三倍,达到35.7%(95%CI, 34.5%-37.0%)。  

有P值的摘要和全文中,96%会至少报告1个“统计学显著”的结果,报道最多的情况是“p<0.05或p<0.001”。  

研究者进一步对其中796篇摘要和99篇全文进行了人工阅读,发现P值出现的比例分别为15.7%和55%,而仅有2.3%摘要和4%全文报告了置信区间,针对不同类型效应值的报告情况差别较大(见下表)。  

2、“后p<0.05时代”

走在十字路口的今天,对于P值的讨论也愈发激烈,正如Chavalarias等人在论文中提到的,一方面,P值仍然被一些研究者错误地作为衡量临床效应大小的标准,而事实上两者并没有什么一一对应的关系;另一方面,P值对样本量极为敏感,对于动不动就有几十万,几百万样本量的研究而言,获得一个P<0.05的结果变得轻而易举。

针对这种过分强调P值的情况,美国统计学会(ASA)在2016年发布了一个关于统计意义和P值的声明,提出了6条使用和解释P值的原则,但是,令人遗憾地是,这份声明更多地是“原则”层面上解读,并没有“操作”层面切实可行的方法。  

对于P值目前存在的问题,最容易也是最直接的方法莫过于降低我们传统认为的“显著性水平”——P<0.05,当然这个方法实际上早就应用到临床研究中。

例如,在全基因组关联分析(GWAS)中,为了控制总的Ⅰ类错误发生概率,显著性阈值通常考虑设定为P<5*10-8,来确保发现的关联具有较高的可重现性,并且在新的种群中进行测试时,这些关联也可以保持一致。尽管人类基因组的极端复杂性,但是需要比较SNPs的量级却是可以大致估计的,相应的显著性阈值也可以有针对性进行调整。

但是,对于大多数其他类型的生物医学研究而言,这里面的复杂程度以及潜在的多重比较其实很难理清楚、讲明白的,带来的问题也是显而易见——你没办法确定一个合适的显著性阈值。

当然,也有学者通过复杂的统计模拟(主要是贝叶斯思想),建议将目前的显著性“significant”阈值降到0.005,而之前的0.05只有提示意义“suggestive”[2]。先不论这样做是不是科学靠谱,如果真的这么做,其结果必然是影响极端深远的——目前已发表的论文当中,三分之一将要归为“仅有提示意义”。诸位仍在奋战“P<0.05”的小伙伴大概要哭了(这科研还有法儿做吗?)!

然而,似乎多数人是热烈欢迎这样的改变,在过去的2017年7月,Nature就把显著性水平从P<0.05降到P<0.005对受访者进行调查时,发现竟有69%人的表示支持!

  

反对的声音还是有的,正如公众号较早时候的推文:厉害了!百位作者借助Google Docs合作撰文讨论P值问题,文中Daniel J. Benjamin等人对于将现行的显著性水平从0.05降到0.005不以为然。

理由嘛,第一、显著性水平的降低会增大研究所需样本量,无疑会增加研究成本;第二、科学研究是多元化的,不应该用单一P值评论研究的价值。有反对,当然会有相应的主张,Daniel等人认为应该摒弃“显著性”这样的标签,应该允许研究者根据研究设计和数据解读的考虑,自行设定合适的检验水准α(看到这儿不知各位小伙伴有没有会心一笑~)。

还有更狠的,一些国际大牌儿杂志直接宣布禁用P值,比如说Political Analysis[3],Basic and Applied Social Psychology (BASP),但是一个比较搞笑点是,当BASP的主编被Nature问道,“没了P值怎么办时”,主编“淡定”地回答“我也不知道有什么样的统计方法可以取代P值”[4]。  

  (Political Analysis, 2018)

  
(BASP, 2015)

  目前而言,无论是调整显著性水平,抑或是全盘否定P值,都尚在争论。如何能够更合理地找个一个替代解决方案,仍然需要很多尝试(下表[5])。

  

梅斯医学学术的观点:

P值重要不重要,主要是源于时代。在过去小数据时代,以及今后的临床试验的时代,P值十分重要,这是判断是不是阳性结果的重要标准。虽然P值时而会发生变化,通常是p<0.05被认为有统计学上显著性差异。但是,在大数据时代,尤其是大样本的真实世界研究中,P值注定被弱化的,因为,在大样本的比较中,很容易得出p<0.05的结果,甚至p<0.0001。从统计学角度,两者之间的差异具有“显著性”,但是,是不是真的有临床意义,则另当别论。

例如,两种降压药物对比,如果样本量足够大的话,一组能使收缩压下降10mmHg,标准差为5,另一组可以使收缩压下降9.5mmHg,标准差也为5左右,这时候,样本量足够大时,p可以小于0.001,但是,这两种药物的疗效真的有差异了吗?这时候,我们要看实际的差值!如果实际的差值小于具有临床意义时的最小差值(如MCID),这时候,仍然不认为具有真的差异,或有临床差别。

因此,不是P值重要或不重要,而是在什么样的数据场景下。另外,P值也不是一切,还要结合具体的临床数据进行对比,要保证统计学有意义(P值),临床有意义,这样才是真有意义!

参考文献

1.Chavalarias D, Wallach JD, Li AH, Ioannidis JP. Evolution of Reporting P Values in the Biomedical Literature, 1990-2015. JAMA. 2016; 315: 1141-8.

2.de Ruiter J et al. Redefine or justify? Comments on the alpha debate. Nature Human Behaviour. 2018; 2: 6-10

3. Rosendaal FR, Reitsma PH. No P Please. J Thromb Haemost. 2016 Aug; 14(8):1493.

4. Psychology journal bans P values 

5. Ioannidis JPA.The Proposal to Lower P Value Thresholds to .005. JAMA. 2018 Apr 10;319(14):1429-1430.




小提示:78%用户已下载梅斯医学APP,更方便阅读和交流,请扫描二维码直接下载APP

分享到:

只有APP中用户,且经认证才能发表评论!马上下载

ylzr123

好文,值得点赞!认真学习了,把经验应用于实践,为患者解除病痛。

(来自:梅斯医学APP)

2018/11/7 12:57:31 回复

web对话