科学研究工作者必备技能:统计学

2016-06-06 佚名 生物谷

当我16岁时,我在我的预修统计学(AP Statistics)课程中首次接触到统计学;我特别记得有一节课让我们学习区分带参数的t检验(t-test)和不带参数的曼惠特尼U检验(Mann-Whitney U test)的重要性。作为一名化学本科生,我继续使用相同的基础统计学原则分析某些分子是否能够作为癌症的潜在生物标志物,或者为何患有喂食障碍(feeding disorder)的儿童要比没有这种

当我16岁时,我在我的预修统计学(AP Statistics)课程中首次接触到统计学;我特别记得有一节课让我们学习区分带参数的t检验(t-test)和不带参数的曼惠特尼U检验(Mann-Whitney U test)的重要性。作为一名化学本科生,我继续使用相同的基础统计学原则分析某些分子是否能够作为癌症的潜在生物标志物,或者为何患有喂食障碍(feeding disorder)的儿童要比没有这种障碍的儿童给家庭带来更大的压力。

不幸的是,不是每个人在早年都有机会学习统计学,而且根据我的经历,很少有职业生涯早期的研究人员(early career researchers, ECRs)抽出时间独自地学习它,这样他们就能够在他们的研究中使用它。经常发现ECRs并不确定他们为何应当选择一种统计学检验方法而不是另一种,或者只是肤浅地理解统计学是什么和它如何能够最佳地有益于他们的科学研究。

统计学的本质

简而言之,统计学就是数学的一个分支,涵盖一系列用于采集、组织、分析和呈现定量数据的方法。它有两个主要的分支:描述统计学和推论统计学。描述统计学主要涉及描述定量数据。推论统计学被用来通过分析从单个样本收集的数据来对总体作出推论。由于随机性和不确定性,对单个样本的数据分析是通过对数据进行建模来进行的。

统计学的流行性和重要性

统计学用于大多数科学领域。比如,在近期的一篇发表在PLoS ONE期刊上的论文[1]中,Otero-Losada等采用生物统计学证实适度的跑步对喝可乐的大鼠的胰腺形态是有益的。在本月发表在PLoS ONE期刊上的另一篇论文[2]中,Young和Gobler进行单因素方差分析(One-way ANOVA test),发现在富营养化的河口,酸化能够促进大型藻类(macroalgae)过度生长。这几篇论文表明从哺乳动物到细菌,统计学是让结果变得有意义所必需的。

鉴于统计学能够应用于众多科学学科,它已演化出不同的分支。比如,天文统计学利用统计学原则理解天文数据,而计量经济学利用统计学方法对经济理论和经济关系进行实证研究。生物统计学利用统计学原则理解生物现象,而环境统计学利用统计学方法理解和评估我们周围的环境情况。这些只是统计学不同分支的一些例子。

考虑到若没有一种允许每个人对数据进行总结的标准化系统,社会不能够高效地运转,因此对每个研究员而言,将统计学原则放在他们的工具箱中是很重要的。研究人员将不仅需要统计学更高有效率地呈现和传达他们的发现,而且他们也将需要统计学来能够理解和评价他们领域中其他学术论文的可信性。统计学也有助研究人员控制变异来源、检测异常值、可视化观察他们的数据和设计有效的实验来协助解答他们的研究问题。

统计学分析中的常见问题

尽管统计学在科学研究中具有明确的价值,但是也经常发现统计学在研究中未正确地使用。研究人员可能无心地改变他们的数值范围从而改变他们的数据分布,或者忽略掉异常值以便更加一致性地呈现他们的数据。统计学分析中其他常见问题包括将关联作为因果关系,错误地报道数据中的估计误差,以及对结果进行太笼统地概括。

此外,为了促进科学发展而面临的发表压力能够导致研究人员收集或选择更多的数据样本直到非显著性结果变成显著性的。这种现象,也被称作“P值黑客(P-hacking)”,给发表显著性数据(即产生p值小于0.05的数据)的传统科学模式带来挑战。根据2012年发表在Psychological Science期刊上的一篇论文[3],在接受调查的2000名心理学家中,有一半以上的人承认“没有报道一项研究中的所有因变量测量值(dependent measures)”,以及“在观察研究结果是否存在显著性之后,决定是否收集更多的数据。”

另一个常见的由研究人员想要获得职业晋升所引发的科学问题是结果的不可复制性。根据2015年发表在Science期刊上的一篇论文[4],在对发表在三种心理学期刊上的100项实验性的相关性研究进行复制时,原始研究中的97%已报道统计学上显著性的结果,但是对它们进行复制时只有36%具有统计学上显著性的结果。

能够做什么?

迄今为止,研究人员还未确定如何能够改善针对基础科学研究人员和转化研究人员的统计学培训。一篇于2016年4月发表在发PLoS Biology期刊上的论文[5]概括了改善统计学教育的方法,包括鼓励院系开展统计学培训,根据学生的研究领域对课程进行修改,开发工具和策略促进统计学知识教育和传播。


再者,在一篇获得大量引用的发表在PLoS Biology期刊上的论文[6]中,Megan Head和同事们发现P值黑客,尽管在进化生物学上很猖獗,但是似乎并不影响最终的结果。Head等建议研究人员应当明确地遵守共同的分析标准,使用充足的样本大小,只要有可能就开展双盲数据分析,根据结果单独地对研究方法的质量进行评估。这些建议应当有助解决P值黑客的问题和让现代科学苦恼的不可复制性。

除了这些建议之外,我认为期刊还应当做三件事情来阻止P值黑客:(1)为完整地报道数据分析和结果提供明确的和详细的指导方针;(2)鼓励对方法进行说明;(3)促进开放获取原始数据。

尽管统计学教育可能并不是对所有科学家都是有用的,但是我们鼓励研究人员在职业生涯早期根据他们自己的研究领域考虑上一门统计学课程,或者当开展研究时咨询一名网上统计学指导者/统计员。对基础统计学原则进行更加深入地理解将不仅提高产生强有力的科学发现从而能够改善我们对世界的理解的科学使命感,而且也会鼓舞研究人员从事于有伦理道德的科学行为。

作者信息:

作者Megan Yu,是美国弗吉尼亚大学化学系学生。她有志成为一名医师科学家,希望开展转化和健康政策方面的研究。她是一名多产的博客主,关注妇女权利和重大的医学发现。

参考文献:

[1]Exercise Ameliorates Endocrine Pancreas Damage Induced by Chronic Cola Drinking in Rats. PLoS ONE, 18 May 2016, doi:10.1371/journal.pone.0155630

[2]Ocean Acidification Accelerates the Growth of Two Bloom-Forming Macroalgae. PLoS ONE, 13 May 2016, doi:10.1371/journal.pone.0155152

[3]Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 1 May 2012, doi:10.1177/0956797611430953

[4]Estimating the reproducibility of psychological science. Science, 28 August 2015, doi:10.1126/science.aac4716

[5]Reinventing Biostatistics Education for Basic Scientists. PLoS Biology, 8 April 2016, doi:10.1371/journal.pbio.1002430

[6]The Extent and Consequences of P-Hacking in Science. PLoS Biology, 13 March 2015, doi:10.1371/journal.pbio.1002106





版权声明:
本网站所有注明来源:“梅斯医学”或“MedSci”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,否则将追究法律责任。取得书面授权转载时,须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (3)
#插入话题
  1. 2016-12-07 Kim.yu

    正在学习

    0

  2. 2016-06-27 flyingzyx

    统计学得学好

    0

  3. 2016-06-17 早茶月光

    科研必须要学好统计学

    0

相关资讯

科学研究中数据分析的弊病-“P-值”

世界上顶尖的统计学家们发言称:目前的科学研究中需要停止使用P-值以及显著性差异作为检验他们实验结果是否重要的依据。也许你会觉得这个说法毫无道理。什么时候研究者们会用到P-检验呢?当发现实验结果的自变量与因变量之间存在一定的相关性,为了证明该相关性是合理的或仅仅是随机误差,他们会使用P-检验。P值越低,说明他们的结果可信度越高。如果P值小于0.05,就说明两组之间存在显著性差异(statistica

你请统计学家来做尸体解剖吗?

论文的死法有上千种,但有一种死法你不能喊冤。我们先来看一个故事:2006年,在国际期刊Nature Medicine上发表一篇文章——Using the NCL60 to Predict Sensitivity(Potti et al(2006), Nature Medicine, 12:1294-1300.)。这篇文章的结论主要是说采用NCL60细胞系的基因芯片数据可以确定化疗药物反应特征,以预

他们认为医生还要学习心理学、社会学、统计学、政治和经济学

马克.扎尔伯格曾经说过:“与其说FACEBOOK的成功靠的是科技,不如说靠的是心理学和社会学”。 克利夫兰诊所勒纳医学院招生处的副主任Kathleen Franco非常认同这句话。她相信科学和人文结合起来,往往能带来巨大的改变。 作为克利夫兰诊所住院医师培训部的负责人,她本人精通心理学、精神病学、行为心理学等。 她认为,医学生们一定要多学点心理学、社会学、统计学,甚至政治和经济学,这些对他们未

收藏!如何使用SPSS软件中正态分布检验功能

正态分布概念由德国数学家Moivre于1733年首次提出,德国数学家Gauss率先将其应用于天文学研究,所以又称高斯分布。正态分布在数学、物理及工程学等领域非常重要,在统计学中也是影响深远。统计学中的t分布、F分布等都是在正态分布的基础上推导出来的,u检验也是以正态分布为基础。本文结合临床实际应用详细讲述SPSS软件中如何使用正态分布检验功能。 正态分布与非正态分布区别: •正态与非态分

统计学免费公开课大全

统计学博大精深,用途广泛,是一门非常重要的基础课程。在接触了一些统计学公开课后,发现网络上还有很多的免费的在线统计学课程,在这里做一些系统的课程资源整理和汇总,同时也欢迎大家补充相关的没有覆盖到的课程资源,供更多的小伙伴学习和参考。 1.Udacity官方也提供“Introduction to Statistics(统计学入门)” 入门级课程,强烈推荐。课程对学生的数学基础要求很小,可以认为是

【在线课堂】MedSci 临床医学统计系列课程

统计在临床研究中占据着重要的位置,而统计学却又是临床研究中最容被忽略的学科,MedSci特推出临床研究医学统计课程,特点是完全源自临床实际问题,少讲统计理论,重在解决实际问题。前期课程从简单的SPSS软件实际操作入手,详细讲解每个功能如何使用,后期结合实际讲解统计如何能更好的协助临床研究。 课程连接:http://edu.medsci.cn/course/serielist-1078353.ht