真实世界研究中的偏倚,以及因果效应研究

2019-12-21 李理然 春风实验室

真实世界研究(RWS)是对临床常规产生的真实世界数据进行系统性收集并进行分析以产生真实世界证据(RWE)的研究。 真实世界数据主要包含电子病历(Electronic Medical Record),电子健康档案(Electronic Health Record, EHR),医保数据(Claims Data),出生死亡登记,公共健康监测数据以及区域化医疗数据等。 区别于传统随机控制试验(

真实世界研究(RWS)是对临床常规产生的真实世界数据进行系统性收集并进行分析以产生真实世界证据(RWE)的研究。

真实世界数据主要包含电子病历(Electronic Medical Record),电子健康档案(Electronic Health Record, EHR),医保数据(Claims Data),出生死亡登记,公共健康监测数据以及区域化医疗数据等。

区别于传统随机控制试验(Randomised Controlled Trial, RCT),真实世界是非随机研究(Non-Randomised Study),好处非常多,例如,它衡量的是治疗在实际生活中的效果(Effectiveness)而非在试验中的疗效(Efficacy),这使得结论有更好的外推性。

在一个随机控制试验中,患者在治疗组与对照组之间是随机分配的,这保证了那些会影响结局指标的混杂因素在两组中是均匀分布的。因此,研究者可以通过简单比较治疗组和对照组之间结局指标的差异来衡量治疗的效果。对照组可以是不接受治疗,接受安慰剂,或者接受另一种治疗。

然而,在一个真实世界研究中,比较治疗效果的非常容易出现偏倚(Bias)。因为非随机的治疗分配,使得治疗组与对照组中的患者存在系统性的差异,而这些个体差异很可能对结局指标产生了影响。在这种情况下,简单的比较治疗前后结局指标的变化就无法提供真实的治疗效果。

由治疗导致的那部分结局指标的差异,被称为治疗效应;由于两组患者个体差异而导致的那部分结局指标差异,被称为选择偏倚

选择偏倚非常容易与另一个概念混淆,即样本选择偏倚(Sample Selection Bias),他们的名称实在是太相似了。并且,由于在不同学科的研究中,通常只会涉及到其中一个,因此选择偏倚这一名词常常被混用。

我们在医药研究中所说的选择偏倚,在社会科学/经济学中也称之为自选择偏倚(Self-Selection Bias)。直观的说,自选择偏倚强调研究者有两个用于对照的样本,但两个样本中的个体有着显著的差异。在统计学中,它与遗漏变量问题/内生性问题相关,是针对一个模型中由于自变量/控制变量/治疗变量(X)产生的问题。例如,想研究(自愿)保险是否增加了患者的就诊,但买保险的人可能本身健康状况就比较差,即使没买保险也比那些不想买保险的人看医生次数更多。自选择的最常见解决方法是工具变量和面板数据模型。

而样本选择偏倚,指研究者研究者所选择的研究样本是有问题的,样本无法代表研究总体(漏了一部分),但并不涉及不同样本间的比较。直观的说,研究者观察到的结局变量是有缺失的/不完整的。在统计学中,它与删失数据问题相关,是针对一个模型中由于因变量/结局变量(Y)产生的问题。例如,想了解火车票好不好买,却只采访了火车上的人,没买到火车票的人被忽视了。样本选择偏倚的最常见解决方法是Heckman选择模型。样本选择偏倚更多的出现在社会学/经济学研究中,例如工资/收入研究,而非医药研究中。

自选择偏倚是两个样本间的问题;样本选择偏倚是样本和总体间的问题。

当前,已经有了许多方法来减少(自)选择偏倚。大多数方法是让治疗组与对照组变得可比,例如匹配(Matching)和逆改率加权(Inverse Probability Weighting),或者控制混杂因素对结局指标的影响,例如回归调整(Regression Adjustment),多元回归(Multivariate Regression),倾向评分(Propensity Score),工具变量(Instrumental Variables)。此外,也有通过自然实验来控制混杂因素的影响的方法,例如倍差法(Difference-in-Differences)和回归不连续设计(Regression Discontinuity)。当然,还有更为复杂的方法试图将治疗的分配过程与治疗效果的估计进行联合建模,例如结构模型(Structural Models),功能控制(Control Function),矫正方法(Correction Approach)。

不同的方法有着不同的假设条件和适用范围,错误的使用会导致结果的偏差,对之后的成本效果分析产生误导,进而对最终的政策决策产生不利的影响。在之后的推送中,我们将详细的介绍选择偏倚问题及常见的简单处理方法。

包括:

  • 什么是治疗效应

  • (自)选择偏倚的问题

  • 如何解决可观察混杂因素

  • 如何解决不可观察混杂因素

No.1 鲁宾因果模型

现代估计治疗效应的方法是基于唐纳德·鲁宾的鲁宾因果模型 (Rubin Causal Model)所提供的反事实框架(Counterfactual Frammework)

在统计学领域,耶日·奈曼(Jerzy Neyman)于1923年在他的硕士论文中提出了基于随机试验的潜在结果框架。之后,鲁宾在观察性研究中提出了反事实框架(Counterfactual Frammework),并被其同事命名为鲁宾因果模型(Rubin Causal Model),也被称为潜在结果模型(Potential Outcomes Model)。 反事实(Counterfact)指的就是存在与实际情况相反的一个潜在结果(Potential Outcome)。对不同的人群,反事实的情况也有不同:对于接受治疗的人来说,反事实情况即假设该样本未接受治疗时的结果;对于未接受治疗的人来说,反事实情况即假设该样本接受治疗时的结果。
在反事实推断中,我们将预测无法观测到的结果
在此基础上,一个治疗的因果效应(Causality/Causal Effect)可以定义为:
患者在接受治疗后的结果与他的反事实结果存在显著的统计学差异,那么就称治疗对结果有因果效应,或者说,治疗与结果的变化存在因果关系。
        反事实的研究思想并不鲜见。经济学家安德鲁·唐纳德·罗伊(Andrew Donald Roy)更早提出反事实模型,但没有涉及到数学表达。此外,心理学家路易斯·列昂·瑟斯顿(L.L. Thurstone)也将类似思想应用于心理测量领域。总之,在通讯不发达的时代,不同邻域的学者都独自发展出了基于反事实框架的因果推断模型。其中,鲁宾因果模型最具有代表性。

No.2 治疗评估 vs 政策评估

在统计学中,因果推断依据其研究特点分成两个阵营:以伍德里奇(Wooldridge)为首的“果”派和以赫克曼(Heckman)为首的“因”派。
“果”派关心的是由某个(些)原因产生了什么结果(Effects of Causes),与之相关的研究被称为治疗评估(Treatment Evaluation)。这类研究试图回答当其他条件不变时,在多大程度上,治疗组与对照组在结果上的净差异是由治疗导致的?具体来说,可以有:“赫赛汀对乳腺癌患者病情进展的影响”,“唑来膦酸预防绝经后女性椎骨骨折的效果”,“房产税实施对房价的影响”,“免费营养餐对儿童学习成绩的影响”,“在美国采用无过错条款解除婚姻关系对离婚的影响”等等。即对特定条件下某个变量所产生效果的衡量。
“因”派关心的的产生某个(些)结果的原因是什么(Causes of the Effects),与之相关的研究被称为政策评估(Policy Evaluation)。这类研究的目的是在可以观测到结果的前提下,探究该结果的原因并利用原因模拟未来的情况。从目的上来说,治疗评估只关心已产生的平均的效果,而政策评估则是找到原因来模拟和预测尚未发生的事情。具体来说,可以是:“中国结肠直肠癌发病率上升的原因”,“居民医疗费用快速增长的原因”,“为什么美国离婚增加”等等。预测研究的一个具体事例是,David(2012)利用烟草控制政策模型,模拟香烟税、禁烟法案、媒体宣传、营销限制等控烟相关的政策对吸烟率的影响。预测结果显示控烟相关的政策从1989到2010年共避免了42万例由吸烟导致的死亡,预计到2050年避免的死亡人数将达到7百万例。
在此我们以肥胖(Obesity)举例。”果“派更加关心结果(effect)的部分,也就是肥胖会导致什么,如肥胖导致了更多的糖尿病(TYPE 2 Diabetes)等并发症;”因“派更加关心原因(Cause)的部分,也就是什么导致了肥胖,即图中上半部分给出的基因(Genetic factors)等原因,然后再利用这些原因,预测未来的肥胖率及糖尿病等等。
在实践中,政策评估这一名称通常代指结果探究。如在房地产政策评估/医保政策评估/失业培训评估等研究中,虽然研究的是产生的结果,但也被称作政策评估,因为他们评估的是某项具体“政策”。

No.3 实践中的治疗评估  

理论上,我们可以根据反事实框架计算每个患者的个体治疗效应。然而,在现实中无法同时观察到一个患者的治疗结果和反事实结果。解决这个问题的一种方法是随机对照试验(RCT)。
在RCT中,尽管两组中的每个个体仍有不同的特征,但在组水平上,治疗组和对照组可以被认为是相同的。因此,对照组结果的平均值等同于未经治疗的治疗组的结果平均值(反事实结果)。两组治疗结果的差异可归因于治疗本身,被称为,平均治疗效果(Average Treatment Effect, ATE)。
治疗评估通常关注的是在人群中(或者亚组中,如老人)的个体治疗效果的平均值而不关心个体治疗效果的分布情况
在真实世界研究中,由于无法满足随机化的条件,通常很难估计出ATE, 因此研究人员通常使用其他形式的治疗效应作为研究目标。,除了ATE, 还有着其他形式的治疗效应: 1. 治疗组的平均治疗效应(Average Treatment Effect on the Treated, ATT):当研究人员能认定(或假设)某些个体不可能接受治疗或者对他们的治疗效果并不感兴趣时,就可以只考虑治疗组的平均治疗效应。 2. 局部治疗效应(Local Average Treatment Effect, LATE):局部治疗效应指的是对具有某些特点的特定亚组的治疗效应。这一治疗效应的估计与工具变量的使用密切相关,将在之后的文章中具体描述。 3. 边际治疗效应(Marginal Treatment Effect, MTE):边际治疗效应被定义为那些在接受治疗和不接受治疗之间没有区别的个体(处于临界状况的个体)在可观察变量的给定值上的平均治疗效果。

在人群中,个体的治疗效应可以是相同的,也可以是不同的。


如果治疗对不同患者具有相同的效果,则称为同质的如果治疗对不同患者的效果是不同的,则成为异质的
在治疗具有同质性的情况下,ATE,ATT,和LATE是相同的。在异质性的情况下,ATE,ATT,和LATE就会有不同的结果。MTE在考虑异质性时是非常有用的,但在一般情况下(通常假设是不同个体的治疗效果是相同的)并不会用到。真实世界研究作为非随机研究,很难估计ATE,一般用ATT或者LATE作为代替。

参考文献
《The Brazil SimSmoke policy simulation model: the effect of strong tobacco control policies on smoking prevalence and smoking-attributable deaths in a middle income nation》
本期作者:李理然,谢菲尔德大学健康研究院,主要研究方向微观计量经济学,因果推断。

相关资讯

Frontier in Pharmacology:HIV感染者使用LPV/r二线治疗的长期、大规模、多中心、真实世界研究结果发布

2019年12月11日,北京佑安医院黄晓婕主任等牵头发表首个基于我国HIV感染者使用洛匹那韦/利托那韦(LPV/r)二线治疗的长期、大规模、多中心、真实世界研究文章发表在Frontier in Pharmacology(2018影响因子3.845)上,向我们揭示了LPV/r在中国人群中的长期疗效和安全性。超过1000例患者最长达6年的数据分析结果显示,二线使用含LPV/r方案进行治疗,可以快速、持

Lancet子刊:真实世界研究显示SGLT2抑制剂对糖尿病患者肾功能有获益

SGLT2抑制剂除降糖外,对心衰具有保护作用已被很多研究证实。此前随机的对照研究也证实对肾病具有保护作用,但是缺少真实世界研究的证据支持预。最新发表于《柳叶刀·糖尿病和内分泌学》的最新真实世界研究通过超13万患者数据带来了肯定答案。CVD-REAL 3研究是一项跨国观察性队列研究,在2013年-2018年期间通过医疗几保险记录,纳入了以色列、意大利、日本、中国台湾地区和英国的2型糖尿病患者。研究者

中国基于国家数据库的肾脏移植大样本、真实世界研究发布

本文作者:解放军总医院第八医学中心 石炳毅 据统计,中国80%以上的肾脏移植受者均采用基于吗替麦考酚酯(MMF)的免疫抑制方案,但其长期结局如何,目前国内缺少相关的大数据报道。2019年12月23日,由国家卫生健康委员会肾脏移植质控中心、解放军总医院第八医学中心陈莉萍教授、柏宏伟教授和笔者共同开展的一项基于中国肾脏移植科学登记系统(CSRKT)的真实世界研究在《Tran

真实世界研究统计分析方法

相较于RCT研究,真实世界研究中的统计分析方法主要是因果推断方法,其中特别需要注意对混杂效应的控制或调整,以避免得出有偏倚的效应估计。以下仅对部分常用的因果推断方法做概括性说明,具体的技术细节和使用参见相关文献(不排除其他方法的合理应用)。一、描述性分析和非调整分析对于真实世界研究,正确有效的描述性统计分析可以发挥较为重要的作用。例如,在疾病登记队列研究中,按暴露因素的不同水平对相关协变量进行

JCO Clin Cancer Inform:真实世界证据,用在哪?如何用?看看FDA试点研究结果怎么说

近日,患者权益组织癌症研究之友(Friends of Cancer Research)公开发表该组织与其它机构合作开展的真实世界证据(RWE)试点计划初步研究结果。相关论文在线发表于美国临床肿瘤协会(American Society of Clinical Oncology,ASCO)创办的《临床肿瘤学杂志·临床肿瘤信息学》(JCO Clinical Cancer Informatics)上。这项

十万例配方颗粒安全性真实世界研究项目启动

由于中药配方颗粒行业仍然缺乏统一的标准,国家药监局对于配方颗粒的监管将按照新颁布药品管理法规定执行配方颗粒的国家试点统一标准,该标准将统一工艺、规格、质量控制等方面,但对于新国标品种目前尚缺乏大样本系统性的疗效、安全性以及用量等方面的研究数据,进一步完善配方颗粒的安全性系统监测体系更加迫在眉睫。华润三九积极响应国家药监局的政策,于2019年9月22日联合中国药学会中药临床评价专业委员会正式启动十万