肿瘤中的中位PFS:不能过度迷信,这里也有陷阱

2020-03-16 小凡生统月谈 小凡生统月谈

在2019年ESMO上, keynote 407研究更新了最新的结果。在更新的结果中,帕博利珠单抗联合化疗对比安慰剂联合化疗的中位无进展生存(PFS)时间分别为8.0个月对5.1个月,相差近3个月。中

在2019年ESMO上, keynote 407研究更新了最新的结果。在更新的结果中,帕博利珠单抗联合化疗对比安慰剂联合化疗的中位无进展生存(PFS)时间分别为8.0个月对5.1个月,相差近3个月。中位PFS时间提高,远大于之前主要分析时的6.4个月对4.8个月的1.6个月。考虑到该研究首次分析时间点基本上在末例受试者入组后4~5个月进行的,对于PFS观察时间已经足够长,可以说已经成熟了,这么大的变化怎么理解,就不得不谈谈中位PFS的谎言了

keynote 407研究主要分析结果

 

 

keynote 407研究2019年ESMO更新结果

 

2. PFS的区间删失性质

熟悉肿瘤药物研发的人都知道,很久以前总生存(OS)是抗肿瘤药物有效性评价的金标准。进入21世纪以后,特别是随着靶向药的研发,PFS作为一个替代性终点逐渐被学术界和监管机构所接受,特别是在几个主要瘤种一线治疗的临床研究中。在药物研发历史中,比较重要的两个规范是FDA和EMA分别在2007年与2012年发布的允许使用PFS替代终点用于抗肿瘤药物注册申报的指南(第一版)。细较起来,对于PFS,EMA和FDA的态度仍有差别。EMA认为PFS是独立的评估治疗获益的指标,而FDA则始终认为PFS是个替代性的指标。但有一点上两个监管部门是一致的,那就是PFS上的获益必须是有临床意义的。
在临床意义的解读上,主要依靠中位PFS和风险比HR的绝对值,但在实际中这两个指标却承载了它们无法达到的期望。因为篇幅有限,这次我们主要谈谈中位PFS。PFS为一个复合终点,定义为自随机化或首次治疗起至影像学确认的疾病进展或任何原因死亡的时间(两者中较早发生)。比起OS,PFS从诞生的第一天就存在这一个天然的劣势,那就是肿瘤评估的时间间隔受多种因素制约,疾病进展的时间从来就不是一个精确的时间(如下图)

在统计学术语中,一般的OS数据叫做右删失型的生存数据,PFS被称为区间删失型的生存数据。
  • 右删失型(right censored)指的是我们知道事件(如死亡)时间是在我们删失的时间(如一个脱落病人的最后一次访视日期)之后发生;

  • 区间删失型(interval censored)指的是我们知道疾病进展是在两次评估间发生了,但我们却不知道在这个时间段内真正发生疾病进展的时间在哪里(如上图所示)。在实践中,统计师通常使用首次观察到疾病进展的影像学确认时间近似来填补真正疾病进展的时间,并利用传统右删失的方法进行统计分析。这种偷懒的方法直观、简单、尽管粗糙。

其实对于区间删失,统计学家很早就注意到了近似填补+右删失处理的方法不理想,并提出了相应的分析方法(Turnbull,1976:NPMLE)[1]。但是由于该方法巨大的计算量,不直观的解释,和当时并不普遍的PFS应用,很长时间以来(直到2012年EMA的指导原则中首次提及)都没有作为PFS分析的首选方法。同时,在很多年前,有着很好统计敏感度的临床实践者也注意到了这个问题(Panageas,2007 JNCI)[2]。他们基于实践中产生的疑问,使用简单的模拟方法,发现不同的PFS评估间隔(及填补方法:影像学确认时间、最后一次无进展时间、或二者中间)对中位PFS时间会产生很大的人为影响,造成偏倚(见下表):

可以从上面的表中看到,不同的对真实PFS时间的填补方法会产生不同的结果,或拉长或缩短。目前通用的填补方法,其本质会人为的拉长估计的中位PFS时间,尤其是当评估间隔更长时更严重。因此当我们解读PFS数据时一定要同时关注评估计划才能更准确的了解真实的药物疗效。

有读者会产生疑问,在随机对照研究中,两组只要使用同样的评估间隔,还会有影响吗?直观上不好理解也好理解。举个极端的例子,假设1年才做一次评估,暂不考虑PFS中死亡的影响,两组真实中位进展时间无论差别多大,只要两组中位数都在1年以内,组间比较大体上是不会有任何差别的。这就是因为评估间隔远远大于真实的疗效提高。笔者早年间曾做过一个简单的随机模拟,得到的结论是,为了客观的体现中位PFS时间的差别,应该在设计中保证在中位PFS发生前后,评估的间隔不大于两组预期中位的差别(题外话,默沙东还曾经尝试在研究中设计不同的随机评估间隔,配合前文提到的较为复杂的NPMLE分析方法,确实能更客观准确的估计中位PFS)。

3 模拟解读:评估间隔对中位PFS组间差值估计的影响

回到Keynote 407研究,我们发现该研究影像评估用的是独立中心影像评估,计划的肿瘤评估时间为第6周、12周、18周、27周、……。下图中模拟比较按照这种评估间隔和另一种更早进行长间隔评估的方案在组间中位PFS差值估计的影响。

通过上面的模拟,我们可以发现,仅仅改变了评估间隔,我们就可能得到截然不同的结论。第二种评估间隔方案更容易低估治疗效果,造成假阴性。Impower131研究,所有的评估间隔均为9周,且由于仅使用研究者评估,不像Keynote研究还有额外4周再次评估的机会,貌似化疗组本身的中位PFS也被拉长了。可能由于两组PFS间隔均被人为拉长,联合用药对比化疗的差别可能反倒缩小了。当然Impower131PFS提高较小可能还有其他原因,评估间隔并非唯一原因。
按照前文的逻辑,6.4个月、8.0个月,我们到底应该相信谁?统计师还能给出个让人信服一点的结论吗?尤其是细看Keynote407的两次数据,不难发现,两次的PFS数据在整体趋势上并无太大差别,第二次公布的数据更多的是因为50%生存概率的时间点恰好超过了27周一点点,后续一次评估发生在9周以后,有可能人为拉长了联合用药组的PFS时间,因此造成了两次分析中PFS的巨大差别(本质是上面模拟中可以看到的PFS估计很容易发生不连续跳点的痼疾)。
那PFS终点还怎么能让我们相信?更客观的分析存在吗?答案是有的。使用上文提到的NPMLE的方法,可以得出更客观的结论。随着PFS越来越多的被作为主要终点用于临床研究,随着现在强大的计算能力提高,著名的统计分析软件公司SAS发布了基于区间删失的统计分析软件包ICLIFETEST。在这个软件包中,可以直接实现上文中所说Turnbull NPMLE的生存概率估计,并采用多次填补法估计中位生存时间(尽管这个值也是一种填补,但是因为是最后一步进行的,比现在常用的一开始就填补的方法靠谱得多,填补方法见下图中所示连线法):

根据笔者早年使用类似方法做的随机模拟,该方法对中位PFS的估计更不易收到评估间隔的干扰,更准确与稳健。这种优势尤其是在真实的环境中更明显(见下表)。因此,笔者也建议统计师们在进行PFS分析时同时也给出这种方法得出的结果,已更全面的帮助临床医生解读新疗法的真实治疗效果。甚至这种方法应该成为中位PFS估计的主流方法,替代目前还在使用的已经不适应当前时代的简单粗糙的近似方法。

4 延伸:风险比(HR)与肿瘤评估间隔

既然中位PFS这么不靠谱,那风险比HR又怎样?与中位PFS相比,如果评估间隔两组一致,那么传统方法估算的HR至少不会产生偏倚。当然评估间隔过长,同样的样本量,检验效率肯定有所降低的。这个话题我们以后另开一篇文章再讲。但是如果两组检测频率不一致,那么HR的估计同样会产生有利于较不频繁一组的偏倚。这种偏倚对于中位评估的影响更大。这种情况在临床研究中理论上不会发生,但在免疫治疗的研究里,确实会发生由于担心免疫相关性不良事件如肺炎等造成免疫治疗组受试者进行了更频繁计划外影像学检查。如果这些计划外检查也纳入了PFS的疗效评估,就会造成HR和中位PFS的严重偏倚。这里笔者做了个简单的模拟来评估这种不良事件导致的额外检查对于中位PFS估计的影响。可以发现当这种现象发生时(15%的人出现了更频繁的检测),低估治疗效果的可能性略高。

同样的,在很多存在交叉设计的研究里,研究者首次判定疾病进展后,还要在较短的时间间隔内做再次评估。正常情况下,这种设计也不会对组间估计值比较产生太大影响。但在免疫治疗相较化疗,存在假进展、非靶病灶进展更难判定、研究者与独立影像评估不一致率更高等现象(PFS的不一致率可达20%~30%),也会最终导致判定PFS时间的访视频率发生不利于免疫治疗的偏倚。以上这些问题在使用更为复杂的NPMLE的统计方法后都一定程度改善。因此笔者再次建议统计师们在进行传统PFS分析时同时也给出NPMLE方法得出的结果,临床医生、监管机构在评价临床意义时要把基于NPMLE方法的结论与传统方法的结论等同对待。这样做才会避免落入中位PFS的陷阱,或高估、或低估新疗法在PFS上带来的获益。
参考文献

[1] Nonparametric Estimation of a Survivorship Function with Doubly Censored Data. Bruce W. Turnbull. Journal of the American Statistical Association, Vol. 69, No. 345. (Mar., 1974), pp. 169-173.

[2] When You Look Matters: The Effect of Assessment Schedule on Progression-Free Survival. Katherine S . Panageas , Leah Ben-Porat , Maura N . Dickler , Paul B . Chapman , Deborah Schrag., Journal of National Cancer Institude 2007;99: 428 – 32

版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

JEM:肠道微生物助力CD47抑制剂对抗肿瘤

导读:CD47是肿瘤靶向免疫治疗的基础之一。CD47作为重要的“免疫检查点”分子,在多种肿瘤细胞中广泛过表达,抑制巨噬细胞对肿瘤的吞噬作用

Nat Genet:癌细胞的“达尔文进化论”!依靠基因组倍增来不断生长!

导语:癌症的发展可以被认为类似于无性进化,全基因组加倍(WGD)在癌症中普遍存在,涉及整个染色体补体的加倍,然而,关于WGD在癌症进化中的选择压力尚未得到充分研究。

以医院登记为基础的20万例恶性肿瘤患者生存报告

周昌明,莫 淼,袁 晶,等. 以医院登记为基础的20万例恶性肿瘤患者生存报告[J]. 中国癌症杂志, 2020, 30 (1): 11-24.

肺凡力量·疫问医答——百位专家免费义诊,护航肿瘤患者疫情期间生命安全

2020年是不平凡的一年,开年伊始,新型冠状病毒肺炎不断肆虐,给全国各行各业都带来了巨大的冲击,正常的医疗秩序受到很大的影响。全国各地大量医护人员支援疫情前线,同时也为了防止疫情的扩大,许多医院门诊停诊,造成很多普通患者就诊困难,而对于身患重病的患者尤其是对于肿瘤患者来说,更是雪上加霜。 对于很多非急症患者来说,或可将就医计划暂时推迟。但对于肿瘤患者尤其是肺癌患者来说,时间就意味着生命,

肿瘤还是结核?这个检验很重要

小王在某肿瘤医院上班,近期一个亲戚脖子上长了几个包,来找他看病。原来老太太两年前就发现脖子上有几个小硬结,但不疼也不痒,就一直没管,这不,最近包变多了,长大了还有点疼,才想起来去医院看病,找医生看了看。医生建议做B超检查初步看看。到了B超医生那里,B超医生觉得这些结节不太好,有可能是恶性的,这可让这一家老小发起愁来,不知道从哪儿听来的,“切检会刺激肿瘤生长导致恶化”她们不愿意做手术切检送病理检查,

打开APP