TCGA癌症临床数据资源全面介绍---癌症研究领域的全谱!

2020-08-15 转化医学研究院 转化医学研究院

2006年,癌症基因组图谱(The Cancer Genome Atlas, TCGA)计划以多形性胶质母细胞瘤(GBM)、肺鳞状细胞癌(LUSC)和卵巢浆液性囊腺癌(OV)开始为期3年的试点项目,2

2006年,癌症基因组图谱(The Cancer Genome Atlas, TCGA)计划以多形性胶质母细胞瘤(GBM)、肺鳞状细胞癌(LUSC)和卵巢浆液性囊腺癌(OV)开始为期3年的试点项目,2009年~2015年全面展开。到项目截止,TCGA网络研究工作者已描绘了33种癌症类型10,000余例患者的肿瘤分子特征,并定义了很多肿瘤分子亚型。TCGA包含的临床关键特征代表泛化的数据收集。为确保正确使用这些具基因组特征的海量临床数据,最近TCGA完成一批重大成果,发表在CellPress旗下的期刊。

本文对4月5日发表Cell上的一文进行编译。文章阐述以OS(总生存期)、PFI(无进展间隔)、DFI(无病间隔)和DSS(疾病相关存活)为四个主要临床结果终点的TCGA泛癌症临床数据资源(TCGA-CDR)标准化数据库,并给出了每种癌症类型的终点使用建议。TCGA临床数据可从基因组数据共享空间(GDC)门户网站下载,所有的分子数据在https://gdc-portal.nci.nih.gov/legacy-archive下载。临床数据和分子数据使用同样的条码结构,便于患者的临床资料和样本分子数据整合。

TCGA泛癌数据库队列特征

图1A为临床数据整合和分析方法及4个主要临床终点衍生和评估的流程图,对33份初始登记和97份后续数据文件,共33种癌症类型111,60例癌症患者的资料进行了处理。表1为每个TCGA队列的基本特征。按原发肿瘤样本根据分子特征选入每个队列,皮肤黑色素瘤(SKCM)的原发和转移灶两种类型都有,其它极少数肿瘤的原发与转移类型也有研究。

图1. 临床数据整合和分析方法及4个主要临床终点衍生和评估流程图

表1. TCGA 泛癌队列特征

临床结果终点OS、PFI、DFI和DSS

总生存期(OS)很重要,优点是定义OS事件时模糊性最低。但使用OS作终点可能削弱临床研究,因为非癌死因不一定能反映出肿瘤生物学、侵袭性或对治疗缓解。使用OS或需更长的随访时间;很多临床试验中,通常采用相对随访时间较短的DFI或PFI。针对现有TCGA临床数据,要认识到短时临床随访间隔在侵袭性癌症类型结果的重要性,因为可能几年内就观察到临床事件,在死亡前已出现病情复发或进展。对侵袭性较弱的癌症类型,患者在数十乃至几十年后复发,随访期间可能无法观察足够事件以支持可靠结果供判断。该分析的目的是检查TCGA泛癌临床疗效检测的相对优势和不足,指导今后的分析和避免随访间隔时间不足等缺陷。

分析全部TCGA临床数据后,结论如下:在数据可获得时,OS、PFI及DFI相对精确,但多数情况下只能估计DSS。图1B为33种不同癌症类型的OS K-M曲线。尽管生存分析不是TCGA主要目标,多数癌症类型生存曲线与过去评估相同生存终点的独立研究基本相同,GBM、OV(2008, 2011)和低级别胶质瘤(LGG)(2015)的TCGA结果就是最好例证。PFI、DFI和DSS的K-M曲线见图1C–1E。

图1 B-E临床数据分析

基于每种癌症类型4个终点的观察时间计算平均随访时间及事件或检查的中位时间(表2)。所有肿瘤的中位随访时间为22.1个月,但不同类型癌症该时间差异极大;GBM和急性髓系白血病(LAML)最短约12个月,而肾嫌色细胞癌(KICH)最长约48个月。

表2 总体中位随访时间及4个终点的事件与观察中位时间

推荐使用的临床结果终点

临床结果终点选择取决于研究目标、事件数量、队列大小和结果数据质量。将这些方法和开发的其它方法作为对单个疾病数据库的测试和补充检查,给出在每种疾病类型中使用每个结果终点的建议及原因(表3)。每种癌症类型的生存终点需要至少通过一个主要测试和补充检查才被接受。33种癌中的13种使用全部4个终点:膀胱尿路上皮癌(BLCA)、宫颈鳞状细胞癌(CESC)、结肠癌(COAD)、食管癌(ESCA)、头颈部鳞状细胞癌(HNSC)、肾乳头状细胞癌(KIRP)、肺腺癌(LUAD)、LUSC、OV、胰腺癌(PAAD)、肉瘤(SARC)、胃腺癌(STAD)和子宫内膜癌(UCEC)。相反,没有一个终点的有嗜铬细胞瘤和副神经节瘤(PCPG)。淋巴肿瘤弥漫大B细胞淋巴瘤(DLBC)、LAML和胸腺瘤(THYM)仅一个终点;剩余癌症类型2或3个终点,但其中一些持保留意见。最可靠的是PFI,可无保留地推荐给除LAML(无数据)、DLBC和KICH(谨慎使用)和PCPG(不推荐)外的4种肿瘤。

表3 终点OS,PFI,DFI及DSS的评估与推荐使用

验证TCGA-CDR及案例应用

乳腺癌研究中,雌激素ER阴性患者临床生存期预后比ER+肿瘤患者差。分别用OS、PFI、DFI和DSS比较这两类肿瘤患者的生存期(图3A–3D;曲线截止于10年随访时间,但使用整个数据库进行分析)。单因素分析显示,使用PFI(p= 0.005)和DFI(p = 0.001)作为临床终点,TCGA中ER+乳腺癌患者比ER-患者有更好的生存期,但使用OS时两类患者间不存在差异(p = 0.097) 。此外,两类患者的DSS(p = 0.009)有显著差异,表明DSS的潜在价值。以上发现证实了PFI和DFI是特定类型乳腺癌分子研究的合适终点。

图3 验证和应用实例

此外还验证了侵袭性GBM生存结果终点。TCGA中GBM中位OS为12.6个月,介于此前报道的标准治疗的12.1个月和标准治疗联合替莫唑胺的14.6个月之间。中位PFI是6.1个月,介于此前报道的标准治疗5个月和标准治疗联合替莫唑胺的6.9个月之间。显然,TCGA数据库OS和PFI事件时间与文献一致。再次印证OS和PFI作为GBM分子研究的临床终点效度。

用Cox比例风险回归模型确定高期(III、IV期)相对低期(I、II期)癌症患者的风险比(HR),验证4个终点的TCGA-CDR数据。由于DFI定义与其它结果的定义不一致,对推荐使用OS、PFI和DSS的14种类型癌症比较logHR(表3)。随后仅对满足Cox比例风险假设的疾病进行统计(图3E–3G)。结果表明,14种类型癌症中,除间皮瘤(MESO)、PAAD和葡萄膜黑色素瘤(UVM)外,高期对比低期HR在3个推荐终点OS、PFI及DSS上明显偏高。采用配对样本的Wilcoxon秩和检验,当使用PFI与DSS(p = 0.0008)或PFI与OS(p = 0.039)测量时,logHR有显著差异,显示疾病进展和生存终点在HR上存在系统偏差;OS与DSS之间没有显著差异(p = 0.106)。对2个logHR值的标准误进行逆加权平均确定Pearson相关系数, 由logHR估计的3种结果有极显著正相关:PFI和OS相关系数0.96(95%置信区间[CI]:0.77–0.99),PFI和DSS为 0.95(95%置信区间:0.76–0.99),OS和DSS为0.90(95%置信区间:0.61–0.98)。这些相关性潜在支持临床早期用PFI,后期用OS和DSS做终点。

除了整合分子数据,还尝试分析首次治疗后无病患者与非无病患者是否出现不同的新肿瘤事件。TCGA-CDR中29类癌症信息用于解决该问题,纳入患者从诊断到完成首治并达到无病状态至少存活3个月。以LUSC为例,有289例无病患者和41例长期非无病患者,NTE率分别为21.8%和68.2%。用Cox比例风险回归模型,发现在非无病患者中NTE风险显著高于无病患者(HR = 6.68,95% CI = 4.25–10.51,FDR调整q值<0.05)。在另外21种癌症类型中也有类似结果(表4)。余下7种肿瘤中没有观察到这些差异。我们也在评估是否每个模型都满足比例风险假设,其中有两个不符合,需要研究时间依赖及多变量模型来寻找原因。

表4 非无病与无病患者NTE发展对比

TCGA从全球数百个站点收集病例,为解决临床数据不同站点间的可比性,需考虑数据完整性、肿瘤和患者特征等。对每种疾病而言,我们对比了前两名提供病例数最多的组织来源站点(TSS)与所有其它TSS的同种疾病及4个结果终点(表5)。

表5 对来自前两位TSS的每个癌症类型研究结果进行比较

对于GBM等极具侵袭性的肿瘤,前两位TSS(#1和#2)的发病人群与其它TSS相比类似的有OS、PFI和DSS,因事件太少难以分析不推荐DFI做终点。BRCA等较低侵袭性肿瘤,强力推荐使用PFI和DFI,但建议谨慎用OS或DSS评估。TSS #1的临床数据产生不太好的OS和DSS,但没有观察到PFI差异;另外,表面上TSS#1有更好的DFI结果,仅出现3例 DFI事件。这种表里不一的现象表明该站点的结果数据需进一步评估。另一方面,TSS #2的4个终点结果与其它地方一致。

这个简单的结果比较表明,当从特定结果分析整体TCGA的临床数据时,需要考虑TSS的具体信息。由于年龄、肿瘤分期/分级及治疗等因素影响不同TSS患病人群的终点结果,TSS可以作为这些和不完全临床注释等其它未测量差异的替代。

潜在的混杂因素、竞争结果的

风险及模型假设

对临床生存终点分析来说,建议使用所处理的全部临床数据。但相比分子/基因组数据的整合分析,要注意两个方面。首先,推荐意见基于基线生存模型,以分子亚型作预测因子划分样本集,有可能破坏结果统计的显著性差异。因此,从互相关联的TCGA分子数据或肿瘤亚型TCGA-CDR结果数据中得出的结论需在独立的肿瘤数据库中进一步证实。

第二,我们建议仅使用原发肿瘤的分子数据,因为患者初诊时,重要时间信息等匹配的临床数据已收集相对完整。皮肤黑色素瘤(SKCM)在TCGA肿瘤类型中非常特殊,470例肿瘤中仅103例原发肿瘤,其余296例为原发肿瘤局部淋巴结转移,68例远端转移。这与很少收集到转移瘤的其它TCGA癌症类型形成鲜明对比。SKCM转移瘤很少具有匹配的原发肿瘤,而其它TCGA癌症类型尽管很少有转移瘤,但都具有匹配的原发样本。因此,对于SKCM结果的相关性,建议只使用有限数量的原发病例,尽管SCKM淋巴结转移的III期病例可作为独立组群进行研究。

在使用新整合的TCGA-CDR数据库时,还需要注意:潜在混淆因素、竞争结果的风险及模型假设。

混杂因素

混杂因素存在但被排除在模型之外时,偏差可能高估或低估真实疗效。如在乳腺癌的种族差异研究中,白人与黑人患者之间存在重要的基因表达差异,然而根据分子亚型进行调整后,这种差异显著减少甚至消失。治疗效果也是潜在的混杂因素,当信息可获取时应适当考虑调整。治疗未知时,年龄、诊治医院及诊断年份等标准治疗作为替代信息能减少部分误差。对这方面的决策建模,鼓励使用肿瘤标志物预后研究建议报告(REMARK)。

竞争结果的风险

测定DSS、DFI和PFI终点时,要对没有经历重要事件且无病的死亡患者进行审查。在这种情况下,如果假设患者没有其它死因,那她/他最终仍可能死于癌症指征。然而,在估计治疗等预测因子对继发性癌症或血管疾病等非指数癌症死亡风险的预测能力时,该假设并不可取。

模型假设

应用Cox比例风险(PH)模型必须检查PH假设。除少数案例外,大多数模型都满足Cox PH假设,但需进一步探索这些个案以找出违背假设的原因,从而对HR做出更准确的估计。尽管已经为清理数据和解决问题付出了巨大努力,但仍存在重要的使用限制,访问TCGA临床数据都必须了解这些限制。

首先,TCGA主要是为分子研究设计,最初病例选择来自多个机构具有合适库存组织的未治疗原发病例,因此这些病例不构成连续性。此外,对于每种不同肿瘤类型/研究,随访数据没有统一收集。同时,临床数据收集的一些规则在过去不得不随着时间的推移而改变。TCGA - CDR不包含癌症治疗史,并非所有病例都被注释。因此,分析特定肿瘤类型或亚型的治疗背景优于概况性泛癌分析。当患者进行具体治疗时,受益能用DFI和PFI终点有效分析。

其次,TCGA样本临床随访根据当地诊所的时间表,可能为疾病或特定部位的复发和病人重要生命状态的记录,因此没有TCGA指定的临床随访计划,仅给出项目主要强调的肿瘤分子特征。

最后,几乎所有TCGA获得的肿瘤样本和基因组及分子数据来自新诊患者原发肿瘤的单个切片,由此产生的基因组和分子数据不能在空间或时间任何方面明确捕获代表另一患者结果变量的肿瘤异质性。该问题不是TCGA独有的,任何静态原发性肿瘤研究都存在。

展望

这项工作是有史以来第一次全面系统地处理TCGA泛癌临床资料。由此产生的TCGA-CDR的结果终点与独立非TCGA研究结果一致,说明该资源在空前规模的临床尺度上提供了生物观测新视角。也要认识到TCGA-CDR的内在使用局限性及关键性指导和推荐意见。已经非常明晰,人类疾病未来大规模的分子研究必须系统地收集临床病理、治疗和转归事件数据,以坚持最高标准的临床研究。尽管有其局限性,TCGA-CDR提供了标准化数据库,以及清晰的4个临床结果终点导出,并解决了质量问题,从而在泛癌和个体水平上进行转化研究。未来数据研究的融合将提高结果之间的可比性,更好地解释和支持重复。

参考资料

An Integrated TCGA Pan-Cancer Clinical Data Resource to Drive High-Quality Survival Outcome Analytics



版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. 2020-08-16 tounao

    很实用

    0

相关资讯

实例:用TCGA数据库分析癌症和癌旁组织的表达差异

实例讲解:如何用TCGA数据库分析LINC00152在卵巢癌与正常组织的的表达差异?