Genome Medicine:罕见病诊断的优化变异优先排序流程,针对Exomiser和Genomiser的建议
2025-11-09 熊佳仪 MedSci原创 发表于上海
本研究通过系统参数优化显著提升了Exomiser和Genomiser在罕见病诊断中的性能,为临床团队提供了基于实证的最佳实践指南。
在罕见病诊断领域,全外显子组测序和全基因组测序已成为标准的遗传检测手段。然而如何从海量变异中快速准确地识别致病位点仍是临床实践中的核心难题。尽管表型驱动的变异优先排序工具如Exomiser及其非编码扩展版Genomiser被广泛采用,但其参数设置缺乏基于大规模真实世界数据的优化指南。这导致诊断效率受限且手动解读负担沉重。未诊断疾病网络作为一个汇集全美临床与研究专家的国家级研究项目,积累了丰富的表型与基因型数据,为系统评估和优化这些工具提供了独特机会。本研究旨在通过分析UDN中已确诊的罕见病病例,构建一套数据驱动的参数优化方案,以提升Exomiser和Genomiser在编码与非编码变异优先排序中的表现,并为复杂未诊断病例提供补充分析策略。

研究团队从UDN数据库中筛选了386例经严格标准确诊的罕见病患者及其家系数据。这些病例均通过外显子组或基因组测序获得分子诊断,且诊断变异涵盖编码区与非编码区。所有测序数据均基于GRCh38参考基因组进行统一处理,使用临床基因组分析流程进行比对和变异调用,并最终生成家系级别的多样本VCF文件。表型数据则以人类表型本体术语形式从PhenoTips平台提取,确保术语的标准化与完整性。为构建基准队列,研究设立了严格的纳入标准,包括诊断确定性高、主要依赖测序数据确诊、且诊断变异为单核苷酸变异或短插入缺失。最终形成三个独立队列,分别为外显子组Exomiser队列包含125例患者的153个编码区诊断变异,基因组Exomiser队列包含231例患者的296个编码区诊断变异,以及基因组Genomiser队列包含39例患者的60个非编码区或复合杂合诊断变异。
在数据分析前,团队对输入VCF文件进行了系统性质控过滤。通过评估基因型质量与变异等位基因频率的过滤阈值,发现将杂合变异VAF范围设定为15%至85%,同时要求GQ值不低于20,能在保留绝大多数真实诊断变异的前提下有效去除低质量位点。这一过滤步骤平均每个病例可去除约134万个变异,保留645万个高质量变异,为后续优先排序奠定基础。研究定义了三个层次的成功标准,包括基因级别成功即诊断基因出现在输出列表中,变异级别成功即具体诊断变异被正确优先排序,以及变异级别成功且遗传模式正确。其中变异级别成功作为主要评价指标,并设定排名前30为有效优先排序的截断值。

图1 评估VCF过滤标准对合并ES和GS队列中474个变异的影响,A最小基因型质量 versus 在不同杂合变异所需VAF范围下因过滤标准移除的诊断变异百分比,B最小基因型质量 versus 在默认参数下不同杂合变异所需VAF范围内诊断变异在Exomiser或Genomiser输出中的平均排名
在参数优化过程中,研究首先聚焦于表型关联数据库的选择。比较了PhenIX、PHIVE和默认hiPHIVE等算法的表现,结果显示使用仅包含人类基因表型关联的hiPHIVE模型在基因组Exomiser队列中可将诊断变异排名前十的比例从默认设置的66.6%提升至82.8%。在外显子组队列中也观察到类似改善。尽管在非编码变异队列中整体排名提升不显著,但人类专用模型在所有成功排序的变异中均带来排名上升,表明其在不同数据类型中均具有稳健优势。因此研究推荐在常规分析中优先采用人类专用hiPHIVE作为表型关联算法。
变异致病性预测源的选择对排序结果影响显著。研究评估了包括REVEL、MVP、AlphaMissense、SpliceAI及CADD在内的多种预测工具,发现将REVEL、MVP、AlphaMissense和SpliceAI组合使用时,诊断变异的排名前十比例较默认的REVEL加MVP组合提升2.7%,且该组合能更好区分诊断与非诊断变异。而引入CADD或其他老旧预测工具如PolyPhen和SIFT则因评分尺度不兼容导致致病性评分普遍偏高,反而降低了排序特异性。在Genomiser分析中,尽管其默认包含ReMM评分用于非编码变异预测,但在本队列中排除ReMM反而提升性能,这可能与队列中启动子或增强子变异较少而剪接变异较多有关。但考虑到ReMM在调控变异预测中的设计初衷,研究仍建议在Genomiser中保留ReMM并联合REVEL、MVP和SpliceAI使用。
表型术语的质量与数量分析显示,Exomiser对准确且相关的HPO术语依赖较强。完全移除表型信息将导致性能大幅下降,而随机添加无关术语虽在已确诊病例中因偏向已知疾病基因而偶然提升排名,但在未诊断病例中可能掩盖新基因的发现,因此不推荐使用。实际数据分析中,患者表型术语数量中位数为20个,去除可能由采集界面引入的产前或围产期等无关术语后,诊断变异排名仅轻微波动。这表明工具对表型噪声具有一定耐受性,但最佳性能仍依赖于精准的表型注释。

图2 在GS Exomiser队列中比较不同表型优先排序算法的性能
家系数据的准确性对遗传模式过滤至关重要。研究发现在22个家系中存在谱系信息错误或表型误判问题,导致24个诊断变异无法被优先排序。当改用先证者单独数据重新分析时,其中21个变异得以恢复,且多数排名显著提升。这凸显了临床实践中核实家系成员表型状态的重要性。同时研究证实即使在家系数据不可用时,启用遗传模式过滤仍能提升排序效果,但需注意在复合杂合病例中,缺乏亲本信息可能导致变异被错误归类。
为优化输出结果的可操作性,团队探索了基于p值的过滤策略。发现在基因组Exomiser队列中采用p值不大于0.3的阈值可在保持高召回率的同时将每位患者的候选变异中位数从数百降至数十。尽管该阈值受家系结构影响,在单例分析中候选数量较多,但仍为多组学数据整合提供了可行方案。此外研究识别出86个在队列中频繁出现在前30候选名单却极少与诊断相关的基因,如TP53和COL1A1等。标记而非过滤这些基因可在后续手动解读中降低干扰,但需谨慎避免误除真实致病基因。
为验证优化参数的通用性,研究将其应用于17例新确诊的UDN患者。结果显示23个诊断变异中有22个排名进入前30,且多数变异排名较默认参数显著提升。仅四例因依赖模型生物或蛋白互作网络数据而排名下降,这反映人类专用数据库对新近发现基因的覆盖延迟。分层分析表明优化效果在不同疾病类别和遗传模式下均保持一致,进一步支持其临床适用性。最终研究将优化流程整合至Mosaic平台,支持UDN未诊断病例的持续分析与定期再评估。
表1 用于基准测试Exomiser和Genomiser的UDN队列基因组数据摘要

总之,本研究通过系统参数优化显著提升了Exomiser和Genomiser在罕见病诊断中的性能,为临床团队提供了基于实证的最佳实践指南。优化流程不仅提高了诊断变异的排名效率,还通过输出精炼策略降低了手动解读负担。尽管工具在表型关联数据库更新和变异评分尺度兼容性方面仍存挑战,但整体框架为大规模基因组数据的高效解读奠定了坚实基础。未来随着多组学数据的整合与算法持续改进,这一流程有望在更广泛的罕见病诊断场景中发挥关键作用。
原始出处:
Cooperstein, I.B., Marwaha, S., Ward, A. et al. An optimized variant prioritization process for rare disease diagnostics: recommendations for Exomiser and Genomiser. Genome Med 17, 127 (2025). https://doi.org/10.1186/s13073-025-01546-1
本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言












#全外显子组测序# #罕见病# #变异优先排序# #Exomiser# #Genomiser#
24 举报