Genome Medicine:罕见病诊断的优化变异优先排序流程,针对Exomiser和Genomiser的建议

2025-11-09 熊佳仪 MedSci原创 发表于上海

本研究通过系统参数优化显著提升了Exomiser和Genomiser在罕见病诊断中的性能,为临床团队提供了基于实证的最佳实践指南。

罕见病诊断领域,全外显子组测序和全基因组测序已成为标准的遗传检测手段。然而如何从海量变异中快速准确地识别致病位点仍是临床实践中的核心难题。尽管表型驱动的变异优先排序工具如Exomiser及其非编码扩展版Genomiser被广泛采用,但其参数设置缺乏基于大规模真实世界数据的优化指南。这导致诊断效率受限且手动解读负担沉重。未诊断疾病网络作为一个汇集全美临床与研究专家的国家级研究项目,积累了丰富的表型与基因型数据,为系统评估和优化这些工具提供了独特机会。本研究旨在通过分析UDN中已确诊的罕见病病例,构建一套数据驱动的参数优化方案,以提升Exomiser和Genomiser在编码与非编码变异优先排序中的表现,并为复杂未诊断病例提供补充分析策略。

研究团队从UDN数据库中筛选了386例经严格标准确诊的罕见病患者及其家系数据。这些病例均通过外显子组或基因组测序获得分子诊断,且诊断变异涵盖编码区与非编码区。所有测序数据均基于GRCh38参考基因组进行统一处理,使用临床基因组分析流程进行比对和变异调用,并最终生成家系级别的多样本VCF文件。表型数据则以人类表型本体术语形式从PhenoTips平台提取,确保术语的标准化与完整性。为构建基准队列,研究设立了严格的纳入标准,包括诊断确定性高、主要依赖测序数据确诊、且诊断变异为单核苷酸变异或短插入缺失。最终形成三个独立队列,分别为外显子组Exomiser队列包含125例患者的153个编码区诊断变异,基因组Exomiser队列包含231例患者的296个编码区诊断变异,以及基因组Genomiser队列包含39例患者的60个非编码区或复合杂合诊断变异。

在数据分析前,团队对输入VCF文件进行了系统性质控过滤。通过评估基因型质量与变异等位基因频率的过滤阈值,发现将杂合变异VAF范围设定为15%至85%,同时要求GQ值不低于20,能在保留绝大多数真实诊断变异的前提下有效去除低质量位点。这一过滤步骤平均每个病例可去除约134万个变异,保留645万个高质量变异,为后续优先排序奠定基础。研究定义了三个层次的成功标准,包括基因级别成功即诊断基因出现在输出列表中,变异级别成功即具体诊断变异被正确优先排序,以及变异级别成功且遗传模式正确。其中变异级别成功作为主要评价指标,并设定排名前30为有效优先排序的截断值。

图1 评估VCF过滤标准对合并ES和GS队列中474个变异的影响,A最小基因型质量 versus 在不同杂合变异所需VAF范围下因过滤标准移除的诊断变异百分比,B最小基因型质量 versus 在默认参数下不同杂合变异所需VAF范围内诊断变异在Exomiser或Genomiser输出中的平均排名

在参数优化过程中,研究首先聚焦于表型关联数据库的选择。比较了PhenIX、PHIVE和默认hiPHIVE等算法的表现,结果显示使用仅包含人类基因表型关联的hiPHIVE模型在基因组Exomiser队列中可将诊断变异排名前十的比例从默认设置的66.6%提升至82.8%。在外显子组队列中也观察到类似改善。尽管在非编码变异队列中整体排名提升不显著,但人类专用模型在所有成功排序的变异中均带来排名上升,表明其在不同数据类型中均具有稳健优势。因此研究推荐在常规分析中优先采用人类专用hiPHIVE作为表型关联算法。

变异致病性预测源的选择对排序结果影响显著。研究评估了包括REVEL、MVP、AlphaMissense、SpliceAI及CADD在内的多种预测工具,发现将REVEL、MVP、AlphaMissense和SpliceAI组合使用时,诊断变异的排名前十比例较默认的REVEL加MVP组合提升2.7%,且该组合能更好区分诊断与非诊断变异。而引入CADD或其他老旧预测工具如PolyPhen和SIFT则因评分尺度不兼容导致致病性评分普遍偏高,反而降低了排序特异性。在Genomiser分析中,尽管其默认包含ReMM评分用于非编码变异预测,但在本队列中排除ReMM反而提升性能,这可能与队列中启动子或增强子变异较少而剪接变异较多有关。但考虑到ReMM在调控变异预测中的设计初衷,研究仍建议在Genomiser中保留ReMM并联合REVEL、MVP和SpliceAI使用。

表型术语的质量与数量分析显示,Exomiser对准确且相关的HPO术语依赖较强。完全移除表型信息将导致性能大幅下降,而随机添加无关术语虽在已确诊病例中因偏向已知疾病基因而偶然提升排名,但在未诊断病例中可能掩盖新基因的发现,因此不推荐使用。实际数据分析中,患者表型术语数量中位数为20个,去除可能由采集界面引入的产前或围产期等无关术语后,诊断变异排名仅轻微波动。这表明工具对表型噪声具有一定耐受性,但最佳性能仍依赖于精准的表型注释。

图2 在GS Exomiser队列中比较不同表型优先排序算法的性能

家系数据的准确性对遗传模式过滤至关重要。研究发现在22个家系中存在谱系信息错误或表型误判问题,导致24个诊断变异无法被优先排序。当改用先证者单独数据重新分析时,其中21个变异得以恢复,且多数排名显著提升。这凸显了临床实践中核实家系成员表型状态的重要性。同时研究证实即使在家系数据不可用时,启用遗传模式过滤仍能提升排序效果,但需注意在复合杂合病例中,缺乏亲本信息可能导致变异被错误归类。

为优化输出结果的可操作性,团队探索了基于p值的过滤策略。发现在基因组Exomiser队列中采用p值不大于0.3的阈值可在保持高召回率的同时将每位患者的候选变异中位数从数百降至数十。尽管该阈值受家系结构影响,在单例分析中候选数量较多,但仍为多组学数据整合提供了可行方案。此外研究识别出86个在队列中频繁出现在前30候选名单却极少与诊断相关的基因,如TP53和COL1A1等。标记而非过滤这些基因可在后续手动解读中降低干扰,但需谨慎避免误除真实致病基因。

为验证优化参数的通用性,研究将其应用于17例新确诊的UDN患者。结果显示23个诊断变异中有22个排名进入前30,且多数变异排名较默认参数显著提升。仅四例因依赖模型生物或蛋白互作网络数据而排名下降,这反映人类专用数据库对新近发现基因的覆盖延迟。分层分析表明优化效果在不同疾病类别和遗传模式下均保持一致,进一步支持其临床适用性。最终研究将优化流程整合至Mosaic平台,支持UDN未诊断病例的持续分析与定期再评估。

表1 用于基准测试Exomiser和Genomiser的UDN队列基因组数据摘要

总之,本研究通过系统参数优化显著提升了Exomiser和Genomiser在罕见病诊断中的性能,为临床团队提供了基于实证的最佳实践指南。优化流程不仅提高了诊断变异的排名效率,还通过输出精炼策略降低了手动解读负担。尽管工具在表型关联数据库更新和变异评分尺度兼容性方面仍存挑战,但整体框架为大规模基因组数据的高效解读奠定了坚实基础。未来随着多组学数据的整合与算法持续改进,这一流程有望在更广泛的罕见病诊断场景中发挥关键作用。

原始出处:

Cooperstein, I.B., Marwaha, S., Ward, A. et al. An optimized variant prioritization process for rare disease diagnostics: recommendations for Exomiser and Genomiser. Genome Med 17, 127 (2025). https://doi.org/10.1186/s13073-025-01546-1

本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。

相关资料下载:
[AttachmentFileName(sort=1, fileName=s13073-025-01546-1.pdf)] GetArticleByIdResponse(id=0579905989b9, projectId=1, sourceId=null, title=Genome Medicine:罕见病诊断的优化变异优先排序流程,针对Exomiser和Genomiser的建议, articleFrom=MedSci原创, journalId=12132, copyright=原创, creationTypeList=[1], summary=本研究通过系统参数优化显著提升了Exomiser和Genomiser在罕见病诊断中的性能,为临床团队提供了基于实证的最佳实践指南。, cover=https://img.medsci.cn/20240403/1712113644557_8827638.jpg, authorId=0, author=熊佳仪, originalUrl=, linkOutUrl=, content=<p>在<a href="https://rare.medsci.cn/">罕见病</a><a href="https://www.medsci.cn/guideline/list.do?q=%E8%AF%8A%E6%96%AD">诊断</a>领域,全外显子组测序和全基因组测序已成为标准的遗传检测手段。然而如何从海量变异中快速准确地识别致病位点仍是临床实践中的核心难题。尽管表型驱动的变异优先排序工具如Exomiser及其非编码扩展版Genomiser被广泛采用,但其参数设置缺乏基于大规模真实世界数据的优化<a href="https://www.medsci.cn/guideline/search">指南</a>。这导致诊断效率受限且手动<a href="https://www.medsci.cn/guideline/list.do?q=%E8%A7%A3%E8%AF%BB">解读</a>负担沉重。未诊断疾病网络作为一个汇集全美临床与研究专家的国家级研究项目,积累了丰富的表型与基因型数据,为系统评估和优化这些工具提供了独特机会。本研究旨在通过分析UDN中已确诊的罕见病病例,构建一套数据驱动的参数优化方案,以提升Exomiser和Genomiser在编码与非编码变异优先排序中的表现,并为复杂未诊断病例提供补充分析策略。</p> <p><img src="https://img.medsci.cn/20251104/1762234958055_6512445.png" /></p> <p>研究团队从UDN数据库中筛选了386例经严格标准确诊的罕见病患者及其家系数据。这些病例均通过外显子组或基因组测序获得分子诊断,且诊断变异涵盖编码区与非编码区。所有测序数据均基于GRCh38参考基因组进行统一处理,使用临床基因组分析流程进行比对和变异调用,并最终生成家系级别的多样本VCF文件。表型数据则以人类表型本体术语形式从PhenoTips平台提取,确保术语的标准化与完整性。为构建基准队列,研究设立了严格的纳入标准,包括诊断确定性高、主要依赖测序数据确诊、且诊断变异为单核苷酸变异或短插入缺失。最终形成三个独立队列,分别为外显子组Exomiser队列包含125例患者的153个编码区诊断变异,基因组Exomiser队列包含231例患者的296个编码区诊断变异,以及基因组Genomiser队列包含39例患者的60个非编码区或复合杂合诊断变异。</p> <p>在数据分析前,团队对输入VCF文件进行了系统性质控过滤。通过评估基因型质量与变异等位基因频率的过滤阈值,发现将杂合变异VAF范围设定为15%至85%,同时要求GQ值不低于20,能在保留绝大多数真实诊断变异的前提下有效去除低质量位点。这一过滤步骤平均每个病例可去除约134万个变异,保留645万个高质量变异,为后续优先排序奠定基础。研究定义了三个层次的成功标准,包括基因级别成功即诊断基因出现在输出列表中,变异级别成功即具体诊断变异被正确优先排序,以及变异级别成功且遗传模式正确。其中变异级别成功作为主要评价指标,并设定排名前30为有效优先排序的截断值。</p> <p><img src="https://img.medsci.cn/20251104/1762234958066_6512445.png" /></p> <p style="text-align: center;">图1 评估VCF过滤标准对合并ES和GS队列中474个变异的影响,A最小基因型质量 versus 在不同杂合变异所需VAF范围下因过滤标准移除的诊断变异百分比,B最小基因型质量 versus 在默认参数下不同杂合变异所需VAF范围内诊断变异在Exomiser或Genomiser输出中的平均排名</p> <p>在参数优化过程中,研究首先聚焦于表型关联数据库的选择。比较了PhenIX、PHIVE和默认hiPHIVE等算法的表现,结果显示使用仅包含人类基因表型关联的hiPHIVE模型在基因组Exomiser队列中可将诊断变异排名前十的比例从默认设置的66.6%提升至82.8%。在外显子组队列中也观察到类似改善。尽管在非编码变异队列中整体排名提升不显著,但人类专用模型在所有成功排序的变异中均带来排名上升,表明其在不同数据类型中均具有稳健优势。因此研究推荐在常规分析中优先采用人类专用hiPHIVE作为表型关联算法。</p> <p>变异致病性预测源的选择对排序结果影响显著。研究评估了包括REVEL、MVP、AlphaMissense、SpliceAI及CADD在内的多种预测工具,发现将REVEL、MVP、AlphaMissense和SpliceAI组合使用时,诊断变异的排名前十比例较默认的REVEL加MVP组合提升2.7%,且该组合能更好区分诊断与非诊断变异。而引入CADD或其他老旧预测工具如PolyPhen和SIFT则因评分尺度不兼容导致致病性评分普遍偏高,反而降低了排序特异性。在Genomiser分析中,尽管其默认包含ReMM评分用于非编码变异预测,但在本队列中排除ReMM反而提升性能,这可能与队列中启动子或增强子变异较少而剪接变异较多有关。但考虑到ReMM在调控变异预测中的设计初衷,研究仍建议在Genomiser中保留ReMM并联合REVEL、MVP和SpliceAI使用。</p> <p>表型术语的质量与数量分析显示,Exomiser对准确且相关的HPO术语依赖较强。完全移除表型信息将导致性能大幅下降,而随机添加无关术语虽在已确诊病例中因偏向已知疾病基因而偶然提升排名,但在未诊断病例中可能掩盖新基因的发现,因此不推荐使用。实际数据分析中,患者表型术语数量中位数为20个,去除可能由采集界面引入的产前或围产期等无关术语后,诊断变异排名仅轻微波动。这表明工具对表型噪声具有一定耐受性,但最佳性能仍依赖于<a href="https://www.medsci.cn/search?q=%E7%B2%BE%E5%87%86">精准</a>的表型注释。</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20251104/1762234985795_6512445.png" /></p> <p style="text-align: center;">图2 在GS Exomiser队列中比较不同表型优先排序算法的性能</p> <p>家系数据的准确性对遗传模式过滤至关重要。研究发现在22个家系中存在谱系信息错误或表型误判问题,导致24个诊断变异无法被优先排序。当改用先证者单独数据重新分析时,其中21个变异得以恢复,且多数排名显著提升。这凸显了临床实践中核实家系成员表型状态的重要性。同时研究证实即使在家系数据不可用时,启用遗传模式过滤仍能提升排序效果,但需注意在复合杂合病例中,缺乏亲本信息可能导致变异被错误归类。</p> <p>为优化输出结果的可操作性,团队探索了基于p值的过滤策略。发现在基因组Exomiser队列中采用p值不大于0.3的阈值可在保持高召回率的同时将每位患者的候选变异中位数从数百降至数十。尽管该阈值受家系结构影响,在单例分析中候选数量较多,但仍为多组学数据整合提供了可行方案。此外研究识别出86个在队列中频繁出现在前30候选名单却极少与诊断相关的基因,如TP53和COL1A1等。标记而非过滤这些基因可在后续手动解读中降低干扰,但需谨慎避免误除真实致病基因。</p> <p>为验证优化参数的通用性,研究将其应用于17例新确诊的UDN患者。结果显示23个诊断变异中有22个排名进入前30,且多数变异排名较默认参数显著提升。仅四例因依赖模型生物或蛋白互作网络数据而排名下降,这反映人类专用数据库对新近发现基因的覆盖延迟。分层分析表明优化效果在不同疾病类别和遗传模式下均保持一致,进一步支持其临床适用性。最终研究将优化流程整合至Mosaic平台,支持UDN未诊断病例的持续分析与定期再评估。</p> <p>表1 用于基准测试Exomiser和Genomiser的UDN队列基因组数据摘要</p> <p><img style="display: block; margin-left: auto; margin-right: auto;" src="https://img.medsci.cn/20251104/1762235018902_6512445.png" /></p> <p>总之,本研究通过系统参数优化显著提升了Exomiser和Genomiser在罕见病诊断中的性能,为临床团队提供了基于实证的最佳<a href="https://www.medsci.cn/topic/show?id=5df2460e269">实践指南</a>。优化流程不仅提高了诊断变异的排名效率,还通过输出精炼策略降低了手动解读负担。尽管工具在表型关联数据库更新和变异评分尺度兼容性方面仍存挑战,但整体框架为大规模基因组数据的高效解读奠定了坚实基础。未来随着多组学数据的整合与算法持续改进,这一流程有望在更广泛的罕见病诊断场景中发挥关键作用。</p> <p><span style="color: #999999;">原始出处:</span></p> <p><span style="color: #999999;">Cooperstein, I.B., Marwaha, S., Ward, A. et al. An optimized variant prioritization process for rare disease diagnostics: recommendations for Exomiser and Genomiser. Genome Med 17, 127 (2025). <a style="color: #999999;" href="https://doi.org/10.1186/s13073-025-01546-1" target="_blank" rel="noopener">https://doi.org/10.1186/s13073-025-01546-1</a></span></p> <p><span style="color: #999999;">本文相关学术信息由梅斯医学提供,基于自主研发的人工智能学术机器人完成翻译后邀请临床医师进行再次校对。如有内容上的不准确请留言给我们。</span></p>, belongTo=, tagList=[TagDto(tagId=2179, tagName=全外显子组测序), TagDto(tagId=10637, tagName=罕见病), TagDto(tagId=509759, tagName=变异优先排序), TagDto(tagId=509760, tagName=Exomiser), TagDto(tagId=509761, tagName=Genomiser)], categoryList=[CategoryDto(categoryId=84, categoryName=研究进展, tenant=100), CategoryDto(categoryId=304, categoryName=罕见病, tenant=100), CategoryDto(categoryId=20656, categoryName=梅斯医学, tenant=100)], articleKeywordId=0, articleKeyword=, articleKeywordNum=6, guiderKeywordId=0, guiderKeyword=, guiderKeywordNum=6, opened=1, paymentType=1, paymentAmount=0, recommend=0, recommendEndTime=null, sticky=0, stickyEndTime=null, allHits=489, appHits=3, showAppHits=0, pcHits=69, showPcHits=486, likes=0, shares=4, comments=1, approvalStatus=1, publishedTime=Sun Nov 09 19:39:00 CST 2025, publishedTimeString=2025-11-09, pcVisible=1, appVisible=1, editorId=6545039, editor=罕见病新前沿, waterMark=0, formatted=0, deleted=0, version=3, createdBy=074a6512445, createdName=xiongjy, createdTime=Tue Nov 04 13:46:41 CST 2025, updatedBy=92910, updatedName=rayms, updatedTime=Sun Nov 09 19:43:04 CST 2025, ipAttribution=上海, attachmentFileNameList=[AttachmentFileName(sort=1, fileName=s13073-025-01546-1.pdf)], guideDownload=1, surveyId=null, surveyIdStr=null, surveyName=null, pushMsXiaoZhi=true, qaList=[{id=1339736, encryptionId=95f81339e363c, articleId=0579905989b9, userName=administrator, question=多组学数据整合在罕见病诊断中的前景如何?, answer=随着测序技术进步和算法改进,多组学数据整合有望显著提升诊断率,但仍面临数据标准化和分析流程优化等挑战。, clickNum=0, type=article, createdAt=1762688598302, updatedAt=1762688598302}, {id=1339735, encryptionId=d75e1339e3517, articleId=0579905989b9, userName=administrator, question=如何应对罕见病诊断中新发现基因数据库覆盖延迟的问题?, answer=建议同时使用人类专用数据库和模型生物数据,并定期更新数据库以确保新基因的识别。, clickNum=0, type=article, createdAt=1762688598302, updatedAt=1762688598302}])
s13073-025-01546-1.pdf
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2288241, encodeId=ec6622882416d, content=<a href='/topic/show?id=cd7b29410cf' target=_blank style='color:#2F92EE;'>#全外显子组测序#</a> <a href='/topic/show?id=5a8be955621' target=_blank style='color:#2F92EE;'>#罕见病#</a> <a href='/topic/show?id=d253131381b0' target=_blank style='color:#2F92EE;'>#变异优先排序#</a> <a href='/topic/show?id=c137131382f9' target=_blank style='color:#2F92EE;'>#Exomiser#</a> <a href='/topic/show?id=0dfd131383d5' target=_blank style='color:#2F92EE;'>#Genomiser#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=24, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=131382, encryptionId=c137131382f9, topicName=Exomiser), TopicDto(id=131383, encryptionId=0dfd131383d5, topicName=Genomiser), TopicDto(id=29410, encryptionId=cd7b29410cf, topicName=全外显子组测序), TopicDto(id=131381, encryptionId=d253131381b0, topicName=变异优先排序), TopicDto(id=79556, encryptionId=5a8be955621, topicName=罕见病)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Sun Nov 09 19:43:04 CST 2025, time=2025-11-09, status=1, ipAttribution=上海)]

相关资讯

Nature Genetics:解析杂合基因变异的渐进效应:破解复杂疾病的关键

这项研究展示了新的技术在揭示基因功能与人类性状关系中的潜力,同时也引发了一个耐人寻味的问题:这些罕见变异会如何在个体和群体层面影响我们的健康?

全外显子组测序WES揭示高危神经母细胞瘤患者的新型候选驱动突变和潜在可用药突变

本研究结果为神经母细胞瘤潜在分子发病机制和治疗靶点提供了相关新信息的全面概述。

《BMC Pregnancy and Childbirth》:染色体微阵列与全外显子组测序在胎儿结构异常中的诊断性能

此次研究共纳入391例因产前超声检出结构异常而接受遗传学检测的胎儿。

Clinica Chimica Acta:全外显子组测序检测台湾儿童非典型溶血性尿毒症患者的突变

虽然非典型溶血性尿毒症(aHUS)是一种遗传性疾病,但只在60%的患者发现分子缺陷。

Nat Genet:新单倍型定相方法SHAPEIT5,可在大型WGS/WES数据集中精确鉴定罕见变异

该研究报道了一种新的单倍型定相方法SHAPEIT5,可以在大型WGS/WES数据集中精确鉴定罕见变异。

各类肾病接招!WES测序助力遗传诊断率超1/3,一些人甚至改变临床诊断和治疗

本研究评估了WES在韩国各种肾脏疾病患者队列中的诊断率。此外,评估WES对临床的影响,如遗传确诊后的疾病重新分类、患者管理和家庭成员咨询的变化。

Clinica Chimica Acta:全外显子组测序揭示了MODY的新的候选基因变异

青少年成熟型糖尿病(MODY)是糖尿病的单基因亚型。虽然有14个基因与不同亚型的MODY相关,但30-40%的MODY患者存在未识别的基因突变。

Neurology:通过单例全外显子组和全基因组测序有效诊断遗传性脑白质疾病

 近日,有研究人员描述了通过sWES-WGS 分析的 遗传性脑白质疾病(GWMD) 患者的 126 个家庭,研究发现单一全外显子组测序和全基因组测序(sWES-WGS)是诊断GMWD的最佳替代法。

全外显子组测序揭示新辅助免疫治疗对EGFR突变型非小细胞肺癌的疗效

广东省人民医院钟文昭教授领导的研究团队近日开展了一项前瞻性II期临床试验,验证了对EGFR突变人群开展新辅助免疫治疗联合化疗的安全性和可行性。

JAMA Netw Open:我国学者揭示外显子组测序在神经发育障碍儿童中的诊断价值

本研究通过trio-ES对1106例NDDs患儿进行系统性分析,证实其总体诊断率达46.1%,与CMA和SNVs单独检测相比具有显著优势。