Nat Commun:利用图形泛基因组图谱可灵敏识别罕见遗传病的结构变异,并降低错误率

2024-03-09 测序中国 测序中国 发表于上海

研究团队探讨了在罕见病队列中使用图形泛基因组来表征SV的益处;利用标准参考基因组、公共组装以及罕见疾病项目中大量的长读长、高保真度基因组测序数据。

基因组结构变异(SV)通常指长度大于1Kb的基因组序列变异,主要包括缺失、插入、重复等变异类型。SV与癌症、孟德尔遗传病及其他复杂疾病相关,但对其进行检测、组装和完全解析仍具挑战性。相比短读长测序,长读长测序可检测更复杂的SV,并能有效从大的基因组中构建无参照的从头组装;但目前仍然需要采用计算方法来充分解析这些长读长测序数据,解决罕见疾病的问题。

现有调用和聚类SV的工具大多基于启发式算法,未考虑整个基因组的组装或复杂基因位点中等位基因之间的变异,从而错误地分裂或合并SV。为克服这些缺陷,必须采用基于图形的泛基因组学方法,即基因组在拓扑结构图中的相互关联。目前,由高质量基因组组装而成的图形泛基因组图谱已经被人类泛基因组参考联盟(HPRC)用于创建人类种群多样性的泛基因组参考。与线性泛基因组相比,这种图形泛基因组在检测SV方面显示出更高的灵敏度

近日,加拿大麦吉尔大学的科研人员在Nature Communications杂志发表了题为“Pangenome graphs improve the analysis of structural variants in rare genetic diseases”的文章。研究团队探讨了在罕见病队列中使用图形泛基因组(Pangenome graphs)来表征SV的益处;利用标准参考基因组、公共组装以及罕见疾病项目(GA4K)中大量的长读长、高保真度基因组测序(HiFi-GS)数据,构建了代表GA4K统一SV调用集的图形泛基因组以识别常见变异。经验证,图形泛基因组可排除常见的非致病性或罕见的变异,并对足够罕见但具有因果关系的SV进行优先排序。

图片

文章发表在Nature Communications

主要研究内容

一种识别和整合数百个SV的泛基因组学方法

研究团队对GA4K计划中287个父-母-子三人组(trio)进行分析,以寻找具有潜在致病性的罕见SV。在组装基因组之前,染色体微阵列分析显示该队列中超90%的先证者未被诊断,表明这组基因组富含疑难病例。为此,研究团队纳入了短读长基因组测序(srGS)亲代数据,并进一步使用PacBio HiFi Reads对所有先证者进行测序;使用HPRC发布的94个单倍体基因组扩充上述数据以鉴定、识别罕见变异;并基于minigraph构创建了一个图形泛基因组,在668个单倍体基因组和两个标准参考基因组(GRCh38和CHM13v2)中鉴定SV

在图形构建过程中,当添加单倍体基因组时,图中缺失的大于50 bp的多态性会产生新的节点和路径。分析结果显示,每增加一个单倍体基因组,新增的非参考序列节点数量稳定在500个左右,表明在人类基因组中仍有更多的等位基因有待发现

利用得到的图形,研究团队对组装进行了基因分型,观察到180,755个多态性位点和631,400个不同的等位基因。为确保所有基因型都来自可靠的组装序列,研究团队使用Flagger进行验证。在最佳组装中,98%的等位基因被有效区域支持。此外,研究团队还发现重复和复制序列是造成SV的主要因素

图片

图1. 图形泛基因组的构建

基于图形泛基因组鉴定SV可以降低错误率

为证实图形泛基因组能够恢复其他长读长测序方法调用的SV等位基因,研究团队计算了在287个先证者中每个minigraph SV(基因组图谱中的非参考等位基因)的召回率和精确率,并将其与通过PBSV方法获得的SV进行比较,最终得到了一个二维分布热图。结果显示,大多数SV的精确率和召回率都较高;从整体基因型来看,minigraph的召回率为0.78,精确率为0.80。此外,与染色体微阵列分析结果相比,minigraph也达到了类似的灵敏度,在每个样本中,minigraph平均召回79.5%的染色体微阵列SV。

GA4K队列中有一对共享表型的同卵双胞胎,研究团队利用其探索了SV的复制率(即真实阳性率)。结果显示,PBSV共调用了23,516个SV,其中83.12%在两个双胞胎中被复制;minigraph调用了29,964个SV,其中84.96%被复制,表明该方法比基于参考的方法更敏感。研究团队还探索了其他58个GA4K家庭中的等位基因共享情况,发现基于minigraph的方法显示出平均比PBSV多7.1%的等位基因共享。此外,研究团队检测了GA4K232 trio中的孟德尔违反(Mendelian violations),发现minigraph相对于PBSV有更低的假阳性率和假阴性率

图片

图2. 验证鉴定获得的SV

罕见SV等位基因分布在整个基因组中

研究团队利用图形泛基因组分析了可能具有功能相关性的SV等位基因,并重点研究了GA4K特有的204,551个等位基因,包括132,391个单等位基因SV,仅在GA4K中观察到一次。结果显示,在7,644个基因中共发现73,982个等位基因,其中18,095个等位基因在3,112个基因的3,772个外显子内。值得注意的是,有1,383个等位基因与275个OMIM基因的306个外显子重叠,这些基因与孟德尔遗传疾病和表型相关。

接下来,研究团队按频率划分上述等位基因,大多数是单等位基因和罕见变异,并探讨了单等位基因能否在基因组的基因间、基因中或外显子区域富集或减少。结果显示,在6,638个基因中有51,733个单等位基因SV,在2,530个基因的2,932个外显子中有13,083个,在242 OMIM基因中有978个。与预期一致,外显子和OMIM外显子的频谱对罕见等位基因的倾向性最强,其次是基因内区和基因间区。特别地,72.4%外显子SV和70.7%OMIM外显子SV为单等位基因SV。

图片

图3. 罕见SV在基因组中的分布

具有显著影响的SV

为关注具有潜在表型影响的变异,研究团队使用人类表型本体论(HPO)对每个患者的候选位点进行评分。结果显示,最终筛出40个受影响外显子的罕见SV,其中有10个出现在高多态性外显子中;在剩余30个外显子中观察到23个潜在的致病性突变,这些突变位于功能缺失(LOF)等位基因被报告为致病原因的基因中。

最后,研究团队在一名患者的母系单倍型中发现了一个新诊断性SV:在该先证者的所有疾病基因中,KMT2E基因的14.5 kbp缺失在表型匹配评分中排名前5%,并且是评分最高的外显子罕见SV,可影响KMT2E的外显子9-13。该患者具有张力减退、头部畸形和发育迟缓的神经发育表型,与KMT2E常染色体显性遗传功能变异的临床表现重叠。研究团队还通过短读长基因组数据验证了该变异,并通过PCR进行了临床验证。

图片

图4. KMT2E的缺失性诊断

结 语

综上所述,图形泛基因组为研究遗传变异提供了一个全面的框架,可以探索难以通过参考基因组来表征的复杂位点。研究团队基于渐进式泛基因组构建技术及大量数据构建了一个图形泛基因组。基于该方法,该研究获得了比标准参考方法更高水平的再现性,揭示了常见和罕见的SV,并对可能导致遗传病的SV进行优先排序。在未来可通过使用minigraph-cactus添加基础水平变异来扩展这种泛基因组,这将有助于揭示SV中可能存在的任何小的嵌套变异,并细化SV断点。

论文原文:

Groza, C., Schwendinger-Schreck, C., Cheung, W.A. et al. Pangenome graphs improve the analysis of structural variants in rare genetic diseases. Nat Commun 15, 657 (2024). https://doi.org/10.1038/s41467-024-44980-2.

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2192241, encodeId=8ccb219224155, content=<a href='/topic/show?id=0857418256a' target=_blank style='color:#2F92EE;'>#基因组图谱#</a> <a href='/topic/show?id=2738112088c2' target=_blank style='color:#2F92EE;'>#图形泛基因组#</a> <a href='/topic/show?id=48f9418406e' target=_blank style='color:#2F92EE;'>#基因组测序#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=16, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=112088, encryptionId=2738112088c2, topicName=图形泛基因组), TopicDto(id=41825, encryptionId=0857418256a, topicName=基因组图谱), TopicDto(id=41840, encryptionId=48f9418406e, topicName=基因组测序)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Sat Mar 09 15:36:40 CST 2024, time=2024-03-09, status=1, ipAttribution=上海)]

相关资讯

亚洲家猪 “超清” 基因组图谱发布

近日,生物学预印本服务器(BioRxiv)在线发表了中国优良地方猪——陆川猪的染色体级别的高质量定相(Phased)基因组序列。这不仅填补了亚洲家猪缺少高质量参考基因组的空白,更为基因组组装提供了新的方向。该项成果由中国农业科学院深圳农业基因组研究所(以下简称 “基因组所”)猪基因组设计育种创新团队主导完成。

盘点:癌症基因组亮点研究荟萃

癌症基因组图谱计划(The Cancer Genome Atlas,TCGA)是国际癌症基因组联盟最大的一个研究项目。该项目启动于2006年,耗资1亿美元,目的在于绘制1万个肿瘤基因组图谱。 如今来自16个国家的科学家已经通过通力合作完成了该项目,揭示了近10000个与癌症相关的基因突变。那么下一步科学家们该去做什么?一些科学家希望继续关注癌症的测序,而另一些研究人员则想要探索这些新揭示

Nat Med:仅1mL血浆即可获得癌症综合表观基因组图谱,揭示15种癌症类型的更多临床可操作信息

检测患者血浆中的基因调控因子可以识别临床相关的疾病表型。这项概念验证研究的重点是转移性癌症,因此还需要进一步评估这种方法在大型前瞻性队列中的效用,以及在早期疾病和非肿瘤性条件下的表现。

Nat Commun:转移趋势抵抗性前列腺癌基因组图谱阐释了不同的基因型具有可能的临床影响

转移去势抵抗性前列腺癌(mCRPC)具有高度复杂的基因组图谱。随着最近新治疗方法的发展,对前列腺癌的精准分层策略是需要的。最近,有研究人员对197名mCRPC患者的新鲜冷冻转移活检样本进行了全基因组测序(WGS)分析。基于基因组特性的无监督聚类分析,研究人员确定了8个不同的基因组聚类。研究人员观察到了可能的临床相关基因型,包括微卫星不稳定性(MSI)、基因组缺失中富集的同源重组缺失(HRD)、BR

Cell Res:李彦宏发表顶刊医学论文,发布很大食管鳞状细胞癌基因组图谱,为诊断和治疗奠定基础

李彦宏在该论文中并非简单挂名,而是属于三个通讯作者之一,另外两位通讯作者分别是中国医学科学院的刘芝华教授和詹启敏院士。

Nat Genet:阐明基因互作模式或可帮助预测个体患病风险

近日,来自乌普萨拉大学的研究人员通过对数千个相关的酵母细胞进行详细分析发现,当很多基因都能够调节单一特征时,其通常会在一个大型的网络中共同协调发挥作用,理解这些基因的作用模式或许就能够帮助有效预测个体机体的遗传组成如何影响机体的特征表现,相关研究刊登于国际杂志Nature Genetics

Nature:孙颖浩教授研究组全新发布亚洲人前列腺癌基因组图谱

通过对2554例前列腺肿瘤的系统比较,绘制了亚洲人群前列腺癌基因图谱,研究表明中国患者的基因组突变特征与西方患者明显不同。