Nature | 杨剑/沈贤团队构建迄今最大规模人类泛基因组参考图谱,全面解析中国人群遗传多样性
2026-04-10 测序中国 测序中国 发表于上海
研究团队通过大规模二倍体组装和泛基因组构建,系统揭示了中国人群的基因组多样性图谱,补充大量东亚特有罕见变异与功能元件,打破单一参考基因组的局限。
自首个人类参考基因组发布以来,解析人类基因组多样性已成为生物医学研究的基础任务。短读长测序成本降低使大规模测序成为可能,但其难以识别结构变异(SV)和串联重复(RT)等复杂变异;长读长测序与组装算法的进步实现了高质量二倍体基因组组装,为全面解析复杂变异提供了条件,但成本高昂。为整合群体中全谱系遗传变异,科研人员提出了泛基因组概念,即由多个个体二倍体组装构成的群体基因组序列集合。
近年来,人类泛基因组参考联盟(HPRC)和中国人群泛基因组联盟(CPC)的工作展示了泛基因组在解析结构差异区域方面的潜力。但现有泛基因组研究受限于样本规模(仅限几十个个体),难以捕获稀有变异、准确估算等位基因频率及解析高重复区域序列多样性,限制了其在关联分析、临床诊断等领域的广泛应用。
为解决上述问题,西湖大学杨剑团队与温州医科大学沈贤团队合作,在Nature上发表了一项题为“The 1000 Chinese Pangenome empowers medical and population genetics”文章。作为中国千人泛基因组(1KCP)项目的一部分,研究团队开发了一种基于泛基因组的基因组组装(PIGA)新方法,完成1,116例中国个体二倍体基因组组装,构建了包含4.053亿bp非参考序列的中国人群泛基因组,共鉴定3,540万个小变异、11.05万个SV、48.56万个RT多态位点及86万个嵌套变异,其中大量为中国人群特有罕见变异。研究系统解析了多种与医学相关的基因变异,结合表达数据开展表达数量性状位点(eQTL)分析,揭示了复杂变异的调控作用,并构建了1KCP泛变异填充参考panel,为未来大规模关联研究提供了多类型遗传标记。总之,该研究极大拓展了对人类基因组复杂变异及其功能影响的认识,为精准医学和群体遗传学研究提供了重要基础。

该研究共纳入1,379名参与者,对1,144个样本同时开展长、短读长混合全基因组测序(WGS)。采用差异化测序方案,对55个样本实施高深度Illumina短读长、PacBio HiFi长读长及Hi-C测序,保证高质量从头组装;对1,099例样本采用中深度混合测序策略,有效控制大规模队列研究成本。此外,研究团队还开发了泛基因组引导组装流程PIGA,整合群体水平序列信息进行联合组装。
经质控后最终获得1,116个高质量二倍体基因组组装(55个hifiasm组装、1,061个PIGA组装),包含2,232个单倍体基因组,平均大小为2.98 Gb;组装平均质量值(QV)达46,大多数组装的NG50超过40 Mb。结构准确性评估显示,每个PIGA组装平均有616个结构错误,主要集中在卫星DNA和节段性重复等不可靠区域,研究据此定义了GRCh38参考基因组中53.7 Mb的常见不可靠区域以优化后续分析质量。
功能注释显示,每个组装中重复序列平均占53.05%,蛋白质编码和非编码基因的注释率分别为98.7%和98.2%;在每个组装平均发现了77.9个参考基因组缺失的蛋白编码基因和1,593个非编码基因。同时,利用深度学习模型完成表观基因组注释,预测出启动子、增强子等各类表观调控元件,平均占比59.54%。

图1. 1116个二倍体基因组组装的评估与注释
基于上述高质量组装,研究团队整合1KCP、HPRC和CPC数据集以及GRCh38、CHM13参考基因组,构建了非冗余、覆盖均匀的1KCP泛基因组,总大小为3.74 Gb。进一步,基于该泛基因组成功鉴定出405.3 Mb非参考序列(GRCh38和CHM13中缺失),其中277.5 Mb为1KCP独有;这些序列可按频率分为常见、低频、罕见和单倍型特有四类。通过创新的路径引导注释方法,研究团队将146.6 Mb非参考序列注释为基因组元件,并发现26.2Mb非参考序列包含功能基因及调控元件,提示其可能参与重要生物学过程。
以GRCh38为参考,研究团队对1KCP泛基因组进行全维度遗传变异检测,构建了全面的变异目录。共检测到3,540万个小变异、11.053万个SV位点,以及86万个嵌套变异位点,其主要隐藏在非参考序列与SV位点内。SV位点中多等位基因占比较高,研究团队通过等位基因合并优化获得了高质量SV调用集,其中33.3%为新发现SV,且绝大多数为罕见变异。此外,研究团队还鉴定出48.6万个多态性RT位点,其中基序变异是长度变异的4.4倍。
综合统计显示,一个典型的中国二倍体基因组平均包含509万个小变异、23,617个SV、35万个嵌套变异、17.4万个TR长度变异和49.66万个TR基序变异。

图2. 1KCP全基因组及变异目录
基于1KCP数据集,研究团队分析了队列中基因结构与单倍型多样性,重点研究了医学相关基因(MRG)。在3,326个蛋白编码基因外显子区域,发现5,239个能够改变基因转录本结构的SV,其呈现明显纯化选择特征;平均每个个体携带450个,其中9个为罕见变异。值得注意的是,在OMIM和COSMIC数据库收录的623个MRG外显子中识别出1,013个SV,罕见SV比例高达74.6%。研究团队还鉴定出2,427个RT扩增事件,其中124个位于外显子区域,并发现C11orf80中TR扩增与罕见脆性位点FRA11A相关,GIPC1 5'UTR的CGG扩增表现出等位基因特异性高甲基化。
在基因簇层面,研究团队识别了735个存在基因变异的基因簇,涵盖2,038个基因,显著富集血液与免疫相关功能。进一步解析HP基因簇的4种结构单倍型,其中1.7 kb缺失区分了HP1-HPR单倍型,与低密度脂蛋白和总胆固醇水平相关,该缺失与47个表型相关的3个SNV存在强连锁不平衡(LD)。对于HLA基因,实现四字段分辨率高精度分型,共鉴定1,348个四字段等位基因,并基于基因间LD识别出该基因5个不同LD区块。

图3. 多尺度基因变异图谱
为全面揭示不同类型变异对基因表达的调控效应,研究团队利用1KCP队列中1,101例个体RNA-seq数据,开展全变异eQTL分析。结果显示,对于顺式遗传力>0.05的基因,复杂变异平均解释了12.6%的顺式遗传力;共鉴定出15,722个显著关联eGene,并筛选出3,256个由复杂变异(SV、RT、嵌套变异)主导的eQTL信号。其中,SV位点内含有大量嵌套变异,主要富集于基因区域和调控元件;TR基序变异捕获了长度变异无法检测的独特遗传信号,同一TR位点可通过不同机制调控基因表达(如MAD1L1),
通过eQTL与GWAS共定位分析,研究团队识别出1,563个共定位信号,其中119个由复杂变异驱动,如GSTM1基因上18kb缺失变异,可能通过下调基因表达影响血小板计数。

图4. 泛变异eQTL分析
基于高质量单倍型组装,研究团队构建了1KCP泛变异基因型填充参考panel,涵盖2,630万个小变异、10万多个SV、148万个嵌套变异、约52万个RT变异(长度和基序)以及1,871个HLA等位基因(一到四字段),同步搭建了配套数据门户网站提供相关工具,实现数据开放共享。
留一法评估显示,该panel对各类变异的填充准确度均保持较高水平。与现有参考panel相比,1KCP panel在SV、RT和HLA等位基因填充方面提供更优或相当的准确性,并能填补以往无法获得的嵌套变异、RT基序组成以及高分辨率HLA等位基因。

图5.1KCP填充panel
综上所述,研究团队通过大规模二倍体组装和泛基因组构建,系统揭示了中国人群的基因组多样性图谱,补充大量东亚特有罕见变异与功能元件,打破单一参考基因组的局限。该研究成果也为群体遗传学和医学遗传学研究提供重要资源,推动了复杂疾病易感位点的精细定位和临床诊断中罕见致病变异的识别,同时为大规模人群泛基因组研究提供可复制的技术策略,对全球人类遗传资源具有重要补充价值。
参考文献:
https://www.nature.com/articles/s41586-026-10315-y
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言







#泛基因组#
36 举报