Nature | 杨剑/沈贤团队构建迄今最大规模人类泛基因组参考图谱,全面解析中国人群遗传多样性

2026-04-10 测序中国 测序中国 发表于上海

研究团队通过大规模二倍体组装和泛基因组构建,系统揭示了中国人群的基因组多样性图谱,补充大量东亚特有罕见变异与功能元件,打破单一参考基因组的局限。

深度解析医学证据,DeepEvidence为你支撑决策

自首个人类参考基因组发布以来,解析人类基因组多样性已成为生物医学研究的基础任务。短读长测序成本降低使大规模测序成为可能,但其难以识别结构变异SV和串联重复RT等复杂变异长读长测序与组装算法的进步实现了高质量二倍体基因组组装,为全面解析复杂变异提供了条件成本高昂。为整合群体中全谱系遗传变异,科研人员提出了泛基因组概念,即由多个个体二倍体组装构成的群体基因组序列集合。

近年来,人类泛基因组参考联盟HPRC和中国人群泛基因组联盟CPC的工作展示了泛基因组在解析结构差异区域方面的潜力现有泛基因组研究受限于样本规模仅限几十个体),难以捕获稀有变异、准确估算等位基因频率解析高重复区域序列多样性限制了在关联分析、临床诊断等领域的广泛应用。

为解决上述问题,西湖大学杨剑团队与温州医科大学沈贤团队合作,在Nature上发表了一项题为“The 1000 Chinese Pangenome empowers medical and population genetics”文章作为中国千人泛基因组(1KCP)项目的一部分,研究团队开发了一种基于泛基因组的基因组组装(PIGA)新方法,完成1,116例中国个体二倍体基因组组装,构建包含4.053亿bp非参考序列的中国人群泛基因组,鉴定3,540万个小变异、11.05万个SV48.56万个RT多态位点及86万个嵌套变异,其中大量为中国人群特有罕见变异。研究系统解析了多种与医学相关的基因变异,结合表达数据开展表达数量性状位点eQTL分析,揭示了复杂变异的调控作用,并构建1KCP泛变异填充参考panel为未来大规模关联研究提供了多类型遗传标记总之,该研究极大拓展了对人类基因组复杂变异及其功能影响的认识,为精准医学和群体遗传学研究提供了重要基础。

图片

研究纳入1,379名参与者,对1,144个样本同时开展短读长混合全基因组测序WGS)。采用差异化测序方案,对55个样本实施高深度Illumina短读长、PacBio HiFi长读长及Hi-C测序保证高质量从头组装1,099例样本采用中深度混合测序策略有效控制大规模队列研究成本此外研究团队还开发了泛基因组引导组装流程PIGA,整合群体水平序列信息进行联合组装

经质控后最终获得1,116个高质量二倍体基因组组装55hifiasm组装1,061PIGA组装),包含2,232个单倍体基因组,平均大小2.98 Gb组装平均质量值QV46大多数组装的NG50超过40 Mb结构准确性评估显示每个PIGA组装平均有616个结构错误主要集中在卫星DNA和节段性重复等不可靠区域研究据此定义了GRCh38参考基因组中53.7 Mb的常见不可靠区域以优化后续分析质量

功能注释显示,每个组装中重复序列平均53.05%,蛋白编码和非编码基因的注释率分别98.7%和98.2%每个组装平均发现了77.9个参考基因组缺失的蛋白编码基因和1,593个非编码基因同时利用深度学习模型完成表观基因组注释,预测出启动子、增强子等各类表观调控元件,平均占比59.54%。

图片

1. 1116个二倍体基因组组装的评估与注释

基于上述高质量组装,研究团队整合1KCP、HPRC和CPC数据集以及GRCh38CHM13参考基因组,构建非冗余、覆盖均匀的1KCP泛基因组总大小3.74 Gb。进一步,基于该泛基因组成功鉴定出405.3 Mb非参考序列(GRCh38和CHM13中缺失),其中277.5 Mb1KCP独有这些序列可按频率分为常见、低频、罕见和单倍型特有四类。通过创新的路径引导注释方法,研究团队将146.6 Mb非参考序列注释为基因组元件,并发现26.2Mb非参考序列包含功能基因及调控元件提示其可能参与重要生物学过程。

GRCh38为参考,研究团队对1KCP泛基因组进行全维度遗传变异检测构建了全面的变异目录。共检测到3,540万个小变异11.053SV位点,以及86万个嵌套变异位点,其主要隐藏在非参考序列与SV位点SV位点中多等位基因占比较高,研究团队通过等位基因合并优化获得了高质量SV调用,其中33.3%为新发现SV,且绝大多数为罕见变异此外,研究团队还鉴定出48.6万个多态性RT位点,其中基序变异是长度变异4.4倍。

综合统计显示,一个典型的中国二倍体基因组平均包含509万个小变异、23,617个SV、35万个嵌套变异、17.4TR长度变异和49.66TR基序变异。

图片

2. 1KCP全基因组及变异目录

基于1KCP数据集研究团队分析了队列中基因结构与单倍型多样性,重点研究了医学相关基因MRG)3,326个蛋白编码基因外显子区域发现5,239个能够改变基因转录本结构SV呈现明显纯化选择特征平均每个个体携带450个,其中9个为罕见变异。值得注意的是,在OMIM和COSMIC数据库收录的623个MRG外显子中识别1,013个SV,罕见SV比例高达74.6%研究团队还鉴定出2,427个RT扩增事件,其中124个位于外显子区域,并发现C11orf80中TR扩增与罕见脆性位点FRA11A相关,GIPC1 5'UTR的CGG扩增表现出等位基因特异性高甲基化。

在基因簇层面,研究团队识别了735个存在基因变异的基因簇,涵盖2,038个基因,显著富集血液与免疫相关功能。进一步解析HP基因簇的4种结构单倍型,其中1.7 kb缺失区分了HP1-HPR单倍型,与低密度脂蛋白和总胆固醇水平相关,该缺失与47个表型相关的3个SNV存在强连锁不平衡(LD)。对于HLA基因,实现四字段分辨率高精度分型,共鉴定1,348个四字段等位基因,并基于基因间LD识别出基因5个不同LD区块

图片

3. 多尺度基因变异图谱

为全面揭示不同类型变异对基因表达的调控效应,研究团队利用1KCP队列中1,101例个体RNA-seq数据,开展全变异eQTL分析。结果显示,对于顺式遗传力>0.05的基因,复杂变异平均解释了12.6%的顺式遗传力共鉴定15,722个显著关联eGene,并筛选出3,256个由复杂变异(SVRT、嵌套变异)主导的eQTL信号其中SV位点内含有大量嵌套变异,主要富集于基因区域和调控元件TR基序变异捕获了长度变异无法检测的独特遗传信号,同一TR位点可通过不同机制调控基因表达(如MAD1L1),

通过eQTL与GWAS共定位分析,研究团队识别出1,563个共定位信号,其中119个由复杂变异驱动,如GSTM1基因上18kb缺失变异,可能通过下调基因表达影响血小板计数

图片

4. 泛变异eQTL分析

基于高质量单倍型组装,研究团队构建1KCP泛变异基因型填充参考panel涵盖2,630万个小变异、10万多个SV148万个嵌套变异、约52万个RT变异(长度和基序)以及1,871个HLA等位基因(一四字段)同步搭建了配套数据门户网站提供相关工具实现数据开放共享

留一法评估显示,该panel对各类变异的填充准确度均保持较高水平。与现有参考panel相比1KCP panelSVRTHLA等位基因填充方面提供更优或相当的准确性,并能填补以往无法获得的嵌套变异、RT基序组成以及高分辨率HLA等位基因。

图片

5.1KCP填充panel

综上所述,研究团队通过大规模二倍体组装和泛基因组构建,系统揭示了中国人群的基因组多样性图谱,补充大量东亚特有罕见变异与功能元件,打破单一参考基因组的局限。研究成果也为群体遗传学和医学遗传学研究提供重要资源,推动复杂疾病易感位点的精细定位和临床诊断中罕见致病变异的识别,同时为大规模人群泛基因组研究提供可复制的技术策略,对全球人类遗传资源具有重要补充价值。

参考文献:

https://www.nature.com/articles/s41586-026-10315-y

评论区 (1)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=2306888, encodeId=7fbb2306888ab, content=<a href='/topic/show?id=18b564891ca' target=_blank style='color:#2F92EE;'>#泛基因组#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=36, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=64891, encryptionId=18b564891ca, topicName=泛基因组)], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=cade5395722, createdName=梅斯管理员, createdTime=Thu Apr 09 16:38:09 CST 2026, time=2026-04-09, status=1, ipAttribution=上海)]
    2026-04-09 梅斯管理员 来自上海

相关资讯

Nature:首个人类泛基因组草图公布,更完整的描绘了遗传多样性

这一次泛基因组参考序列包含了来自47个人的数据,其中也有来自中国人的代表。未来更是计划在2024年扩展到350个人。

Nature:中国学者领衔,人类“泛基因组”成果登上封面!

由国际人类泛基因组参考联盟牵头,由美国国立卫生研究院国家人类基因组研究所 (NHGRI) 资助的研究人员发布了一份人类“泛基因组”草稿——这是一个新的、可用的基因组学参考,它结合了来自不同祖先背景的

Nature:告别“标准版”人类:泛基因组时代开启,精准医疗迎来新基石

《Nature》研究构建含全球 28 个人群 130 个高质量单倍型的泛基因组图集,填补大量基因组空白,揭示海量结构变异,为精准医疗和人类演化研究提供新工具。

Nat Methods:新泛基因组研究工具包PGR-TK,可在多种尺度上分析重复/临床相关复杂基因变异

。通过将PGR-TK中的图分解方法应用于二型主要组织相容性复合体(MHC-II)中,证明了人类泛基因组对分析复杂基因区域的重要性。

复旦大学领衔Nature:首篇!36个中国民族种群116个个体的泛基因组,发现隐藏的特殊基因序列

通过联合努力,研究团队成功测序了36个中国少数民族和汉族样本,并构建了116个高质量的基因组组装。