Nature:36个中国人口的泛基因组参考

2023-07-18 Jenny Ou MedSci原创 发表于上海

中国大基因组联盟的数据表明,当个人来自代表性不足的少数民族群体时,发现新颖和缺失序列的显著增加。

在过去的二十年里,参考人类基因组序列一直是遗传和生物医学研究和应用的基础;然而,人们普遍认为,没有一个单一的参考序列可以代表全球人口的基因组多样性。一方面,高质量的种群特异性和单倍型解决的基因组参考是遗传和医学分析所必需的。另一方面,显然需要从单一参考转向更好地代表人类群体内部和跨人类基因组多样性或等位基因变异的泛基因组形式。

随着长读测序技术和计算方法的进步,现在使泛基因组构建能够捕获大量不同基因组中遗漏的变异是可行的。人类泛基因组参考联盟(HPRC)最近根据全球人口的47个样本构建了一份人类泛基因组参考草案,但东亚人口样本代表性不足(= 4)。特别是,只有三个南汉(CHS)样本包含在HPRC参考文献中,无法代表中国等地区种族群体的基因组多样性。

之前的研究表明,亚洲的遗传多样性没有被1000基因组项目等大规模国际合作项目很好地覆盖。尽管在基因组研究中需要改善不同祖先背景的代表性是众所周知的,但与欧洲血统人群相比,在亚洲血统人群中进行的基因组研究要少得多。中国拥有巨大的遗传多样性,除了汉族多数外,还有55个官方承认的少数民族和相当数量的未被承认的民族。尽管测序技术的进步导致了端粒到端粒单倍体组装T2T-CHM13的实现,但只有数量有限的中国基因组使用长读DNA测序技术重新组装成高质量的单倍型序列。

目前唯一发表的关于中国泛基因组的两项研究仅限于汉族样本的短读测序数据。迫切需要建立一个高质量的泛基因组参考,以更好地代表中国人口的巨大基因组多样性。本文预计会做出这样的努力,以拓宽参考范围,以代表基因组多样性,解决等位基因和位点异质性,支持对种群内部和种群之间结构变异的无偏见和全面检测,并提高富含复杂序列变异的基因组区域(如人类白细胞抗原基因)的基因分型准确性,并最终促进进化和医学研究的基因组分析。

2023年6月14日发表在Nature上的文章,介绍了中国泛基因组联盟第一阶段的数据,包括基于代表36个中国少数民族的58个核心样本的116个高质量和单倍型相位de novo组件的集合。并重新测序至少500人,以便使用第三代测序技术更好地检测和编目中国人口的序列变体。在这里,我们根据中国第一次测序工作(第一阶段)提出了中国大基因组参考草案,报告了来自代表36个中国少数民族和6个汉族多数群体的58个核心样本的116个高质量de novo大会。

带有58个核心样品的二倍体组件的CPC面板

与HPRC组件相比,CPC泛基因组图和CPC特定变体

在这项研究中,研究人员使用PacBio HiFi长读测序对58个CPC核心样本进行了测序,平均深度为30.65×。116个高质量和单倍型相排式de novo组件的平均连续性N50>35.63 Mb,平均总尺寸为3.01 Gb,具有良好的Telomere-to-Telomere Consortium单倍体组件T2T-CHM13的覆盖范围。我们的分析表明,CPC组件在很大程度上匹配或超过了当前参考人类基因组序列(GRCh38)的连续性和碱基级准确性。

CPC核心组件平均具有30.65×高保真长读序列覆盖率,平均连续N50超过35.63兆碱基,平均总大小为3.01千兆碱基,为GRCh38增加了1.89亿个真色度多态性碱基对和1367个蛋白质编码基因复制。CPC核心组件还具有良好的GRCh38覆盖率,并在GRCh38中增加了1.89亿个碱基对的真色多态序列和1,367个蛋白质编码基因复制。因此,CPC第一阶段数据是中国种群的综合泛基因组参考,预计将更好地捕捉亚洲血统种群的基因组多样性。

研究人员确定了1590万个小变体和78,072个结构变体,其中590万个小变体和34,223个结构变体在最近发布的泛基因组中没有报告。中国大基因组联盟的数据表明,当个人来自代表性不足的少数民族群体时,发现新颖和缺失序列的显著增加。缺失的参考序列富含古老的遗传等位基因和基因,赋予与角化、紫外线辐射反应、DNA修复、免疫反应和寿命相关的基本功能,这意味着在复杂的疾病测绘中揭示人类进化和恢复缺失的遗传性的巨大潜力。

研究人员进一步分析证实了高质量特定人群组装用于遗传和医疗应用的必要性。事实上,目前的研究确定了不同种族群体之间表现出巨大差异的变化,这些差异可能来自不同的祖先背景。研究结果还表明,在序列对齐中使用特定于人群的参考资料提高了对齐质量。与HPRC图参考相比,使用CPC图参考提高了东亚样本中短读数的完美对齐率。

总而言之,CPC第一阶段数据已经证明了对人类进化的新启示和恢复复杂性状和疾病测绘中缺失的遗传性的巨大潜力。期望CPC作为人类基因组学全球力量的重要组成部分,为建立高质量的泛基因组参考资料并将其应用于各种基础和临床研究项目做出相当大的贡献。

 

原文出处

Gao, Y., Yang, X., Chen, H. et al. A pangenome reference of 36 Chinese populations.Nature 619, 112–121 (2023). https://doi.org/10.1038/s41586-023-06173-7.

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

早发、晚发型症肌无力患者治疗新靶向:基因、免疫通路大不相同

重症肌无力是一种自身免疫性疾病,临床表现为肌肉无力和疲劳。大约80%的全身性重症肌无力患者在突触后肌肉终板有抗乙酰胆碱受体(AChR)的自身抗体。有趣的是,这些带有AChR抗体的患者具有双峰发病模式,

J Cell Mol Med:全基因组关联研究发现7q11.22和7q36.3与中国人群中噪声诱发的听力损失有关

噪声引起的听力损失(NIHL)严重影响人类的生活质量,给社会造成巨大的经济损失。

A&R: 类风湿关节炎患者多基因风险评分与影像学进展的关联

来自全基因组关联研究(GWAS)数据的类风湿关节炎(RA)易感性多基因风险评分与RA患者影像学进展的严重程度相关。

stroke:全基因组测序分析支持维生素D代谢在缺血性中风中的作用

现有的观察证据表明维生素D水平与脑血管疾病之间存在关联

研究存疑点,你来我往,造就3篇《Science》

人类性行为复杂多变,尽管其在生物学和社会学上具有重要意义,但其潜在的发展途径和性行为中个体差异的来源并不十分清楚。

ARD:类风湿性关节炎中对血清阳性亚群风险有大影响的序列变异多组学分析

指向JAK/STAT通路中因果基因的序列变异对血清阳性RA的影响最大,而与血清阴性RA的关联仍然很少。