Nature背靠背:首个Y染色体完整测序结果问世!填补人类基因组最后的空白

2023-08-24 iNature iNature 发表于上海

该研究揭示了跨越182900年人类进化的43条Y染色体的从头组装,并报告了大小和结构的相当大的多样性。

人类Y染色体中高度重复序列的普遍存在阻碍了它的完整组装,并导致它在基因组分析中被系统性地遗漏。

2023年8月23日,美国杰克逊基因组医学实验室Charles Lee团队在Nature 在线发表题为“Assembly of 43 human Y chromosomes reveals extensive complexity and variation”的研究论文,该研究揭示了跨越182900年人类进化的43条Y染色体的从头组装,并报告了大小和结构的相当大的多样性。

男性特异性常染区有一半发生大反转,其复发率比其他染色体高出两倍以上。与这些反转相关的扩增序列显示出不同的突变率,这些突变率与序列上下文相关,并且一些扩增基因显示出与谱系特异性假基因的获取和清除协同进化的证据。人类基因组中最大的异染色质区域Yq12由交替重复序列组成,在数量、大小和分布上表现出广泛的变化,但保持1:1的拷贝数比。最后,数据表明,重组假常染色体区域1与X和Y染色体的非重组部分之间的边界距离目前建立的边界500 kb。来自多个个体的完全序列解析的Y染色体的可用性为识别与特定Y染色体变异的新特征关联以及深入了解人类基因组复杂区域的进化和功能提供了独特的机会。

图片

研究人员结合PacBio HiFi和ONT长读测序数据,组装了43个男性个体的Y染色体,代表了来自1000基因组计划的5个大陆群体。虽然GRCh38(主要是R1b-L20单倍群)和T2T Y组合代表欧洲Y谱系,但一半的Y染色体构成非洲谱系,并包括大多数根深蒂固的人类Y谱系。因此,这个新组装的43个Y染色体数据集提供了一个更全面的遗传变异视图,在核苷酸水平上,跨越18万年的人类Y染色体进化。

图片

Y染色体的大小和结构变异(图源自Nature 

无独有偶,在同一时间(2023年8月23日),美国国立卫生研究院Adam M. Phillippy团队在Nature 在线发表题为“The complete sequence of a human Y  chromosome”的研究论文,该研究揭示了来自HG002基因组的人类Y染色体的62,460,029个碱基对的完整序列(T2T-Y)。该序列纠正了GRCh38-Y中的多个错误,并在参考序列中增加了超过3000万个碱基对的序列,显示了基因家族TSPYDAZRBMY的完整扩增结构;另外41个蛋白质编码基因,主要来自TSPY家族;以及在异色Yq12区域中人类卫星1和3块的交替图案。研究人员将T2T-Y与先前的CHM13基因组组合结合起来,绘制了可用的群体变异、临床变异和功能基因组学数据,为24条人类染色体提供了完整而全面的参考序列。

图片

该文分析了一条完整Y染色体新组装的假常染色体区域(PARs)、扩增序列和回文序列、着丝粒卫星和q臂异染色质的组成。作者对T2T-Y进行了注释,并将其与之前的T2T-CHM13组合在一起,形成了一个新的、完整的人类所有染色体参考序列,T2T-CHM13+Y。为了使用这个新的参考序列,研究人员从ClinVar、GWAS、dbSNP和gnomAD中提取了可用的变异数据集。此外,还召回了1000基因组计划(1KGP)27和西蒙斯基因组多样性小组(SGDP)28数据中的变异,以及ENCODE数据中的表观遗传谱。这些实验表明,当使用T2T-Y作为参考时,XY个体的可映射性和变体调用得到了改善。

图片

完整Y染色体的结构(图源自Nature 

综上,两篇文章共同揭示了Y染色体的组装和整体结构。这些不同的、完整的人类基因组的组装,以及类似质量的非人类灵长类动物的组装,将为人类变异和进化提供一个无与伦比的视角。这有助于人们全面了解人类遗传变异,也为将Y染色体序列与特定的人类特征联系起来以及更彻底地研究人类进化提供了起点。

原文链接:

https://www.nature.com/articles/s41586-023-06425-6

https://www.nature.com/articles/s41586-023-06457-y

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

Cancer Res:基于长读长测序准确全面检测癌症基因融合事件的新方法:FusionSeeker

基于模拟和三个癌细胞系的数据,该研究证明了FusionSeeker在检测基因融合事件方面优于现有方法。

承启生物基于FANSe算法的基因测序分析云平台在AWS上运行成功

近日,承启生物携手亚马逊云服务(AWS),在AWS上成功部署了基于FANSe算法的全自主基因测序分析云平台,并免费向全世界开放使用。

HLA:通过下一代测序识别和表征新型HLA-B*39:189等位基因

使用下一代测序技术对新型HLA-B*39:189等位基因进行了表征,该序列于2022年1月被世界卫生组织(WHO)命名委员会HLA系统因素正式指定为HLA-B*39:189。

当基因测序可以拯救生命时,速度慢了怎么行?

人类基因组计划的成功仅仅是一个开始。我们从人类基因组图谱中只发现了20000多个编码蛋白质的基因,这些基因只占据人类基因组的不到3%,其余的绝大多数是不编码蛋白质的非编码序列。

我们人类从哪里来?为何独一无二?系统解读新科诺奖得主斯万特·帕博的研究成果

斯万特·帕博(Svante Pääbo)通过他的开创性研究,完成了一件看似不可能的事——对已灭绝数万年的人类近亲尼安德特人进行基因测序。他还发现了一种以前不为人知的古人类物种——丹尼索瓦人。

Nature子刊:多用途深度学习方法sciPENN,可预测、插补scRNA-seq、CITE-seq蛋白质表达

研究团队开发了sciPENN深度学习模型,可以预测和估算蛋白质表达,集成多个CITE-seq数据集,量化预测和估算不确定性。