摘要:Y染色体的基因组区域终于被完全测序。
几十年来,由于结构上的复杂性,Y染色体一直是基因组学界面临的众所周知的挑战。现在,这个棘手的基因组区域终于被完全测序。
这一突破性成果最终带来了端到端的人类染色体序列,并为人类参考基因组增添了3000万个新碱基,其中大部分来自难以测序的卫星DNA。这些碱基揭示了41个额外的蛋白质编码基因,并为研究与生殖、进化和种群变化有关的问题提供了重要的见解。
端粒到端粒(T2T)联盟的研究人员于本周在《Nature》杂志上发表了这项成果。这个联盟由加州大学圣克鲁斯分校生物分子工程学助理教授Karen Miga共同领导。目前,带有注释的完整Y染色体参考序列已发布在USUC Genome Browser上,也可通过Github访问。
共同第一作者、加州大学圣克鲁兹分校的博士后研究员Monika Cechova表示:“就在几年前,几乎一半的人类Y染色体序列在文献中还是缺失的。当时我们甚至不知道是否能够对它进行测序,这太令人困惑了。如今确实发生了巨大的转变。”
图1 Y染色体的基因组区域终于被完全测序
完成Y染色体的测序
Y染色体的结构一直具有挑战性,因为一些DNA是以回文形式排列的(即正向和反向序列相同),跨度长达100多万个碱基对。此外,Y染色体中有很大一部分是卫星DNA,这也是之前版本的Y染色体参考序列所缺少的。在Y染色体上,两段卫星DNA相互连接,进一步加大了测序的难度。
研究人员能够实现Y染色体的无间隙读取,主要得益于长读长测序技术的进步以及创新的计算组装方法,这些方法能够处理重复序列,并将测序的原始数据转化为可用的资源。这些新方法让研究团队能够解决Y染色体组装上的一些重大难题,比如精确地界定回文序列中反转发生的位置。
美国国家人类基因组研究所的科学家Arang Rhie谈到:“在之前的参考基因组中,Y染色体缺少的序列最多。每当我们试图开展任何分析时,总会发现我们遗漏了一半的Y染色体,这真是令人恼火。我很高兴我们能够整理出第一个完整的Y,看看我们究竟遗漏了什么,以及我们现在可以做什么。”他也是这篇论文的共同第一作者。
2018年,Miga及其同事发布了首个人类Y染色体着丝粒的完整图谱。2022年,T2T联盟又发布了首个完整测序的人类基因组(包括所有常染色体和X染色体)。如今,在此基础上,他们又增加了3000万个碱基对。
图2 HG002的X和Y染色体的组装
推动新的科学研究
Y染色体通常出现在男性个体中,但也可能存在于其他人群中,比如双性人。虽然Y染色体上的基因相对较少,但却是复杂和动态的,它们编码了重要的功能,比如精子发生。完整的Y染色体参考序列将帮助科学家更好地研究人类基因组中这一部分的多个特征。
Y染色体结构复杂,其基因家族迅速进化。事实上,Y染色体是变化最快的人类染色体,这意味着两个健康人的Y染色体可能看起来完全不同——例如,一个人可能有40个基因拷贝,而另一个人只有19个拷贝。有了新的参考序列和成熟的Y染色体测序方法,人们如今能够更好地研究这种进化。这也许是未来体外受精或其他不孕不育症研究的重点。
对研究人类种群进化和漂移的人来说,端到端的Y染色体序列也是一个很重要的资源。这是因为Y染色体是一组遗传物质代代相传,很少与外界发生重组,而人类常染色体和X染色体上的基因则不同,它们经常重组并彼此共享遗传物质。对Y染色体有了更清晰的了解,就可以更容易地追踪跨代遗传的基因,并了解基因的位置和内容如何随着时间而变化。
如今,在Y染色体参考序列中新增了3000万个碱基后,人们有望研究独特的Y染色体序列模式,比如两个卫星DNA的结构以及基因的位置和拷贝数。即使在Y染色体内,基因也被分成几个区域,这些区域在内容、结构和进化历史上都大不相同。了解Y染色体的变化速率以及如何解释这种变化,也是相当有趣的。
图3 T2T-Y的验证和修饰
有研究表明,携带Y染色体的人随着年龄增长可能会失去部分或全部遗传物质,但科学家们还没有完全弄清这种情况发生的原因及其可能产生的影响。完整的Y染色体参考序列可能有助于解开这个谜团。研究与Y染色体有关的疾病也将变得更加容易,比如精子产生不足。
细菌基因组的污染
这篇论文的一个意外发现是,在过去的研究中,由于细菌DNA中的人类污染未完全去除,Y染色体DNA曾多次被误认为是细菌DNA。这一发现有望改善对细菌基因组的研究。
人类DNA有可能成为细菌样本中的污染物,因为细菌DNA通常是从人类皮肤上提取的。科学家们使用现有的人类基因组参考序列来确定哪些序列来自人类污染,并去除这些序列,只留下细菌DNA用于他们的研究。然而,由于过去的人类参考序列中缺失了Y染色体中的大部分序列,科学家们无法将其识别为人类,因此误认为是他们正在研究的细菌物种中的一部分。
这篇论文发现的证据表明,在一个公共数据库中,大约5000个细菌基因组可能含有与人类Y染色体序列相匹配的污染。研究这些细菌物种的团队可以使用更新的Y参考序列,将所有人类污染从他们的参考基因组中去除,并更清晰地了解细菌基因组。
“这是一件令人惊讶的事情,” Rhie谈道。“人们一直在猜测,但直到现在才能证明这种情况真的在发生。”
Y染色体的泛基因组研究
虽然完整的人类Y染色体将为许多新发现打开大门,但研究人员计划将Y染色体纳入未来版本的人类泛基因组,以便进一步改进对该区域的研究。泛基因组是基因组学的一个新参考,它结合了不同祖先背景的多个人的基因组信息,最终有望实现更公平的研究和临床探索,如诊断疾病、预测医疗结果和指导治疗。
研究人员计划与人类泛基因组参考联盟合作,将完整的Y染色体序列整合到个体基因组中。这将有助于科学家了解不同祖先背景的人群的Y染色体是如何变化的,并为了解Y染色体在人类多样性中的作用提供一个更好的参考点。
他们还希望与世界各地的科学家合作,让其他人也能完成Y染色体测序。
[1] Rhie, A., Nurk, S., Cechova, M. et al. The complete sequence of a human Y chromosome. Nature (2023). https://doi.org/10.1038/s41586-023-06457-y
摘要:Y染色体的基因组区域终于被完全测序。
几十年来,由于结构上的复杂性,Y染色体一直是基因组学界面临的众所周知的挑战。现在,这个棘手的基因组区域终于被完全测序。
这一突破性成果最终带来了端到端的人类染色体序列,并为人类参考基因组增添了3000万个新碱基,其中大部分来自难以测序的卫星DNA。这些碱基揭示了41个额外的蛋白质编码基因,并为研究与生殖、进化和种群变化有关的问题提供了重要的见解。
端粒到端粒(T2T)联盟的研究人员于本周在《Nature》杂志上发表了这项成果。这个联盟由加州大学圣克鲁斯分校生物分子工程学助理教授Karen Miga共同领导。目前,带有注释的完整Y染色体参考序列已发布在USUC Genome Browser上,也可通过Github访问。
共同第一作者、加州大学圣克鲁兹分校的博士后研究员Monika Cechova表示:“就在几年前,几乎一半的人类Y染色体序列在文献中还是缺失的。当时我们甚至不知道是否能够对它进行测序,这太令人困惑了。如今确实发生了巨大的转变。”
图1 Y染色体的基因组区域终于被完全测序
完成Y染色体的测序
Y染色体的结构一直具有挑战性,因为一些DNA是以回文形式排列的(即正向和反向序列相同),跨度长达100多万个碱基对。此外,Y染色体中有很大一部分是卫星DNA,这也是之前版本的Y染色体参考序列所缺少的。在Y染色体上,两段卫星DNA相互连接,进一步加大了测序的难度。
研究人员能够实现Y染色体的无间隙读取,主要得益于长读长测序技术的进步以及创新的计算组装方法,这些方法能够处理重复序列,并将测序的原始数据转化为可用的资源。这些新方法让研究团队能够解决Y染色体组装上的一些重大难题,比如精确地界定回文序列中反转发生的位置。
美国国家人类基因组研究所的科学家Arang Rhie谈到:“在之前的参考基因组中,Y染色体缺少的序列最多。每当我们试图开展任何分析时,总会发现我们遗漏了一半的Y染色体,这真是令人恼火。我很高兴我们能够整理出第一个完整的Y,看看我们究竟遗漏了什么,以及我们现在可以做什么。”他也是这篇论文的共同第一作者。
2018年,Miga及其同事发布了首个人类Y染色体着丝粒的完整图谱。2022年,T2T联盟又发布了首个完整测序的人类基因组(包括所有常染色体和X染色体)。如今,在此基础上,他们又增加了3000万个碱基对。
图2 HG002的X和Y染色体的组装
推动新的科学研究
Y染色体通常出现在男性个体中,但也可能存在于其他人群中,比如双性人。虽然Y染色体上的基因相对较少,但却是复杂和动态的,它们编码了重要的功能,比如精子发生。完整的Y染色体参考序列将帮助科学家更好地研究人类基因组中这一部分的多个特征。
Y染色体结构复杂,其基因家族迅速进化。事实上,Y染色体是变化最快的人类染色体,这意味着两个健康人的Y染色体可能看起来完全不同——例如,一个人可能有40个基因拷贝,而另一个人只有19个拷贝。有了新的参考序列和成熟的Y染色体测序方法,人们如今能够更好地研究这种进化。这也许是未来体外受精或其他不孕不育症研究的重点。
对研究人类种群进化和漂移的人来说,端到端的Y染色体序列也是一个很重要的资源。这是因为Y染色体是一组遗传物质代代相传,很少与外界发生重组,而人类常染色体和X染色体上的基因则不同,它们经常重组并彼此共享遗传物质。对Y染色体有了更清晰的了解,就可以更容易地追踪跨代遗传的基因,并了解基因的位置和内容如何随着时间而变化。
如今,在Y染色体参考序列中新增了3000万个碱基后,人们有望研究独特的Y染色体序列模式,比如两个卫星DNA的结构以及基因的位置和拷贝数。即使在Y染色体内,基因也被分成几个区域,这些区域在内容、结构和进化历史上都大不相同。了解Y染色体的变化速率以及如何解释这种变化,也是相当有趣的。
图3 T2T-Y的验证和修饰
有研究表明,携带Y染色体的人随着年龄增长可能会失去部分或全部遗传物质,但科学家们还没有完全弄清这种情况发生的原因及其可能产生的影响。完整的Y染色体参考序列可能有助于解开这个谜团。研究与Y染色体有关的疾病也将变得更加容易,比如精子产生不足。
细菌基因组的污染
这篇论文的一个意外发现是,在过去的研究中,由于细菌DNA中的人类污染未完全去除,Y染色体DNA曾多次被误认为是细菌DNA。这一发现有望改善对细菌基因组的研究。
人类DNA有可能成为细菌样本中的污染物,因为细菌DNA通常是从人类皮肤上提取的。科学家们使用现有的人类基因组参考序列来确定哪些序列来自人类污染,并去除这些序列,只留下细菌DNA用于他们的研究。然而,由于过去的人类参考序列中缺失了Y染色体中的大部分序列,科学家们无法将其识别为人类,因此误认为是他们正在研究的细菌物种中的一部分。
这篇论文发现的证据表明,在一个公共数据库中,大约5000个细菌基因组可能含有与人类Y染色体序列相匹配的污染。研究这些细菌物种的团队可以使用更新的Y参考序列,将所有人类污染从他们的参考基因组中去除,并更清晰地了解细菌基因组。
“这是一件令人惊讶的事情,” Rhie谈道。“人们一直在猜测,但直到现在才能证明这种情况真的在发生。”
Y染色体的泛基因组研究
虽然完整的人类Y染色体将为许多新发现打开大门,但研究人员计划将Y染色体纳入未来版本的人类泛基因组,以便进一步改进对该区域的研究。泛基因组是基因组学的一个新参考,它结合了不同祖先背景的多个人的基因组信息,最终有望实现更公平的研究和临床探索,如诊断疾病、预测医疗结果和指导治疗。
研究人员计划与人类泛基因组参考联盟合作,将完整的Y染色体序列整合到个体基因组中。这将有助于科学家了解不同祖先背景的人群的Y染色体是如何变化的,并为了解Y染色体在人类多样性中的作用提供一个更好的参考点。
他们还希望与世界各地的科学家合作,让其他人也能完成Y染色体测序。
[1] Rhie, A., Nurk, S., Cechova, M. et al. The complete sequence of a human Y chromosome. Nature (2023). https://doi.org/10.1038/s41586-023-06457-y