重复是了解人类基因组的关键

导读这就像一张纽约地图错过了整个曼哈顿。人类参考基因组的所有空白点终于都被填满了,第一次看到我们错过的一切既是重复的,也是启发性的。我

这就像一张纽约地图错过了整个曼哈顿。人类参考基因组的所有空白点终于都被填满了,第一次看到我们错过的一切既是重复的,也是启发性的。

“我们意识到人类存在很多变异,”康涅狄格大学系统基因组学研究所所长、遗传学家雷切尔奥尼尔说。而在一个与直觉相反的命运转折中,变化在很大程度上来自重复。

大量的人类遗传物质被证明是反复出现的长而重复的部分。尽管每个人都有一些重复,但并不是每个人都有相同数量的重复。重复次数的差异是发现大多数人类遗传变异的地方。

这一发现——重复很重要——是 Telomere-2-Telomere (T2T) 项目的许多重要发现之一,该项目是一个全球性的机构合作,填补了原始人类基因组组装的缺失部分。O'Neill 是该项目的首席研究员,也是3 月 31 日发表在《科学》杂志上的六篇 T2T 论文中四篇的作者。

“DNA 测序和计算分析的新方法的发明,以及卓越的科学家团队的奉献,完成了对 8% 的人类基因组的读取,这些基因组的结构过于复杂和重复,无法解析 20几年前。值得等待 - 揭示了丰富的令人惊讶的建筑特征,对理解人类进化、变异和生物功能产生了重大影响,”白宫科学顾问、美国国立卫生研究院前主任弗朗西斯柯林斯说健康。

与当时一样惊人的是,最初的人类基因组计划留下了大约 8% 的基因组空白。

“这相当于人类 DNA 中的整个染色体,”奥尼尔说。最后 8% 包括许多基因和重复区域。大多数新添加的 DNA 序列位于重复端粒(每条染色体的长尾端)和着丝粒(每条染色体的密集中间部分)附近。

空白是人类基因组计划使用的“短读”技术的结果。它是 20 年前唯一可用的基因组图谱技术,一次只能读取相当于几个字的遗传密码。例如,假设基因组的一部分由连续重复九次的句子“All work and no play makes Jack a dull boy”组成。短读技术只会显示其中的一部分,例如“All work”、“Jack a”、“makes Jack”等。研究人员将这些简短的部分拼凑在一起,组成了“All work and no play makes Jack a dull boy”这句话,但他们无法知道它被重复了九次。

然而,T2T 项目有更好的工具。新的长读 DNA 技术可以一次阅读整个句子,甚至是段落。因此,研究人员能够看到大块,甚至整个部分的重复。

“生成真正无间隙的人类基因组序列是一个重要的里程碑。我们很想在 20 年前做到这一点,但技术必须进步。这个新的参考是一个真正坚实的基础,没有裂缝,可以理解人类生物学。没有遗漏的部分!” 华盛顿大学的生物学家 Bob Waterston 说,他参与了最初的人类基因组计划。

许多早期的研究人员和学员在 T2T 项目中发挥了关键作用。在康涅狄格大学,Rachel O'Neill 实验室的 Savannah Hoyt、Gabrielle Hartley 和 Patrick Grady 以及 Leighton Core 实验室的 Luke Wojenski 都深入参与了这项工作。他们的主要贡献之一是开发了基因组中重复序列的纲要。他们发现重复部分包含移动元素,这些部分能够从基因组的一个部分跳转到另一部分(典型的例子是导致玉米粒颜色变化的基因跳跃,例如从红色变为白色);病毒;以及以前没有人发现的新重复,包括一些携带基因的重复。一些具有 10、20 或 30 个拷贝的巨型重复序列背靠背重复,并包含可能解释人类多样性的基因。在前面的例句中,想象“Jack”是一个基因。一个人可能有 5 个副本。另一个可能有 25 个。

T2T 团队首次看到了每个人类染色体中心部分的完整序列。称为着丝粒,它们将每个 X 形染色体的不同臂连接在一起。奥尼尔的团队发现着丝粒包含已知的移动元素以及新的重复序列。着丝粒中的大部分 DNA 似乎对于维持细胞的遗传信息代代相传很重要。众所周知,着丝粒在细胞繁殖时在 DNA 复制中发挥作用,如果它们显着改变它们在染色体中的位置,它们可以产生全新的物种。由 T2T 项目构建的完整、无间隙的着丝粒序列将使人们能够更细致地了解人类着丝粒及其作用。组装作为确定我们 DNA 中有趣区域的起点。

“下一阶段的研究将对许多不同人的基因组进行测序,以充分掌握人类的多样性、疾病以及我们与近亲、其他灵长类动物的关系,”奥尼尔说。

免责声明:本文由用户上传,如有侵权请联系删除!