牛津大学大数据研究所的研究人员在绘制人类之间的全部遗传关系图方面迈出了重要一步:一个可以追溯我们所有人祖先的单一家谱。该研究已于今天发表在《科学》杂志上。
在过去的二十年中,人类基因研究取得了非凡的进步,为数十万人(包括数千名史前人)生成了基因组数据。这提出了令人兴奋的可能性,即追踪人类遗传多样性的起源,以生成世界各地个体如何相互关联的完整地图。
到目前为止,这一愿景的主要挑战是找到一种方法来组合来自许多不同数据库的基因组序列,并开发算法来处理这种规模的数据。然而,牛津大学大数据研究所的研究人员今天发布的一种新方法可以轻松地组合来自多个来源的数据并进行扩展,以适应数百万个基因组序列。
大数据研究所的进化遗传学家、主要作者之一黄彦博士解释说:“我们基本上已经建立了一个巨大的家谱,这是一个全人类的家谱,它尽可能准确地模拟了产生的历史。“我们今天在人类身上发现的所有遗传变异。这个家谱让我们能够看到每个人的基因序列是如何相互关联的,沿着基因组的所有点。”
由于单个基因组区域仅从父母一方遗传,无论是母亲还是父亲,基因组上每个点的祖先都可以被认为是一棵树。这组树被称为“树序列”或“祖先重组图”,通过时间将遗传区域与首次出现遗传变异的祖先联系起来。
主要作者AnthonyWilderWohns博士在其博士学位期间进行了这项研究。在大数据研究所工作,现在是麻省理工学院和哈佛大学博德研究所的博士后研究员,他说:“本质上,我们正在重建我们祖先的基因组,并利用它们形成一个庞大的关系网络。然后我们可以估计何时和“这些祖先居住的地方。我们方法的强大之处在于它对基础数据做出的假设很少,并且还可以包括现代和古代DNA样本。”
该研究整合了来自8个不同数据库的现代和古代人类基因组数据,包括来自215个人群的总共3,609个个体基因组序列。古代基因组包括在世界各地发现的年龄从1,000到100,000岁不等的样本。算法预测了进化树中必须存在共同祖先的位置,以解释遗传变异的模式。由此产生的网络包含近2700万个祖先。
在这些样本基因组上添加位置数据后,作者使用该网络来估计预测的共同祖先居住的地方。结果成功地重现了人类进化史上的关键事件,包括迁出非洲。
尽管家谱图已经是极其丰富的资源,但研究小组计划通过继续整合可用的遗传数据,使其更加全面。由于树序列以高效的方式存储数据,数据集可以轻松容纳数百万个额外的基因组。
黄博士说:“这项研究为下一代DNA测序奠定了基础。随着现代和古代DNA样本基因组序列质量的提高,树木将变得更加准确,我们最终将能够生成一张统一的地图,解释了我们今天看到的所有人类遗传变异的起源。”
Wohns博士补充说:“虽然人类是这项研究的重点,但该方法适用于大多数生物;从猩猩到细菌。它可能对医学遗传学特别有益,可以将遗传区域和疾病之间的真实关联与虚假疾病区分开来我们共同的祖先历史产生的联系。”