压缩基因库以扩大可访问性和研究机会

导读 在图像压缩中,可能难以存储或共享的大文件会丢失少量视觉信息。生物医学工程助理教授贾斯汀·普里查德(Justin Pritchard)表示,这种损失

在图像压缩中,可能难以存储或共享的大文件会丢失少量视觉信息。生物医学工程助理教授贾斯汀·普里查德(Justin Pritchard)表示,这种“损失”在很大程度上保留了图像,同时大大减小了文件大小,并为基因组学的新研究方向提供了灵感。

Pritchard 和宾夕法尼亚州立大学领导的跨学科研究团队开发了一种方法,用于将广泛的遗传数据库“压缩”到更易于管理的大小。他们于 2 月 2 日在Nature Communications上发表了他们的发现。

“这种压缩的想法大大减少了实验的规模,为新的实验开辟了可能性,”同时拥有 Dorothy Foehr Huck 和 J. Lloyd Huck 早期职业创业教授职位的 Pritchard 说。“这可以解开生物学之谜,例如为什么不同的基因和药物协同作用不同,它使我们能够使用更简单的实验来解开非常复杂的生物学。”

研究人员提到了基因组规模的 CRISPR 实验,其中包含在不同人类细胞类型中测试的数千种基因效应的数据。基因关闭时的影响可能因细胞类型而异,因此通常需要大量细胞来了解基因和表型之间的相互作用。

为了从较小的“压缩”CRISPR库中预测更大的基因组规模效应,该团队使用了一种定制算法,该算法植根于一种称为随机森林的常见机器学习技术。该方法将研究人员提供的数据整合到一系列随机生成的决策树中,这些决策树共同预测基因失活与细胞生长之间的关系。该模型在大部分数据上进行了训练——将一个数据子集排除在外——然后通过测试其预测遗漏子集数据的能力进行初步验证。这种准确性扩展到使用不同实验条件和 CRISPR 库在不同实验室生成的数据集。

仅使用原始图书馆信息的一小部分(大约 1%)就可以实现这一性能。最后,宾夕法尼亚州立大学小组进行了新的实验,他们使用合成生物学技术物理构建了这些“有损压缩库”,并在新实验中验证了预测。

“一项基因组规模的实验探测了 18,000 个基因,”普里查德说。“使用机器学习,我们将实验的规模压缩到少至 200 个基因。尽管在压缩过程中丢失了一些数据,但我们发现 200 个基因的子集可以提供关于全部 18,000 个基因的令人惊讶的好信息。”

Pritchard 表示,该技术还为其他研究提供了机会。它显示出可转移性,这意味着它可以做出准确的预测,匹配来自完全不同数据集的信息,尽管只接受了 CRISPR 数据的训练。减少基因数量的能力还可以对难以或不可能大量聚集的细胞进行更多研究,例如活生物体内的细胞。

“我们对这项研究的未来感到兴奋,”普里查德说。“我们可以使用更新的机器学习技术,针对从癌症生物学到生物制药等领域的不同实验问题和条件,实时改变这些有损压缩组的组成。该方法还通过回答有关基因组如何变化的问题来帮助我们改进基础科学工作并编码有关细胞生长的信息。”

宾夕法尼亚州立大学的赵博洋、爱德华 P. 奥布莱恩、卢克吉尔伯特、斯科特 Leighow 和饶益云为这项工作做出了贡献。赵以第一作者的身份投稿,并隶属于休斯顿的 Quantalarity Research Group。吉尔伯特隶属于加州大学旧金山分校和旧金山的海伦迪勒家庭综合癌症中心。

免责声明:本文由用户上传,如有侵权请联系删除!