科学家们开发了一种使用机器学习的方法来更好地分析来自强大科学工具的数据:核磁共振 (NMR)。使用 NMR 数据的一种方法是了解人体中的蛋白质和化学反应。核磁共振与用于医学诊断的磁共振成像(MRI)密切相关。
核磁共振波谱仪使科学家能够表征分子的结构,例如蛋白质,但可能需要高度熟练的人类专家大量时间来分析这些数据。这种新的机器学习方法可以更快、更准确地分析数据。
在最近发表在Nature Communications 上的一项研究中,科学家们描述了他们的过程,该过程实质上是教会计算机解开有关蛋白质原子级特性的复杂数据,将它们解析为单独的、可读的图像。
“为了能够使用这些数据,我们需要将它们分成来自分子不同部分的特征,并量化它们的特定特性,”该研究的资深作者、俄亥俄研究学者、化学和生物化学教授 Rafael Brüschweiler 说。俄亥俄州立大学。“而在此之前,当它们重叠时,很难使用计算机来识别这些单独的特征。”
该过程由该研究的主要作者、俄亥俄州立大学校园化学仪器中心的研究科学家李大伟开发,教授计算机扫描核磁共振波谱仪的图像。这些被称为光谱的图像显示为成百上千的峰谷,例如,可以在原子水平上显示生物样品(如血液或尿液)中蛋白质或复杂代谢物混合物的变化。核磁共振数据提供了关于蛋白质功能的重要信息和关于人体内正在发生的事情的重要线索。
但是将光谱解构为可读的峰可能很困难,因为峰经常重叠。这种效果几乎就像一座山脉,距离较近、较大的山峰掩盖了较小的山峰,这些山峰也可能携带重要信息。
想想你手机上的二维码阅读器:核磁共振谱就像一个分子的二维码——每个蛋白质都有自己特定的‘二维码’,”Brüschweiler 说。“但是,这些‘二维码’的单个像素可以重叠彼此在很大程度上。您的手机将无法破译它们。这就是我们在 NMR 光谱方面遇到的问题,我们能够通过教计算机准确读取这些光谱来解决这个问题。”
该过程涉及创建人工深度神经网络,这是计算机用于分离和分析数据的多层节点网络。
研究人员创建了该网络,然后通过将人已经分析过的光谱输入计算机并告诉计算机先前已知的正确结果来教它分析 NMR 光谱。教计算机分析光谱的过程几乎就像教孩子阅读一样——研究人员从非常简单的光谱开始。一旦计算机理解了这一点,研究人员就会转向更复杂的集合。最终,他们将不同蛋白质和小鼠尿液样本的高度复杂的光谱输入计算机。
研究人员发现,这台计算机使用被教导来分析光谱的深度神经网络,能够以与人类专家相同的准确度解析出高度复杂样本中的峰。更重要的是,计算机的速度更快,可重复性也更高。
Brüschweiler 说,使用机器学习作为分析 NMR光谱的工具只是漫长的 NMR 数据解释科学过程中的一个关键步骤。但这项研究增强了核磁共振光谱学家的能力,包括俄亥俄州立大学新的国家门户超高场核磁共振中心的用户,该中心由国家科学基金会资助,耗资 1750 万美元。该中心预计于 2022 年投入使用,并将拥有北美第一台 1.2 GHz 核磁共振波谱仪。
参与这项研究的其他研究科学家包括俄亥俄州立大学校园化学仪器中心的 Alexander Hansen、Chunhua Yuan 和 Lei Bruschweiler-Li。