详情请进入 湖南阳光电子学校 已关注:人 咨询电话:0731-85579057 微信号:yp941688, yp94168
任何人工智能的成功实施都依赖于以正确的方式提出正确的问题。这就是英国人工智能公司DeepMind(Alphabet的子公司)在利用其神经网络解决生物学的重大挑战之一蛋白质折叠(protein-folding)问题时所取得的成就。它的神经网络被称为AlphaFold,能够根据蛋白质的氨基酸序列以前所未有的准确度预测蛋白质的三维结构。
AlphaFold在蛋白质结构预测的第14个临界评估(14th Critical Assessment of protein Structure Prediction,CASP14)中的预测对于大多数蛋白质来说都精确到一个原子的宽度之内。竞争括盲目地预测蛋白质的结构,这些蛋白质是 近才被实验确定的,还有一些尚待确定。
蛋白质被称为生命的组成部分,由20种不同的氨基酸以不同的组合和序列组成。蛋白质的生物学功能与其三维结构密切相关。因此,对 终折叠形状的了解对于理解特定蛋白质是如何工作的至关重要,例如它们如何与其他生物分子相互作用,如何控制或调整,等等。欧洲生物信息学研究所(European Bioinformatics Institute)荣誉主任Janet M. Thornton说:“能够根据序列预测结构是蛋白质设计真正迈出的第一步。”它在了解致病病原体方面也有巨大的益处。
预测蛋白质的三维结构是一场计算噩梦(computational nightmare)。1969年,Cyrus Levinthal估计,一种蛋白质有10300种可能的构象组合,这将需要比已知宇宙的年龄更长的时间来用蛮力计算进行评估。而AlphaFold则可以在几天内就完成。
随着科学的发展进步,AlphaFold的发现与James Watson和Francis Crick的DNA双螺旋模型(DNA double helix model),或者 近Jennifer Doudna和Emmanuelle Charpentier的CRISPR-Cas9基因组编辑技术一样,在科学上取得了突破。
几年前,曾有一个团队试图教人工智能去掌握一个有3000年历史的游戏,但 终如何训练人工智能来回答困扰生物学家50年的问题呢?数据科学家、人工智能公司PureStrategy的创始人Briana Brownell说,这就是人工智能的妙处:同样的算法可以用于非常不同的事情。
“每当你遇到问题,你想用人工智能来解决时,”她说,“你需要弄清楚如何将正确的数据输入模型,然后将正确的输出类型转换回现实世界。”
她说,DeepMind的成功与其说是挑选正确的神经网络的功能,不如说是“它们选择了如何以足够复杂的方式设置问题,以神经网络为基础的建模能够真正回答问题。”
2018年,当DeepMind在CASP13上发现了他们的人工智能的一次迭代时 -- AlphaFold显示出了希望 -- 在所有参与者中实现了 高的精确度。该团队训练它从头开始模拟目标形状,而不使用先前已解决的蛋白质作为模板。
到2020年,他们在人工智能中部署了新的深度学习架构,使用了一种经过端到端培训的注意力模型。深度学习网络中的注意力指的是管理和量化输入和输出元素之间以及输入元素之间相互依赖关系的组件。
除了具有未知结构的蛋白质序列的数据库外,该系统还接受了大约170000个已知实验蛋白质结构的公共数据集的训练。
Brownell说:“如果你看看他们两年前,和这次不同的是,人工智能系统的结构是不同的。这一次,他们发现了如何将真实世界转化为数据……并创建了一个可以转换回现实世界的输出。”
像任何人工智能系统一样,AlphaFold可能需要处理训练数据中的偏差。例如,Brownell说,AlphaFold使用的是蛋白质结构的可用信息,这些信息已经通过其他方式进行了测量。然而,也有许多蛋白质具有未知的三维结构。因此,她说,可以想象,一种偏见可能会蔓延到那些我们有更多结构数据的蛋白质。
Thornton说,很难预测AlphaFold的突破要花多长时间才能转化为实际应用。她说:“我们只有人体20000种蛋白质中约10%的实验结构。一个强大的人工智能模型可以揭示其他90%的结构。”
除了增加我们对人类生物学和健康的了解,她补充道:“这是朝着……构建实现特定功能的蛋白质迈出的真正的第一步。从蛋白质疗法到生物燃料或食用塑料的酶,可能性是无穷的。”
责任编辑:haq
.(编辑:错那电工培训学校)