国内团队研发Uni-Fold 成功复现Alphafold2全规模训练

来源:科普时报

近日,由国内团队研发的蛋白质结构预测工具Uni-Fold问世,该团队还开源了训练、推理代码,为本就热火朝天的AI蛋白质结构预测领域再添一把柴。

由深势科技研发的Uni-Fold成功复现了曾引起生物学界轰动的Alphafold2的全规模训练,Uni-Fold克服了Alphafold2未开源训练代码、硬件支持单一、模型不可商用等局限性,在训练与推理环节进行了GPU上的适配、性能优化、功能完善等工作,为更多人参与这一领域提供了基础。

“开放产品,也开放流水线”

蛋白质折叠问题被认为是人类在21世纪需要解决的重要科学前沿问题之一。研究蛋白质结构,有助于了解蛋白质的作用,理解蛋白质如何行使其生物功能,认识蛋白质与非蛋白质之间的相互作用,对于生物学、医学和药学等都非常重要。

2020年,人工智能为蛋白质结构预测领域带来惊人进展:在2020年的国际蛋白质结构预测顶级竞赛CASP14上,谷歌旗下的人工智能公司DeepMind推出的AlphaFold2预测的大部分结构准确度均与实验足够接近,远超此前所有方法。它的预测也将17%的结果一举提高到58%,因为无固定结构的氨基酸比例很大,58%的结构预测已经趋近极限。

这一结果标志着蛋白质单体的结构问题在一定意义上得到了解决,也让蛋白质结构预测这一领域成为人工智能落地的热门。

今年7月,DeepMind宣布开源AlphaFold2模型的推理代码,再次引发业界震动。

不过,在深势科技创始人兼CEO孙伟杰看来,AlphaFold2的开源并不能让相关领域研究人员高枕无忧,原因在于其训练代码并未被公布,且模型不可商用。

孙伟杰说,如果一味依赖AlphaFold2,不仅会使研究受到掣肘、阻碍进一步工作,也会让国内研究者在这一热门技术领域失去先机。

据悉,目前已开源的Uni-Fold训练代码,经过数据异步读取、混合精度训练等优化工作,支持高效GPU训练。基于优化后的训练代码,深势科技团队实现在128块GPU上进行AlphaFold2模型的全规模训练,并将持续优化所得模型。Uni-Fold的推理代码更加轻量、高效,在相同硬件环境下,可获得与公布的Alphafold2代码相比2-3倍的效率提升。

“可以说AlphaFold2开源了产品,但没有开放产品的流水线,对于训练模型来说,训练代码就是流水线,也是行业真正的技术壁垒所在。”孙伟杰解释,“我们的复现是把训练代码、相应数据、训练过程等全部复现一遍,等于把流水线造出来并且开放给大家,全行业可以一起来应用改进、解决实际问题。”

创新研究范式,加速药物研发流程

药物研发领域以昂贵、冗长、试错空间有限、不确定性高著称。更关键的是,在行业竞争愈发激烈的今天,容易试出来的药物和材料已经被挖掘得差不多了。行业迫切地需要更好的计算模拟及设计工具,把以实验为主的研发范式,变为“计算设计-实验验证”的研发范式。

对于蛋白质水平的药物研究,本质上都可以抽象为微观原子、电子层面的相互作用问题。在实际计算中,当原子、电子等微观粒子数量增多,会陷入维数灾难,计算量随微观粒子的数量指数上升的问题。

因此,“我们开创性地提出了‘物理模型+人工智能+前沿计算方法’的科学研究新范式,开发出新一代人工智能分子模拟技术。”孙伟杰说,其基于第一性原理的计算数据,通过深度神经网络对原子相互作用势能进行参数化,构建了能够有效克服“维数灾难”的模型,解决了微尺度分子模拟中精度与效率难以兼顾的问题,突破性地实现了精度与效率的统一。

实际上,AlphaFold是纯粹的归纳式的方法,它其实是把20亿数据和十几万个结构非常充分地融合起来,用AI大模型和算力去训练得到的结果。这也注定了它的局限性:越是传统实验室数据充足的部分,它表现越好,而在那些未解的结构和冷冻电镜等擅长的结构方面,由于数据的缺失,AlphaFold2预测的表现不尽人意。比如在蛋白和蛋白相互作用方面,有效的实验数据只有1万个,如果纯粹通过把这些数据学会的方式去做预测,难度更大、置信度也更低。

孙伟杰坦言,人工智能蛋白质结构预测很热门,但行业更多的还是基于归纳的范式,“更多地是用很多现实的数据去训练一个AI模型,然后去推跟它相似的道路。但是这其中有一个很重要的悖论:药物靶点、靶标的价值和它的数据成反比,真正有价值的药物靶点,都没有数据。”

“没有历史数据的靠什么,其实只能靠物理模型。”孙伟杰说,还是要从底层做起,用AI+物理模型计算,再去求解药物设计中的很多通用问题。

在相同的测试条件下,Uni-Fold的预测精度与DeepMind官方发布的AlphaFold2模型接近。深势科技团队使用Uni-Fold对CASP14蛋白预测任务中的序列数据集进行了直接测试,平均Ca-lDDT达到82.6。可以说,Uni-Fold是“训练公开版的AlphaFold2”,而且硬件适配与效率更加优化。(崔爽)

关键词: 国内团队 Uni-Fold 成功 全规模训练

推荐

直播更多》

关闭

资讯更多》

焦点