国内团队研发Uni-Fold 成功复现Alphafold2全规模训练
近日,由国内团队研发的蛋白质结构预测工具Uni-Fold问世,该团队还开源了训练、推理代码,为本就热火朝天的AI蛋白质结构预测领域再添一把柴。
由深势科技研发的Uni-Fold成功复现了曾引起生物学界轰动的Alphafold2的全规模训练,Uni-Fold克服了Alphafold2未开源训练代码、硬件支持单一、模型不可商用等局限性,在训练与推理环节进行了GPU上的适配、性能优化、功能完善等工作,为更多人参与这一领域提供了基础。
“开放产品,也开放流水线”
蛋白质折叠问题被认为是人类在21世纪需要解决的重要科学前沿问题之一。研究蛋白质结构,有助于了解蛋白质的作用,理解蛋白质如何行使其生物功能,认识蛋白质与非蛋白质之间的相互作用,对于生物学、医学和药学等都非常重要。
2020年,人工智能为蛋白质结构预测领域带来惊人进展:在2020年的国际蛋白质结构预测顶级竞赛CASP14上,谷歌旗下的人工智能公司DeepMind推出的AlphaFold2预测的大部分结构准确度均与实验足够接近,远超此前所有方法。它的预测也将17%的结果一举提高到58%,因为无固定结构的氨基酸比例很大,58%的结构预测已经趋近极限。
这一结果标志着蛋白质单体的结构问题在一定意义上得到了解决,也让蛋白质结构预测这一领域成为人工智能落地的热门。
今年7月,DeepMind宣布开源AlphaFold2模型的推理代码,再次引发业界震动。
不过,在深势科技创始人兼CEO孙伟杰看来,AlphaFold2的开源并不能让相关领域研究人员高枕无忧,原因在于其训练代码并未被公布,且模型不可商用。
孙伟杰说,如果一味依赖AlphaFold2,不仅会使研究受到掣肘、阻碍进一步工作,也会让国内研究者在这一热门技术领域失去先机。
据悉,目前已开源的Uni-Fold训练代码,经过数据异步读取、混合精度训练等优化工作,支持高效GPU训练。基于优化后的训练代码,深势科技团队实现在128块GPU上进行AlphaFold2模型的全规模训练,并将持续优化所得模型。Uni-Fold的推理代码更加轻量、高效,在相同硬件环境下,可获得与公布的Alphafold2代码相比2-3倍的效率提升。
“可以说AlphaFold2开源了产品,但没有开放产品的流水线,对于训练模型来说,训练代码就是流水线,也是行业真正的技术壁垒所在。”孙伟杰解释,“我们的复现是把训练代码、相应数据、训练过程等全部复现一遍,等于把流水线造出来并且开放给大家,全行业可以一起来应用改进、解决实际问题。”
创新研究范式,加速药物研发流程
药物研发领域以昂贵、冗长、试错空间有限、不确定性高著称。更关键的是,在行业竞争愈发激烈的今天,容易试出来的药物和材料已经被挖掘得差不多了。行业迫切地需要更好的计算模拟及设计工具,把以实验为主的研发范式,变为“计算设计-实验验证”的研发范式。
对于蛋白质水平的药物研究,本质上都可以抽象为微观原子、电子层面的相互作用问题。在实际计算中,当原子、电子等微观粒子数量增多,会陷入维数灾难,计算量随微观粒子的数量指数上升的问题。
因此,“我们开创性地提出了‘物理模型+人工智能+前沿计算方法’的科学研究新范式,开发出新一代人工智能分子模拟技术。”孙伟杰说,其基于第一性原理的计算数据,通过深度神经网络对原子相互作用势能进行参数化,构建了能够有效克服“维数灾难”的模型,解决了微尺度分子模拟中精度与效率难以兼顾的问题,突破性地实现了精度与效率的统一。
实际上,AlphaFold是纯粹的归纳式的方法,它其实是把20亿数据和十几万个结构非常充分地融合起来,用AI大模型和算力去训练得到的结果。这也注定了它的局限性:越是传统实验室数据充足的部分,它表现越好,而在那些未解的结构和冷冻电镜等擅长的结构方面,由于数据的缺失,AlphaFold2预测的表现不尽人意。比如在蛋白和蛋白相互作用方面,有效的实验数据只有1万个,如果纯粹通过把这些数据学会的方式去做预测,难度更大、置信度也更低。
孙伟杰坦言,人工智能蛋白质结构预测很热门,但行业更多的还是基于归纳的范式,“更多地是用很多现实的数据去训练一个AI模型,然后去推跟它相似的道路。但是这其中有一个很重要的悖论:药物靶点、靶标的价值和它的数据成反比,真正有价值的药物靶点,都没有数据。”
“没有历史数据的靠什么,其实只能靠物理模型。”孙伟杰说,还是要从底层做起,用AI+物理模型计算,再去求解药物设计中的很多通用问题。
在相同的测试条件下,Uni-Fold的预测精度与DeepMind官方发布的AlphaFold2模型接近。深势科技团队使用Uni-Fold对CASP14蛋白预测任务中的序列数据集进行了直接测试,平均Ca-lDDT达到82.6。可以说,Uni-Fold是“训练公开版的AlphaFold2”,而且硬件适配与效率更加优化。(崔爽)
推荐
直播更多》
-
特斯拉公司CEO埃隆马斯克 向Twitter发出收购要约
和外界预期的一样,特斯拉公司 CEO 埃...
-
特斯拉公司CEO埃隆马斯克 向Twitter发出收购要约
和外界预期的一样,特斯拉公司 CEO 埃...
-
笔记本电脑代工厂广达发布公告 配合防疫政策暂时停工
笔记本电脑代工厂广达今(13)日发布公告...
-
英特尔公司宣布斥资30亿美元 扩建美国奥勒冈州D1X工厂
英特尔公司宣布斥资 30 亿美元,扩建...
-
莆田电信积极组织开展安全运营专项工作 强化员工安全意识
为全面落实稳字当头、稳中求进的云网安...
-
精准落实优惠税率 河北高企税费减免超百亿元
近日,记者从河北省税务局获悉,2021年...
资讯更多》
焦点
- 奇瑞新能源一季度达成50013辆销量 实现255.4%同比增长
- 昆山重新调整划定5个静态管理区 延长静默期7天
- 受苹果用户隐私政策调整影响 科技巨头2022年营收将减少近160亿美元
- 加快湖北数字化转型 5G信息技术重塑制造业发展形态
- 斯坦福大学团队发表论文 展示大脑运动皮层神经网络如何实现新记忆索引
- 广东首座华南唯一 广州汇云数据中心入选2021年国家新型数据中心名单
- 慢性疾病严重威胁我国居民健康 低龄化趋势明显
- 消除线路施工安全隐患 智慧光网云守护系统成为工地“火眼金睛”
- IMT-2020推进组蜂窝车联工作组第二十次全体会议 近日在线上举行
- 气候变暖将珊瑚推向耐热极限 人工智能助力寻找耐热珊瑚