AIGC宇宙 AIGC宇宙

AlphaFold3级性能、开源、可商用,MIT团队推出生物分子预测模型Boltz-1

作者:ScienceAI
2024-11-19 11:59
图示:来自测试集的靶标上的 Boltz-1 的示例预测。 (来源:论文)编辑 | 萝卜皮2024 年 11 月 18 日,麻省理工学院(MIT)的研究人员宣布推出 Boltz-1,这是一个开源模型,旨在准确模拟复杂的生物分子相互作用。 Boltz-1 是第一个完全商业化的开源模型,在预测生物分子复合物的 3D 结构方面达到 AlphaFold3 级精度。

图片

图示:来自测试集的靶标上的 Boltz-1 的示例预测。(来源:论文)

编辑 | 萝卜皮

2024 年 11 月 18 日,麻省理工学院(MIT)的研究人员宣布推出 Boltz-1,这是一个开源模型,旨在准确模拟复杂的生物分子相互作用。

Boltz-1 是第一个完全商业化的开源模型,在预测生物分子复合物的 3D 结构方面达到 AlphaFold3 级精度。

该研究的作者之一,MIT 的 Ph.D Gabriele Corso,第一时间在推特上分享了这一开源事件,网友们纷纷表示祝贺。

图片

图示:网友们对此纷纷表示祝贺。(来源:X)

通过根据 MIT 许可发布训练和推理代码、模型权重和训练数据,该团队旨在将 Boltz-1 打造为全球研究人员的建模主干,为开源结构生物学树立新标准。

图片

技术报告:https://gcorso.github.io/assets/boltz1.pdf

开源代码:https://github.com/jwohlwend/boltz

生物分子相互作用驱动着几乎所有的生物机制,科学家理解这些相互作用后可以指导新疗法的开发和疾病驱动因素的发现。

2020 年,AlphaFold2 证明深度学习模型可以在大量蛋白质序列上达到单链蛋白质结构预测的实验精度。然而,关于在 3D 空间中对生物分子复合物进行建模的一个关键问题仍然悬而未决。

过去几年,研究界在解决这一关键问题方面取得了重大进展。特别是,深度生成模型的使用已被证明可以有效地模拟不同生物分子之间的相互作用,其中 DiffDock 比传统的分子对接方法有显著的改进,AlphaFold3 在预测任意生物分子复合物方面达到了前所未有的准确度。

在最新的研究中,MIT 的研究人开发了 Boltz-1,这是第一个完全可商业访问的开源模型,达到了 AlphaFold3 报告的准确度水平。

通过在 MIT 许可下免费提供训练和推理代码、模型权重、数据集和基准,该团队希望让世界各地的研究人员、开发人员和组织能够使用 Boltz-1 进行实验、验证和创新。

图片

图示:Boltz-1 架构图。(来源:论文)

从高层次上讲,Boltz-1 遵循 Abramson 团队提出的通用框架和架构,但它也提出了一些创新,包括:

1、新算法可以更高效、更稳健地配对 MSA、训练时的裁剪结构以及用户定义的绑定口袋上的条件预测;

2、更改架构中的表示流程以及扩散训练和推理程序;

3、修订置信度模型,包括架构组件以及任务框架,作为对模型主干层的微调。

图片

图示:使用 Kapsch 插值来二维表示 AlphaFold3 反向扩散和 Boltz1 反向扩散之间的差异。(来源:论文)

表现

研究人员在各种数据集上评估了 Boltz-1 与 Chai-1(AlphaFold3 的第一个闭源但公开可用的复制品)的性能,并得出结论:Boltz-1 与 Chai-1 的性能相匹配,因此也与 AlphaFold3 相匹配。

例如,在 CASP15 上进行评估时,Boltz-1 表现出特别强的蛋白质-配体和蛋白质-蛋白质性能,LDDT-PLI 达到 65%,而 Chai-1 为 40%,DockQ>0.23 的比例为 83%,而 Chai-1 为 76%。

图片

图示:Chai-1 和 Boltz-1 在 CASP15 基准和测试集上的表现的视觉摘要。(来源:论文)

局限性

虽然性能强悍,但也存在一些局限性。对 Boltz-1 的几个预测进行目视检查后,发现模型输出中存在幻觉现象。最突出的幻觉类型是将整个链直接叠放在一起。

这些现象表现出两种常见模式:第一种涉及大型复合物中的相同聚合物链,而第二种涉及具有共同子结构的类似配体。

研究人员提出了几种假设来解释这些模式:

1、数据中的重叠链和配体:虽然数据处理流程移除了重叠的聚合物链,但并没有消除重叠的配体。经过仔细检查,研究人员发现 PDB 数据库中的几个示例报告了同一结构内的重叠配体,可能代表替代的结合分子或反应(例如,PDB ID 7X9K)。训练集中的此类结构可能会引入误导性的学习信号。

2、训练裁剪大小不足:由于计算限制,研究人员使用 384 和 512 个标记的裁剪大小来训练模型,这比观察到这些问题的许多复杂结构要小得多。这可能会妨碍模型在训练期间捕捉足够的空间背景的能力。

图片

图示:Boltz-1 预测链的示例相互重叠。(来源:论文)

希望成为人人可用的模型

接下来,研究人员将进一步探索替代训练或微调策略以缓解这些问题,并将其留到模型的未来迭代中。

此次开源发布旨在让世界各地的研究人员和组织能够利用 Boltz-1 进行实验和创新。研究人员设想将 Boltz-1 作为一个基础,研究人员可以在此基础上进行构建,共同推进科学家对生物分子相互作用的集体理解,并加速药物设计、结构生物学等领域的发现。

研究人员在报告中表示:「Boltz-1 的开源发布是向前迈出的激动人心的一步,但这才刚刚开始。我们正在进行重大改进,以增强其对复杂交互进行建模的能力,我们计划在未来几个月内发布这些改进!敬请期待!」

相关内容:

https://x.com/GabriCorso/status/1858180097016250815

https://jclinic.mit.edu/boltz-1/ 

https://www.marktechpost.com/2024/11/17/mit-researchers-propose-boltz-1-the-first-open-source-ai-model-achieving-alphafold3-level-accuracy-in-biomolecular-structure-prediction/

相关资讯

创新能力超越AI Scientist,上海AI Lab「AI 科研团队」VirSci来了

编辑 | ScienceAI由上海人工智能实验室提出的 VirSci(Virtual Scientists)系统是一个基于大语言模型(LLM)的多智能体协作平台,专注于模拟科学家团队的合作过程,从而加速科研创新。 不同于以往的单智能体系统,VirSci 通过使用真实科学家的数据来模拟科学团队的多人协作,不仅可以通过团队成员的合作讨论来生成更具创新性和影响力的科研想法,还展现出作为「科学学」(Scienceof Science)研究工具的巨大潜力。 该研究以「Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation」为题,于 2024 年 10 月 12 日发布在 arXiv  预印平台。
11/4/2024 2:22:00 PM
ScienceAI

1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种

编辑 | 萝卜皮不久之前,Google DeepMind 发布了 AlphaFold3,再次引发了人们对「AI 生命科学」的讨论。在学界,科学家的目标往往是先认识世界,然后在认识的基础上改造世界。但是在生命科学领域,人类对整个生命的理解与认识还如九牛一毛、冰山一角;建立对生命系统的多维度深刻认识是当前人类研究的重要一步,AI 是达成这一步的重要工具。近期,阿里云飞天实验室发布并开源了业界首个联合 DNA、RNA、蛋白质的生物大模型「LucaOne」。这是一种新型预训练基础模型,旨在综合学习遗传和蛋白质组语言,涵
6/4/2024 3:32:00 PM
ScienceAI

Nature子刊,上智院、复旦、中国气象局研发次季节AI大模型「伏羲」,突破「可预报性沙漠」

编辑 | ScienceAI作者 | 伏羲团队国务院印发的《气象高质量发展纲要(2022—2035 年)》明确提出要「提前一个月预报重大天气过程」,而这离不开 15 天以上的次季节气候预测技术。次季节气候预测关注的是未来 15~60 天的气候异常,可以为农业、水利、能源等领域的生产安排提供重要支撑。相比时效在两周以内的中短期天气预报,次季节气候预测的不确定性更大。它不仅需要考虑初值问题,还要考虑边界强迫的影响,预测来源更为复杂,预测技巧也较少。因此,次季节气候预测一直被称为「可预报性沙漠」,由于其复杂性,甚至连 A
8/19/2024 2:37:00 PM
ScienceAI
  • 1