OpenAI首个蛋白质模型披露更多细节，改进诺奖研究成果，表达量提升50倍

GPT-4o蛋白质专用版，已成功改进诺贝尔奖获奖蛋白的变体。科学家利用GPT‑4b micro成功设计了新型且显著增强的山中伸弥因子变体，将干细胞重编程标记物的表达量提升了50倍。重新设计的蛋白质还表现出增强的DNA损伤修复能力。

GPT-4o蛋白质专用版，已成功改进诺贝尔奖获奖蛋白的变体。

科学家利用GPT‑4b micro成功设计了新型且显著增强的山中伸弥因子变体，将干细胞重编程标记物的表达量提升了50倍。

重新设计的蛋白质还表现出增强的DNA损伤修复能力。

这一发现已在多个供体、细胞类型和递送方法中得到了验证，确认了衍生iPSC系的全多能性和基因组稳定性。

有网友评价，借着AI发展的东风，我们这一代可能是首次有机会通过AI的进步实现长寿的一代。

目前，研究团队公布了更多的突破细节。

GPT‑4b micro是一款OpenAI与生物技术初创公司Retro Bio合作开发的，专为蛋白质工程设计的GPT-4o微型版本。

OpenAI官方表示，该模型具备广泛的生物学知识基础和技能，特别注重可控性和灵活性，以支持蛋白质工程等高级应用场景。

在模型设计上，他们首先基于GPT-4o的精简版进行系统初始化，以便充分利用GPT模型现有的知识储备。

然后，他们在一个主要由蛋白质序列、生物文本和标记化的3D结构数据组成的数据集上对其进行了进一步训练，这些元素是大多数蛋白质语言模型所忽略的。

团队继续对大部分训练数据进行了丰富化处理，为其增添了额外的上下文信息，如文本描述、共同进化的同源序列以及已知相互作用的蛋白质组合。

有了这些上下文信息，研究者就可以促使GPT-4b micro生成具有特定期望属性的序列。

此外，由于大多数数据是无结构的，该模型处理具有内在无序区域的蛋白质与处理结构化蛋白质同样有效。

上述特性对于山中伸弥因子这类不稳定的蛋白质尤其有用，它们的结构不像稳定的积木，而像灵活的“软体动物”，通过与许多不同的分子进行短暂相互作用来产生效应。

△山中伸弥蛋白KLF4（左）和SOX2（右）

通过使用富含额外上下文信息的蛋白质数据进行训练，训练样本的有效上下文长度得到了显著扩展，远超独立序列。

最终，研究团队发现，即使输入长达64000个token的超长提示，模型的可控性和输出质量仍在持续提升。

虽然这种上下文长度在文本大语言模型中很常见，但在蛋白质序列模型中前所未有。

在开发过程中，研究团队还观察到了与LLM中类似的scaling laws的出现——即在更大的数据集上训练的模型，在困惑度和下游蛋白质基准测试中的表现都有所提升。

这种特性使得研究人员能够在小规模下进行迭代，最终训练出GPT-4b micro。

为了证明GPT‑4b micro能够加速药物开发，Retro Bio的科学家使用该模型重新设计了与细胞重编程研究项目相关的蛋白质。

在体外，这些重新设计的蛋白质比野生型对照组的干细胞重编程标志物表达量高出50倍以上。它们还表现出增强的DNA损伤修复能力，与基线相比显示出更高的恢复年轻状态的潜力。

这一发现是在2025年初做出的，现在已经在多个供体、细胞类型和递送方法中得到了验证，确认了衍生iPSC系的全多能性和基因组稳定性。

山中伸弥因子——OCT4、SOX2、KLF4和MYC（OSKM）是再生生物学中目前最重要的蛋白质之一，它们以发现这些因子能够将成年细胞重编程为多能干细胞的山中伸弥（Yamanaka Shin’ya）的名字命名，这一发现使他在2012年获得了诺贝尔生理学或医学奖。

这些因子也被用于开发治疗失明的药物、逆转糖尿病、治疗不孕不育以及解决器官短缺问题。

但它们存在效率低下的问题：在治疗过程中，通常只有不到0.1%的细胞会转化，这个过程可能需要三周或更长时间。并且，在来自衰老或患病供体的细胞中，效率会进一步下降。

因此，寻找更有效的变体仍然是一个活跃且重要的研究重点。

但直接优化蛋白质序列非常困难——SOX2包含317个氨基酸，KLF4则有513个，可能的变体数量达到了10^1000量级。

传统的“定向进化”筛选方法每次只能突变少数几个残基，只能探索设计空间中极小的一部分。一个领先学术团队测试了数千种SOX2突变体，发现少数几种三重突变体有适度提升，而15年来对嵌合SOX蛋白的研究仅产生了与天然SOX仅相差5个残基的变体。

Retro团队利用人类成纤维细胞（皮肤与结缔组织）构建了湿实验室筛选平台，在初步验证阶段，该团队通过手动设计的基准OSKM和SOX2变体进行试点筛选。

随后，他们要求GPT-4b micro生成一组多样化的”RetroSOX”序列。

在筛选中，尽管模型提出的序列与野生型SOX2平均存在超过100个氨基酸差异，但其中超过30%的序列在表达关键多能性标志物方面表现更优。

相比之下，传统筛选方法的命中率通常低于10%。

研究团队随后着手改造山中伸弥因子中体积最大的KLF4蛋白。虽然已知可用其他KLF家族因子替代KLF4，但重编程效率并未提升。

此前，通过专家指导的单氨基酸替换进行的改良尝试，在19个样本中仅获得1个成功案例（KLF4 L507A）。

基于RetroSOX的成功经验，研究团队引导模型生成一组增强型RetroKLF变体。最终，模型生成的变体中有14种表现优于RetroSOX筛选中的最佳组合方案——命中率接近50%。

将最优的RetroSOX与RetroKLF变体组合使用时效果最为显著。

在三次独立实验中，成纤维细胞早期标志物（SSEA-4）与晚期标志物（TRA-1-60、NANOG）的表达水平均呈现显著提升，其中晚期标志物的出现时间比野生型OSKM组合方案提前了几天。

此外，通过在第十天进行碱性磷酸酶（AP）染色验证，RetroSOX与RetroKLF变体不仅表达晚期多能性标志物，还表现出强效的AP活性，表明其具有多能性。

为进一步验证重编程效率的提升并探索其临床潜力，研究团队测试了另一种递送方法（mRNA而非病毒载体）以及另一种细胞类型——间充质干细胞（MSCs），这些细胞来自三位中年人类供体（年龄超过50岁）。

结果显示，仅7天内，超过30%的细胞开始表达关键多能性标志物（SSEA4与TRA-1-60）；至第12天时，出现大量呈现典型iPSCs形态特征的细胞团簇。

这些细胞中超过85%激活了关键干细胞标志物（OCT4、NANOG、SOX2及TRA-1-60）的内源性表达。

探究团队随后验证了这些由RetroFactor衍生的iPSCs能够成功分化为所有三个原始胚层（内胚层、外胚层与中胚层）。

此外，研究团队还扩展了多个单克隆iPSC系，经过数代培养后，确认了健康的核型和适合细胞治疗的基因组稳定性。

这些结果持续超越合同研究组织使用标准因子生成的常规iPSC系基准，进一步佐证了工程化变体的强效性。

此外，它们还为关于不同递送方式和细胞类型中PSC生成增强提供了证据支撑。

综合高命中率、深度序列编辑、标志物提前表达以及AP阳性细胞团形成等证据，初步表明AI指导的蛋白质设计能显著加速干细胞重编程研究进程。

受这些结果启发，研究团队接下来研究了他们重新设计的变体恢复青春的潜力，聚焦于DNA损伤这一导致细胞功能受损的典型衰老标志。

早期研究表明，山中伸弥因子能在不完全改变细胞身份的前提下，清除小鼠细胞中与DNA损伤相关的衰老标记。

研究团队试图验证重新设计的变体是否相较于基准OSKM组合展现出更强的恢复青春的能力。结果显示，在DNA损伤检测中，经RetroSOX/KLF组合处理的细胞显示出的γ-H2AX强度（双链断裂标志物）显著低于使用标准OSKM或荧光对照的重编程细胞。

该结果表明重新设计的RetroSOX/KLF组合在减少DNA损伤方面比原始山中伸弥因子更有效。

通过改善细胞衰老的核心标志之一，这些工程化变体为改进细胞再生和未来疗法提供了潜在途径。

总的来说，GPT‑4b micro在所有候选蛋白中产生了最佳变体，在提出更多多样化序列的同时，保持了比人类科学家基准更高的命中率。

网友首先对OpenAI进军生物科学领域的大胆举措给予了充分肯定，猛猛夸赞了一下OpenAI。

甚至扬言这是改变人类历史的事情。

也有一些网友对此研究表现出疑惑，主要集中在长寿和治愈疾病方面（用Grok重在掺和）。

还有网友表示出了自己的独特想法，想让获得批准的人能够创建出适合湿实验室的蛋白质，而不受安全限制的影响。

值得一提的是，OpenAI科学家Noam Brown表示，这一模型已经是几个月前的成果，现在的模型性能更强，预计未来一年左右会看到更多新成果。

那大家拭目以待喽～

参考链接： [1]https://openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/ [2]https://x.com/BorisMPower/status/1958915868693602475 [3]https://x.com/polynoamial/status/1958920311161925899

OpenAI首个蛋白质模型披露更多细节，改进诺奖研究成果，表达量提升50倍

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI发布GPT-4.1系列模型：能力全面超越前代

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级