AIGC宇宙 AIGC宇宙

GPT-6或要有生命了!MIT神作:一套神框架让大模型“自己微调自己”,实验已通过!超过GPT4.1,网友:冻结权重时代结束了

编辑 | 云昭出品 | 51CTO技术栈(微信号:blog51cto)在过去两年,大语言模型几乎定义了整个 AI 发展的节奏。 但有个问题一直没变:模型再强,也不会自己学习。 每次要让它掌握新知识,都必须人工投喂数据、重新训练。

编辑 | 云昭

出品 | 51CTO技术栈(微信号:blog51cto)

在过去两年,大语言模型几乎定义了整个 AI 发展的节奏。但有个问题一直没变:模型再强,也不会自己学习。每次要让它掌握新知识,都必须人工投喂数据、重新训练。

MIT 的研究团队最近在 arXiv 上发布了一篇论文,提出并实测了一个框架 —— SEAL(Self-Adapting Language Models,自适应语言模型)。

图片图片

炸裂之处在于,它能让语言模型自己生成微调数据与更新指令,自行优化自己的权重。

这还没完,一位X用户还爆料这篇文章的部分作者,已经加入了OpenAI团队,暗示了未来的GPT-6的走向:冻结权重时代结束了,如果GPT-6真的融合了这套机制,一个随着世界变化而持续自我进化的模型,真的要来了!

部分 SEAL 论文的研究者目前已加入 OpenAI。这绝非巧合。

SEAL 的架构让模型具备以下能力:

• 从新数据中实时学习

• 自我修复退化的知识

• 在多次会话之间形成持久的“记忆”

如果 GPT-6 真的整合了这些机制,它将不只是“使用信息”,而是会吸收信息。

一个能随着世界变化而自我进化的模型,一个每天都在变得更好的系统。

这可能意味着——持续自学习 AI 的诞生,也是“冻结权重时代”的终结。

欢迎来到下一个时代。

图片图片

不过小编在此声明:此为推测,只代表一种可能。最终还是要看OpenAI如何出招。

论文地址:https://arxiv.org/abs/2506.10943

代码也在计划开源中:https://github.com/Continual-Intelligence

先来看看这套框架究竟厉害在哪里?

强如GPT-5,依旧是冻结模型

可能大家有一种错觉,就是很多许多人误以为GPT-5已实现连续学习,但事实并非如此。一位博主透露,自己每个月都需要为此解释2-3次,来澄清:当前模型权重都是静态的,无法实时更新。

图片图片

它们能理解世界,但无法真正“更新自己”。如果要让大模型每次适配新任务,都需要人工再微调一次。

而 SEAL 的目标,就是是让模型拥有持续吸收与整合知识的能力。

SEAL 框架厉害之处:让模型自我编辑指令

SEAL 的核心是「自我编辑(self-edit)」。

图片图片

给定新的输入,模型会产生自编辑——这一生成过程可能以不同的方式重构信息、指定优化超参数,或调用数据增强和基于梯度的更新工具。通过监督微调 (SFT),这些自编辑会产生持续的权重更新,从而实现持久的自适应。

简单讲,当模型遇到新信息时,它会自己生成一段“训练指令”,告诉自己:

  • 如何重组信息;
  • 用哪些超参数优化;
  • 是否生成新的合成样本。

这些自我编辑会触发一次监督微调(SFT),模型再根据任务表现,强化成功的编辑策略。(没错,还是通过强化学习的方法生成这些指令,并且以更新后的模型表现作为奖励信号。)

图片图片

SEAL 框架概览:在每一次强化学习(RL)的外层循环中,模型会生成候选的“自我编辑”——也就是关于如何更新权重的指令。随后,模型根据这些指令执行相应的权重更新,在下游任务上评估性能,并利用得到的奖励信号来优化自我编辑的生成策略。

整个过程由一种轻量级强化学习算法 ReST-EM 控制,形成「生成 → 更新 → 评估 → 强化」的自学习闭环。

实验结果:超过GPT4.1合成数据训练、小样本学习任务成功率高达72%

而且,这套框架已经成功在实验任务中得到有效验证。团队进行了两类任务的实验。

1. 知识整合:让模型从一段新文本中吸收事实性信息,使其在后续问答中无需原始文本也能正确回答相关问题。

图片图片

2. 小样本学习(Few-Shot Learning):在 ARC 基准测试的子集上,模型需从极少量示例中泛化,通过自主生成数据增强与训练配置来解决抽象推理问题。

图片图片

这两项实验任务表明,SEAL框架确实取得了最佳性能表现。

  • 知识整合:两轮自学后,准确率从 32.7% → 47.0%,甚至超过了 GPT-4.1 合成数据微调的模型。

图片图片

  • 小样本学习:从 0% → 72.5%,模型学会自己选增强方式和超参。

图片图片

这个任务的对比最为明显。无自我编辑:0% 成功率,而未训练自编辑:20%,而SEAL 完整训练后:成功率竟然高达 72.5%。

很显然,这套“自我编辑指令”的框架,奇迹般地让模型真的学会了如何自我改进。

局限:灾难性遗忘

新成果往往伴生着新问题。

论文中,团队发现一个了一个棘手的问题,即反复自我编辑会导致灾难性遗忘:学新任务的同时,旧知识可能被覆盖。对此,研究者提出几种潜在方案,如经验回放、受限更新、表征叠加等。

图片图片

下一步:自我演化智能体

MIT 团队希望未来的模型能学会判断:

“什么时候该更新,什么时候不该动。”

也就是说,模型会在推理中决定是否执行自我编辑,把临时推理转化为持久能力,为“会自己演化的智能体”铺路。

写在最后:GPT-6大概率会是什么样?

大家希望AI可以自我进化,可以说是一个很古老的愿望了。而本文中,MIT的SEAL框架可以说让这个愿望又向前推进了一步:模型可以自行根据外界变化自我编辑SFT指令,想想都有点恐怖。

模型直接从“被训练的工具”化身“能自我训练的系统”。怎么说呢?这是要抢“AI工程师”的饭碗吗?

那么,OpenAI下一款的GPT-6什么进度呢?

按照OpenAI的发布节奏来看,大概率GPT-6至少也得明年一季度了。(今年夏天刚发的GPT-5。大版本的发布至少半年起。)

虽然,我们还不能确定,OpenAI最终会如何定义GPT-6的走向,但按照去年奥特曼的5级规划来看,小编认为有两种可能。

保守的结果,则是L3级别。即自主智能体。

AI 不只是回答问题,而是能在指令下自主行动(agent),处理一系列任务,可以调整策略、寻求帮助、完成较复杂/跨步骤的工作

激进点的话,GPT-6 可能的主打方向,就是奥特曼最近在采访中时不时提到的:AI创造新知识。即“L4 Innovators”,创新者/发明者的角色。创新与创造性输出,是这一阶段的典型特征:

在没有人类持续监督或指导的情况下,能提出新想法、发明新事物、解决未知领域的问题,能超出已有知识/训练数据的范畴。

而这种超出已有知识/训练数据的创造与创新已经跟本文讨论的“自我演进”的SEAL框架了。

总之,拭目以待吧。AI全面超越人类的未来已经不远了!

相关资讯

GPT-5遭用户吐槽 “垃圾”:缩放定律失效,AGI梦渐行渐远?

2025 年 8 月,OpenAI 终于推出备受期待的 GPT-5,但其表现并未如市场预期般带来 “革命性突破”,反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。 GPT-5 实测:亮点有限,失望声四起YouTube播主 Mrwhosetheboss 的实测显示,GPT-5 并非全面领先:在创建象棋游戏时优于 . GPT-4o-mini-high,撰写视频脚本时强于 GPT-4o,且能根据任务自动匹配最优模型;但在生成 YouTube .
8/18/2025 9:57:30 AM

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线
  • 1