OpenAI直播狙击谷歌，奥特曼AGI梗图现场直出！GPT-4o超强原生生图来袭

作者：新智元 2025-03-26 10:21

就在谷歌刚刚扔出地表最强模型Gemini 2.5 Pro不久，OpenAI也有动作了。奥特曼亲自带队，展示了GPT-4o图像生成技术的各种大升级，比如制作梗图、文本渲染、多轮交互生成和指令遵循等。整个直播中最亮的演示，莫过于这张官方玩梗的表情包了。

就在谷歌刚刚扔出地表最强模型Gemini 2.5 Pro不久，OpenAI也有动作了。

奥特曼亲自带队，展示了GPT-4o图像生成技术的各种大升级，比如制作梗图、文本渲染、多轮交互生成和指令遵循等。

整个直播中最亮的演示，莫过于这张官方玩梗的表情包了。

目前，这项功能已经在ChatGPT和Sora中，向所有Plus、Pro、Team和免费用户推出。

当然，新版Sora生图的时间，也比以往更长了。但OpenAI看来，生图的质量和其具备的世界知识，让用户值得等待那多出的几秒。

GPT-4o原生图像生成来了！

在直播中，奥特曼介绍道，从今天起，ChatGPT中的原生图像生成功能正式推出！

GPT-4o的全模态能力，从此也融合进了Sora中。

OpenAI多模态研究的负责人Gabe介绍说，两年前刚开始这个项目时，他对于GPT-4这个强大的模型会怎样原生支持图像模型非常好奇。

一年后，当模型完成训练时，他看到了令人兴奋的迹象。从GPT-2以来，他已经很久没有这种感觉——这是一个疯狂时刻。

给出以下prompt，GPT-4o就生成了符合要求的图像，完全还原了要求。

接下来，三个人用手机来了张自拍，GPT-4o立刻把三人自拍转换成了动漫风格的版本。

甚至他们开始官方玩梗，让模型添加一段「Feel The AGI」在图片上，一张表情包就此诞生。

这个过程，就体现了4o作为全能模型的强大能力。

因为它不仅仅是一个语言模型，还包括图像、音频，所有输入和输出的模态。它可以理解、生成这些模态，并且无缝地在它们之间工作。

用OpenAI的话说，「我们终于迈向了这种真正集成的多模态模型」。

接下来，他们让模型画出一幅描述相对论的漫画，要求通俗易懂，还要加入一些幽默元素。

这个提示词非常模糊，因此看看模型会生成什么样的图，就格外令人期待了。果然，生成效果令人惊喜。

注意，这个过程中，模型很可能利用了自己的世界知识，对提示词进行了扩展。

然后，他们给了模型一张卡片，希望生成同样风格的图像，但要求主角不再是卡片中的巨猫国王，而是某位研究者的狗狗。

另外，卡片上还需要出现一些细节，比如模型的名字和年份，以及狗狗的体重和身高。

可以看到，生成图像在文本渲染方面非常惊艳，所有数据都准确无误。

最后一个演示，是基于此前几人生成的内容，制作一个纪念币。

而且，还要求图使用了一个特殊的十六进制代码，且加上生成图像的文本和日期。

可以看到，生成结果非常惊艳！此前曾出现的艺术熊、收音机、爱因斯坦漫画、研究者的狗狗以及模型名称和日期，全部都出现在了纪念币上。

模型之所以精准完成这样复杂的要求，是因为它是用非自回归的方式训练的，因此它能够理解上下文中的文本和多张图片，以非常和谐的方式在纪念币上呈现出来。

和GPT-4o聊天，定制各种图像

总之，现在使用这个功能，我们可以创建各种图像，或将其转换为各种风格。

从此，用GPT-4o创建和定制图像，就像聊天一样简单。

只需描述所需，就能得到想要的任何细节，比如纵横比、使用十六进制代码的精确颜色或透明背景。

我们可以让它设计一个信息图，解释牛顿的棱镜宽高比，背景为深蓝色。

一张画质高级的教学级图片，立马生成。

这个图像生成功能的特点就是，能遵循非常复杂的提示，极其注重细节。

15个非常细化的要求，它都在一张图里完美实现了。

要知道，大多数生图模型被要求渲染多个项目时，往往就会混淆颜色和形状，但新模型却能正确绑定15到20个对象的属性，还能成功理解各自的复杂需求。

在你和它的聊天上下文中，GPT-4o就能为你构建图像和文本，还能确保一致性。

主打一个实用

从最早的洞穴壁画到现代信息图表，人类一直使用视觉图像来交流、说服和分析。

如今的生成式AI模型可以创造出超现实的场景，但在处理人们用于分享和创建信息的实用图像方面仍然存在困难。

GPT‑4o的图像生成功能擅长准确渲染文本，精确遵循提示词，并利用GPT-4o固有的知识库和聊天上下文——包括转换上传的图像或将其用作视觉灵感。

这些能力让用户可以更加容易地创建想象中的画面，帮助通过视觉更有效地沟通，并将图像生成发展成为一种具有精确性和强大功能的实用工具。

毕竟，只有当图像配上指代共享语言和经验的符号时，才能传达精确的含义。

能力大幅增强

通过线上图像和文本的联合分布训练，模型不仅能学会图像如何与语言相关联，还能知道它们之间的相互关系。

结合积极的后训练优化，最终的模型展现出惊人的视觉表现力，能够生成实用、一致且具有上下文感知能力的图像。

文本渲染

一张图片胜过千言万语，但有时在正确的位置添加几个词能够大大提升图像的含义。

GPT-4o将精确的符号与图像融合的能力使图像生成成为视觉交流的有力工具。

多轮交互生成

由于图像生成现在是GPT‑4o的原生功能，用户可以通过自然对话来完善图像。

GPT‑4o能够基于聊天上下文中的图像和文本进行构建，确保始终保持一致性。

比如，一个正在设计中的游戏角色，它的外观就能在多次迭代和调整中保持连贯一致。

上下滑动查看

指令遵循

GPT‑4o的图像生成功能不仅可以遵循详细的提示词，而且还十分注重细节。

相比起其他只能处理5-8个物体的模型，GPT‑4o可以轻松搞定多达10-20个不同的物体。

并且，物体与其特征和关系的更紧密绑定使得控制更加精准。

上下文内学习

GPT‑4o能够分析并学习用户上传的图像，将图像细节无缝整合到上下文中，用于辅助图像生成。

世界知识

内置的图像生成功能使GPT‑4o能够连接文本和图像之间的知识，使模型表现得更智能、更高效。

真实照片风格

通过对反映多种多样图像风格的图像进行训练，模型能够以令人信服的方式创建或转换图像。

相关标签：

AI OpenAI 谷歌

相关资讯

OpenAI、谷歌等一线大模型科学家公开课，斯坦福CS 25春季上新！

OpenAI、谷歌等一线大模型科学家公开课，斯坦福CS 25春季上新！

在斯坦福，有一门专门讲 Transformer 的课程，名叫 CS 25。这门课曾经邀请过 Geoffrey Hinton、Andrej Karpathy 以及 OpenAI 的 Hyung Won Chung、Jason Wei 等一线大模型研究科学家担任讲师，在 AI 社区引起广泛关注。最近，这门课又上新了。

4/27/2025 8:40:00 AM

机器之心

AI巨头的算力账：谷歌自研TPU，绕过英伟达税，成本仅为OpenAI两成！OpenAI VS 谷歌企业怎么选？盘点四大决策关键！

AI巨头的算力账：谷歌自研TPU，绕过英伟达税，成本仅为OpenAI两成！OpenAI VS 谷歌企业怎么选？盘点四大决策关键！

编译 | 伊风随着生成式 AI 技术的迅猛发展，全球科技巨头围绕 AI 平台的竞争也日益白热化。近期，OpenAI 发布了强大的 o3 和 o4-mini 推理模型以及 GPT-4.1 系列，谷歌则迅速推出了 Gemini 2.5 Flash主打“性价比”路线，作为对稍早发布的旗舰版 Gemini 2.5 Pro 的迭代更新。虽然模型对比测试经常成为头条新闻，但对于技术决策者而言，选择 AI 平台所涉及的内容要深远得多。

4/29/2025 11:31:16 AM

伊风

OpenAI突袭AI办公，微软谷歌恐遭大洗牌！密谋一年曝光，Office帝国危了

OpenAI突袭AI办公，微软谷歌恐遭大洗牌！密谋一年曝光，Office帝国危了

OpenAI未来想要做的，便是吞掉微软、谷歌的市场。 Information独家爆料称，OpenAI内部已筹划一年，计划在ChatGPT中植入「文档协作」与「即时通讯」功能。图片OpenAI这一步棋，直接向「金主爸爸」微软发起正面挑战，同时也将开辟与谷歌竞争的新战线。

6/25/2025 1:46:16 PM

新智元

1