图像

OpenAI Responses API新增MCP支持与多项功能升级，助力智能体开发

OpenAI宣布其核心API——Responses API现已支持**Model Context Protocol（MCP）**，并对图像生成、Code Interpreter以及文件搜索工具进行了重大更新。这些升级极大简化了智能体开发流程，使开发者能够通过几行代码将AI智能体连接到外部工具和服务，进一步提升了API的灵活性和功能性。 MCP支持:简化智能体开发OpenAI通过Responses API新增对MCP的支持，标志着其在AI智能体开发领域的又一重大突破。

5/22/2025 11:00:55 AM

AI在线

Recraft 获 3000 万美元 B 轮融资，图像生成技术挑战行业巨头

初创公司 Recraft 近日宣布完成3000万美元的 B 轮融资。这轮融资由知名风险投资公司 Accel 领投，其他投资机构如 Khosla Ventures 和 Madrona 也参与其中。 Recraft 总部位于美国旧金山，此前在2024年曾获得1200万美元的 A 轮融资，目前公司年化经常性收入已超过500万美元，并拥有400万注册用户。

5/6/2025 7:00:41 PM

AI在线

Freepik 发布“F Lite”：一个为版权安全而构建的开放 AI 图像模型

西班牙数字图形巨头 Freepik 近日推出了其最新的文本到图像生成模型“F Lite”，旨在成为 Midjourney 等因版权问题而备受争议的生成器的合法且安全的替代品。 F Lite 拥有约100亿个参数，其独特之处在于完全基于 Freepik 自身商业授权的图像库进行训练。 Freepik 声称，这使其成为首个完全依赖“工作安全”内容进行训练的如此规模的公开模型。

5/6/2025 10:01:20 AM

AI在线

OpenAI 的新 GPT-4o 图像生成技术绝对会改变游戏规则

GPT-4o 的图像生成功能刚刚发布就直接开始摧毁传统行业，甚至让 OpenAI 的 CEO 山姆·奥特曼（Sam Altman）都直呼：“我也看不懂眼前发生的一切！ ”图片传统的设计软件，比如 Photoshop，现在可真是如临大敌了。一、图像融合的能力彻底超越传统工具来看一个让人震惊的图像融合实例：图片传统的 Photoshop 顶多就是简单地将人物图层叠加到背景图上，对光影和角度的细节通常还要手动调整。

4/7/2025 12:00:00 AM

dev

GPT-4o骗了所有人，逐行画图只是前端特效？！底层架构细节成迷，奥特曼呼吁大家别玩了

GPT-4o玩家太疯狂，奥特曼紧急呼吁别再生成图片了：OpenAI团队为此一直在熬夜。为什么需要熬夜呢，自原生图像生成推出以来，必须一直有人守着才能保持服务器在线。与此同时，有人通过分析ChatGPT前端代码，发现用户看到的逐行生成效果只是浏览器端的动画。

3/31/2025 11:23:02 AM

刷屏网络后，ChatGPT 开始屏蔽模仿吉卜力风格的图像生成请求

日前，随着 OpenAI 推出其新款 GPT-4o 图像生成能力，网络上涌现出大量模仿日本著名动画公司吉卜力风格的 AI 生成卡通和表情包，引起了广泛关注。用户们在社交平台上分享了许多恶搞作品，其中有一幅描绘肯尼迪遇刺事件的作品尤为引人注目。此外，许多人将自己的照片转化为吉卜力电影风格的图像，进一步推动了这一潮流。

3/28/2025 9:20:00 AM

AI在线

OpenAI在图片领域站起来了！

出品 | 51CTO技术栈（微信号：blog51cto）26日凌晨，OpenAI推出了GPT4o图像生成，可以说解决了此前Midjourney等扩散模型很难解决的问题，业内为之大为赞叹。这是用手机拍摄的玻璃白板的广角图像，拍摄地点是一间俯瞰海湾大桥的房间。视野中可以看到一位女士正在写字，她身穿一件印有大型 OpenAI 标志的 T 恤。

3/26/2025 9:29:12 AM

Gemini或将新增功能Image to Code 应用亮相AI Studio

2025 年 3 月 6 日消息，根据X平台用户最新爆料，一款名为“Image to Code”的隐藏初创应用悄然出现在AI Studio中。这款应用由Gemini技术驱动，能够以图像作为输入，通过分析和推理，最终生成相应的程序代码，绘制出程序化的图像。这一消息迅速引发了科技爱好者和开发者的广泛关注。

3/6/2025 10:12:00 AM

AI在线

Retinex-Diffusion：让图像照明更加自然、细腻、富有层次感。

本文经AIGC Studio公众号授权转载，转载请联系出处。这项研究主要是针对如何智能控制图像中的光照，采用了一种不需要重新训练模型的新方法。简而言之，研究人员利用一种叫作Retinex理论的方法，先识别出图像中的光照元素，然后用这些元素来指导图像生成模型。

1/15/2025 10:00:00 AM

AIGC Studio

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调（Reinforcement Finetuning，ReFT），能够让模型利用CoT进行多步推理之后，通过强化学习让最终输出符合人类偏好。无独有偶，齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程：模型从高斯噪声开始的多步去噪过程也类似一个思维链，逐步「思考」怎样生成一张高质量图像，是一种图像生成领域的「图像链CoT」。与OpenAI不谋而和的是，机器学习与感知（MAPLE）实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程，论文指出利用与人类奖励对齐的强化学习监督训练，能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度，用更少的步数生成高质量图像内容。

12/16/2024 5:44:18 PM

新智元

写给小白的大模型入门科普

什么是大模型？大模型，英文名叫Large Model，大型模型。早期的时候，也叫Foundation Model，基础模型。

11/22/2024 10:45:20 AM

小枣君

Midjourney 下周上线新图像编辑器：让“二创”AI 图片变得更简单

首席执行官 David Holz 昨日在 Discord 平台宣布，将于下周为 Midjourney 推出全新的 AI 图像编辑器工具。用户上传图像后可展开包括放大、缩小、调整角度等多种操作，这些操作不再需要 Discord，只需简单命令即可完成；用户可以使用数字画笔进行修补，进行更精细的修改。此外该 AI 图像编辑器还可以基于上传图像的深度信息生成新图片，保留原始构图和内容不变的情况下，彻底改变纹理、颜色和细节。

10/22/2024 11:51:31 AM

故渊

文生图 AI Midjourney 雄心：7.0 版未来 1-2 月登场、开发新图像编辑器、探索 3D 系统、踏足硬件领域

科技媒体 The Decoder 昨日（9 月 12 日）发布博文，报道称在最近的“Office Hours”活动中，Midjourney 创始人兼首席执行官 David Holz 在 Discord 分享了当前项目的最新进展，并回答了社区的提问。Midjourney 7.0 版本Holz 更新了 Midjourney 7.0 版本时间表，表示将会在未来 1-2 月内发布。让更多人体验 MidjourneyHolz 表示公司并不急于推出新的 AI 模型，而是提高现有技术的易用性，让工具深入融入到专业人士的日常工作中

9/13/2024 7:36:39 AM

故渊

谷歌将重新开放 Gemini 生成人物图像功能，此前因“种族描述不当”引争议

感谢北京时间 29（今）日，据彭博社报道，谷歌宣布将恢复 AI 模型 Gemini 生成人物图像的功能，部分消费者将可以重新使用。谷歌表示，将开始向订阅 Gemini Advanced 套餐的英语用户推出生成人物图像功能。企业也将能够使用该工具，该功能将在未来几天内上线。谷歌产品管理高级总监戴夫・西特伦（Dave Citron）表示，该公司在通过 Imagen 3 生成人物描写方面取得了“重大进展”。“我们一直在努力对产品进行技术改进，并改进了评估集、红队练习和明确的产品原则。当然，Gemini 创建的每张图像都不

8/29/2024 10:26:42 AM

清源

Midjourney 官宣网页版免费用，前谷歌大佬祭出 AI 生图 Ideogram 2.0

Midjourney 一度稳居 AI 生图的第一梯队，甚至是很多人心中的 Top1。但是 Ideogram 2.0 的发布，抢夺了 Midjourney 的荣光，不仅一举拉高了图像生成质量，还打起了价格战。曾经在 AI 图像生成领域无可匹敌的领导者 Midjourney，终于听劝了，上周五推出了网页版图像编辑器。新编辑器巧妙集成了重绘、缩放等核心功能。不仅提高了操作效率，而且使整体交互逻辑更加清晰，对于高频使用 Midjourney 的用户来说，绝对欣喜！今天，Midjourney 宣布，将升级后的新工具向所有人免

8/22/2024 11:27:13 PM

问舟

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

近些年，语言建模领域进展非凡。Llama 或 ChatGPT 等许多大型语言模型（LLM）有能力解决多种不同的任务，它们也正在成为越来越常用的工具。这些模型之前基本都局限于文本输入，但现在也正在具备处理视觉输入的能力。如果能将视觉与语言打通，那么势必能造就多种多样的应用 —— 这实际上也正是当前 AI 技术革命的关键方向。即便现在已有不少研究将大型语言模型扩展到了视觉领域，但视觉与语言之间的连接尚未被彻底打通。举些例子，大多数模型都难以理解空间位置关系或计数 —— 这还需要复杂的工程设计并依赖额外的数据标注。许多视

6/11/2024 2:45:00 PM

机器之心

GPT-4o 再秀神操作，“复现”OpenAI 总裁讲课，网友当真了

OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作，结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致！手部细节、光照全都有，甚至后背上的 Logo 也完全正确。有网友表示：恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃：Holy Cow！从完全破碎的文本到风格一致、拼写正确的写作，只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来，简直就被玩儿疯了，尤其是图像生成这块。比如有网友发现，GPT-4o 在组合任意图像上面就像是打通了任督

5/16/2024 2:56:58 PM

清源

准确率 98%，OpenAI 推出专用 AI 工具：能识别 DALL・E 3 生成的图片

感谢OpenAI 公司今天发布新闻稿，宣布推出专用的 AI 检测工具，能够识别某张图片是否由 DALL・E 3 模型生成，且准确率高达 98%。OpenAI 公司在博文中表示，之所以推出这项新工具，主要是为了帮助研究人员研究内容真实性，此外该公司还宣布加入 C2PA（内容来源和真实性联盟）的指导委员会。C2PA 是一种广泛使用的数字内容认证标准，由包括软件公司、相机制造商和在线平台在内的众多参与者开发和采用，C2PA 可用于证明内容来自特定来源。OpenAI 表示自今年早些时候，在 ChatGPT 和 OpenAI

5/8/2024 7:44:38 AM

故渊

资讯热榜

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快宾州州立大学推出首个人工智能工程学位，抢占教育先机 Meta 新超级智能实验室遭遇离职潮，AI 人才流失引发担忧 DeepSeek刚提到FP8，英伟达就把FP4精度推向预训练，更快、更便宜联合国成立人工智能咨询小组「精而巧」的端侧大模型为何火了？在代理 AI 和物理 AI推动下，全球芯片市场预计将突破 1 万亿美元大关 OpenAI 将推出家长监控功能以应对青少年自杀悲剧

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini 马斯克 AI创作智能体英伟达 Anthropic 论文代码训练算法 AI新词 Stable Diffusion 芯片 LLM 蛋白质开发者腾讯苹果 Claude 生成式 Agent AI for Science 神经网络 3D 机器学习研究生成 xAI 人形机器人 AI视频计算百度 Sora GPU AI设计华为工具大语言模型 RAG 搜索具身智能字节跳动大型语言模型场景深度学习预测视频生成伟达视觉 Transformer AGI 架构亚马逊神器推荐 Copilot DeepMind 特斯拉应用

图像

OpenAI Responses API新增MCP支持与多项功能升级，助力智能体开发

Recraft 获 3000 万美元 B 轮融资，图像生成技术挑战行业巨头

Freepik 发布“F Lite”：一个为版权安全而构建的开放 AI 图像模型

OpenAI 的新 GPT-4o 图像生成技术绝对会改变游戏规则

GPT-4o骗了所有人，逐行画图只是前端特效？！底层架构细节成迷，奥特曼呼吁大家别玩了

刷屏网络后，​ChatGPT 开始屏蔽模仿吉卜力风格的图像生成请求

OpenAI在图片领域站起来了！

Gemini或将新增功能Image to Code 应用亮相AI Studio

Retinex-Diffusion：让图像照明更加自然、细腻、富有层次感。

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

写给小白的大模型入门科普

Midjourney 下周上线新图像编辑器：让“二创”AI 图片变得更简单

文生图 AI Midjourney 雄心：7.0 版未来 1-2 月登场、开发新图像编辑器、探索 3D 系统、踏足硬件领域

谷歌将重新开放 Gemini 生成人物图像功能，此前因“种族描述不当”引争议

Midjourney 官宣网页版免费用，前谷歌大佬祭出 AI 生图 Ideogram 2.0

视觉语言模型导论：这篇论文能成为你进军VLM的第一步

GPT-4o 再秀神操作，“复现”OpenAI 总裁讲课，网友当真了

准确率 98%，OpenAI 推出专用 AI 工具：能识别 DALL・E 3 生成的图片

刷屏网络后，ChatGPT 开始屏蔽模仿吉卜力风格的图像生成请求