GPT-4o

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

一夜之间，来自中国的大模型刷屏全网。 DeepSeek-V3，一个拥有671B参数的MoE模型，吞吐量每秒高达60 token，比上一代V2直接飙升3倍。在多项基准测试中，V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

12/27/2024 10:27:58 AM

新智元

豆包升级了“眼睛”，看APP截图就能写代码了！超低价让多模态AI普惠

豆包的“眼睛”升级了，现在让它看一眼APP截图，就能直接给你生成代码！话不多说，我们直接给它上一个难度。例如我们先随机截取一张网站的图片：再来到火山方舟的大模型广场，pick一下最新的Doubao-vision-pro-32k版本：（PS：该模型也可以在豆包APP中体验）然后把刚才的截图“喂”给豆包，并附上一句简单的Prompt：帮我写代码，克隆这个APP。

12/20/2024 7:10:00 AM

ChatGPT的高级语音模式终于上线了：中文一开口，就暴露了「歪果仁」身份

OpenAI 的「Her」终于向部分人群开放了。今年 5 月，OpenAI 在「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。现在，OpenAI 宣布向一小部分 ChatGPT Plus 用户开放 ChatGPT 的高级语音模式，让用户首次获得 GPT-4o 的超现实音频响应。这部分用户将在 ChatGPT 应用程序中收到提醒，并收到一封电子邮件，其中包含有关如何使用该应用程序的说明。「自从我们首次演示先进的语音模式以来，我们一直致力于加强语音对话的安全性和质量，准备

7/31/2024 5:08:00 PM

机器之心

从人机交互角度，聊聊最近爆火的ChatGPT-4o

近日 ChatGPT-4o 的发布会应该是未来几天 AI 圈子最有热度的话题了，其中几条更新其实可以从人机交互的角度解读一下。首先我们还是先来看看 GPT-4o 更新的主要内容（只关注交互角度解读可跳过）：多模态交互能力：ChatGPT 4.0 支持图像和文本输入，并能输出文本，具备多模态交互的能力。这意味着它可以理解图像内容，并生成字幕、分类和分析等操作。自然语言理解能力提升：在自然语言理解方面有显著提升，这使得 ChatGPT 4.0 能够更好地理解用户的输入，并根据用户的语境提供更准确的回答。上下文长度增

5/17/2024 12:38:19 AM

杜昭⁰

18个月，OpenAI这支团队搞出了GPT-4o

奥特曼：如果没有他（Prafulla Dhariwal）的远见、才华、信念和决心，就不会有 GPT-4o。「GPT-4o 的诞生离不开 @prafdhar 的远见、才华、信念和长期以来的坚定决心。正是这些努力（以及许多其他人的工作）促成了我希望会成为计算机使用方式革命的成果。」在 OpenAI 发布新一代旗舰生成模型 GPT-4o 后的两天，OpenAI CEO 奥特曼对参与该项目的其中一位负责人评价道。紧随其后，联合创始人 Greg Brockman 表示：「GPT-4o 是整个团队努力的结果。特别要感谢 @pr

5/16/2024 3:01:00 PM

机器之心

OpenAI 发布新旗舰模型GPT-4o！实时交互犹如真人，免费开放

大家好，这里是和你们一起探索 AI 的花生。5 月 14 日凌晨 OpenAI 举办了首次「春季新品发布会」，会上 OpenAI 首席技术官 Mira Murati 从 3 方面介绍了此次更新升级的要点，并实时演示了 OpenAI 最新的旗舰模型 GPT-4o 相关功能，展示了其强大的实时多模态交互性能，今天我们就一起来看看此次发布会的具体内容。OpenAI 首席技术官 Mira Murati 在主持 OpenAI 春季新品发布会一、最新旗舰模型 GPT-4o 此次发布会最大的亮点就是新旗舰模型 GPT-4o 的

5/16/2024 7:46:25 AM

夏花生

免费GPT-4o来袭，音频视觉文本实现「大一统」

作者 | 赖文昕今天凌晨，即北京时间5月14日1点整，OpenAI 召开了首场春季发布会，CTO Mira Murati 在台上和团队用短短不到30分钟的时间，揭开了最新旗舰模型 GPT-4o 的神秘面纱，以及基于 GPT-4o 的 ChatGPT，均为免费使用。此前，有传言称 OpenAI 将推出 AI 搜索引擎，旨在与谷歌明天举办的 I/O 开发者大会一较高下，一度引发了公众的热烈讨论。不过 Sam Altman 随后在 X（原推特）上表示，要展示的并非 GPT-5 或搜索引擎，而是一些令人期待的创新成果，他本人对此充满期待，认为其像魔法一样神奇。

5/14/2024 3:49:00 PM

赖文昕

OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

ChatGPT 问世才 17 个月，OpenAI 就拿出了科幻电影里的超级 AI，而且完全免费，人人可用。太震撼了！当各家科技公司还在追赶大模型多模态能力，把总结文本、P 图等功能放进手机里的时候，遥遥领先的 OpenAI 直接开了大招，发布的产品连自家 CEO 奥特曼都惊叹：就像电影里一样。5 月 14 日凌晨，OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App，并展示了一系列新能力。这一次，技术颠覆了产品形态，OpenAI 用行动给全世界的科技公司上了一课。今天的主持人

5/14/2024 7:32:00 AM

机器之心

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ ChatGPT 语音功能升级，实时翻译对话更自然流畅支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊