文章列表

分类

标签

阶跃星辰推出国内首个千亿参数端到端语音大模型“ Step-1o”

Step-1o 支持语音、文本等混合形式的输入和输出，可以快速反应并随时打断，它也能深度理解和模仿音色、韵律、方言、个性化的口语表达习惯等声音特征。

12/14/2024 5:44:41 PM

浩渺

26 岁 OpenAI“吹哨人”Suchir Balaji 自杀身亡，曾质疑 ChatGPT 版权问题

据《印度快报》今日报道，印度裔美国人、前 OpenAI 研究员 Suchir Balaji 于 11 月 26 日在旧金山的公寓中去世，法医判定死因自杀，未发现外部侵害迹象。

12/14/2024 2:02:35 PM

清源

DeepSeek-VL2 AI 视觉模型开源：支持动态分辨率、处理科研图表、解析各种梗图等

DeepSeek 官方公众号昨日（12 月 13 日）发布博文，宣布开源 DeepSeek-VL2 模型，在各项评测指标上均取得了极具优势的成绩，官方称其视觉模型正式迈入混合专家模型（Mixture of Experts，简称 MoE）时代。

12/14/2024 10:20:38 AM

故渊

OpenAI 联合创始人 Ilya Sutskever 谈“超智能 AI”：将具备推理能力，会更加不可预测

他表示，超智能 AI 系统将真正具备 AI 智能体的特性，而非当前我们所说的“仅有微弱代理特征”的 AI。它们将具备推理能力，因此变得更加不可预测。

12/14/2024 9:44:44 AM

清源

Meta 被曝敦促美加州法院阻止 OpenAI 转变为营利性企业，力挺马斯克

据《华尔街日报》今日报道，Meta正要求美加州总检察长阻止 OpenAI 转型为营利性企业的计划，标志其在硅谷两大AI巨头之间的争斗之间站在马斯克一边。

12/14/2024 9:22:13 AM

清源

OpenAI 再喊话马斯克：你无法靠诉讼实现 AGI

今天的 OpenAI 更新通过提供相关证据反击了马斯克的叙述，表明实际上是马斯克在公司早期试图掌握控制权，而非阿尔特曼，这也是针对马斯克近期关于阿尔特曼集权的诉讼主张的一次直接回应。

12/14/2024 7:40:02 AM

清源

迈向“万能应用”：OpenAI 推出 Projects，功能全家桶打造 ChatGPT 新交互方式

Projects 功能并非技术上的重大突破，而是侧重于用户体验的改进。它将 ChatGPT 的各项功能整合到一起，方便用户进行写作、研究、编程、网络搜索等任务，并为未来执行多步骤任务奠定了基础。

12/14/2024 6:44:41 AM

故渊

使用小型视觉语言模型（VLM）进行物体识别与计数

今天的重点是一个具有无数实际应用的功能：在边缘设备（如智能手机、物联网设备和嵌入式系统）上运行小型视觉语言模型（VLM）。这些模型在识别和指出物体方面越来越出色。具体来说，它们在检测制造缺陷、计数可用停车位或发现癌细胞方面表现优异。

12/13/2024 3:53:58 PM

二旺

随着ChatGPT等AI聊天机器人以及基于大语言模型的应用席卷全球，越来越多的公司开始将这种技术引入机器人控制。然而，最新研究发现，黑客可以通过自动化方式轻松绕过AI系统的安全防护，甚至能够操控机器人执行极具破坏性的任务，例如控制自动驾驶系统撞向行人，或者将机器狗引导到敏感地点实施爆炸任务。从文本到行动：大模型赋能机器人大语言模型的核心功能类似于智能手机的“自动补全”，通过分析用户输入内容预测下一步操作。

12/13/2024 3:41:46 PM

佚名

微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining

OpenAI谷歌天天刷流量，微软也坐不住了，推出最新小模型Phi-4。参数量仅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。数学能力上，Phi-4在美国数学竞赛AMC 10/12上超过了GPT-4o等一众大模型，分数冲上90。

12/13/2024 2:03:44 PM

量子位

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗？从表面上看，这两种方法似乎各有侧重：扩散模型专注于通过迭代的方式逐步去除噪声，将数据还原成清晰的样本。而流匹配则侧重于构建可逆变换系统，目标是学习如何将简单的基础分布精确地映射到真实数据分布。

12/13/2024 12:07:15 PM

机器之心

ChatGPT「睁眼」了！OpenAI版「Her」满血上线，还有圣诞限定彩蛋

OpenAI直播第六天，可以说是把圣诞氛围拉满了。在高级语音模式中，不仅加入了视频聊天，而且还有限定版圣诞老人语音。这就意味着，通过设备共享摄像头摄取到的内容，我们就可以和「Her」实时视频对话了！

12/13/2024 11:22:01 AM

新智元

谷歌成功狙击 OpenAI：ChatGPT Vision 深夜紧急上线，OpenAI 还能守住江山吗

昨天谷歌放大招发布Gemini 2并提供免费服务后，OpenAI 今天（12天发布会Day6）紧随其后，推出了鸽了很久的 ChatGPT Vision 功能，为用户带来更丰富的多模态交互体验。除了原有的高级语音模式外，现在你可以与 ChatGPT 进行视频通话、共享屏幕，也可以与圣诞老人实时互动！ 11分钟发布会乏善可陈，感觉有点拉先说重点：ChatGPT Vision 有哪些新功能？

12/13/2024 9:40:00 AM

opencat

在大模型时代，智能化推荐怎么做呢？

自2022年11月30日OpenAI发布ChatGPT以来，大模型技术掀起了新一轮人工智能浪潮。 ChatGPT在各个领域（如人机对话、文本摘要、内容生成、问题解答、识图、数学计算、代码编写等）取得了比之前算法好得多的成绩，很多方面都超越了人类专家的水平，特别是人机对话具备了一定的共情能力，这让AI领域的工作者和普通大众都相信AGI（Artificial General Intelligence，通用人工智能）时代马上就要来临了。大模型除了对话能力达到了跟真正互动的水准，更厉害的是当模型参数规模达到一定量（100B ，这里B是billion，十亿的意思）时，会涌现出新的能力，即大模型具备举一反三、任务分解、逻辑推理、解决未知任务的能力，这在之前的机器学习范式中是从没见到过的。

12/13/2024 8:54:42 AM

刘强

生成式 AI 的版权困境：新线索表明 OpenAI 用游戏内容训练 Sora 视频生成模型

OpenAI 的视频生成 AI 模型 Sora 所用训练数据来源一直扑朔迷离，种种迹象表明，其中可能包含来自 Twitch 直播和游戏攻略视频。这一发现引发了关于版权和法律风险的讨论。

12/13/2024 8:18:34 AM

故渊

为什么ETL和AI不是竞争对手，而是数据未来的合作伙伴

译者 | 晶颜审校 | 重楼去年，大模型经历了爆炸式增长，进一步完善了人工智能解决问题的能力。今年，随着炒作的热度消退，大模型进入了更深层次的阶段，旨在重塑各行业的基础逻辑。在大数据处理中，大模型与传统ETL （即提取Extract、转换Transform、加载Load）过程之间的冲突引发了新的争论。

12/13/2024 8:00:00 AM

晶颜

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形

大模型“套壳”事件防不胜防，有没有方法可以检测套壳行为呢？来自上海AI实验室、中科院、人大和上交大的学者们，提出了一种大模型的“指纹识别”方法——REEF（Representation Encoding Fingerprints）。在不改变模型性能的前提下，利用REEF就可以精准识别未经授权的后续开发行为。

12/13/2024 7:39:22 AM

OpenAI版《Her》全量来袭：实时视频对话，你每个动作AI都看得见

OpenAI“双十二”的*第六天，依旧重磅来袭——《Her》一样的视频通话功能，全量开发！而且这次的版本名字也是非常应景，叫做Santa Mode（圣诞模式）。现在（直到月底），你可以随时开启跟AI的实时对话，点击“雪花”就能让ChatGPT用圣诞老人的调调跟你对话：除此之外，你现在还可以打开摄像头，让ChatGPT睁开“眼睛”，边看边聊！

12/13/2024 7:35:40 AM

资讯热榜

OpenAI发布企业AI浪潮领先指南：十大核心洞察 OpenAI 挥剑指向 LinkedIn，将于2026年推出 AI 招聘平台华纳兄弟发起 “反击战”：起诉AI图像生成公司Midjourney 谷歌新 AI “Nano Banana” 一周吸引千万用户，图像编辑轻松搞定！ OpenAI 推出 AI 招聘平台，计划与 LinkedIn 竞争玩出新花样！教你用Lovart + Nano Banana无脑批量制作知识卡片海报！ KakaoTalk将集成ChatGPT功能韩国聊天应用迎来AI升级 MIT 报告揭示 95% 企业 GenAI 项目失败，批评者称其过于简化

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能 Meta 用户微软 GPT 学习技术图像 Gemini 马斯克智能体 AI创作 AI新词 Anthropic 英伟达论文训练代码算法 LLM Stable Diffusion 芯片腾讯蛋白质开发者 Claude 苹果 AI for Science Agent 生成式神经网络机器学习 3D 研究 xAI 生成人形机器人 AI视频计算百度 Sora 工具 GPU 华为 RAG 大语言模型 AI设计字节跳动具身智能搜索大型语言模型场景深度学习视频生成预测 AGI 视觉伟达架构 Transformer 神器推荐亚马逊特斯拉编程 Copilot MCP