数据

手机「自动驾驶」大揭秘！vivo万字综述探讨大模型手机自动化

导言你是否想过，手机能像电影钢铁侠中的智能管家贾维斯那般，一句话就能顺畅自如地完成各种复杂任务。最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品，让曾经的幻想逐渐有了可行性。 vivo 作为行业领跑者，在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT"，能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢，被网友们称作 “i 人救星”。

1/7/2025 1:22:58 PM

机器之心

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

陈丹琦团队又带着他们的降本大法来了——数据砍掉三分之一，大模型性能却完全不减。他们引入了元数据，加速了大模型预训练的同时，也不增加单独的计算开销。在不同模型规模（600M - 8B）和训练数据来源的情况下，均能实现性能方面的提升。

1/7/2025 12:55:00 PM

量子位

AAAI 2025 | IML领域稀疏化视觉Transformer，代码已开源

SparseViT 的主要科研成员来自四川大学吕建成团队，合作方为澳门大学潘治文教授团队。论文：《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》论文链接：：，图像处理变得非常方便。

1/7/2025 12:00:00 AM

机器之心

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law。近日，清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提出一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。采用PRIME方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用8张A100，花费一万块钱左右，不到10天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

1/6/2025 12:46:16 PM

量子位

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

电影《钢铁侠》中，托尼·斯塔克的助手贾维斯（J.A.R.V.I.S.）能帮他控制各种系统并自动完成任务，曾让无数观众羡慕不已。现在，这样的超级智能助手，终于变成现实了！随着多模态大语言模型的爆发式进化，OS Agents横空出世，它们能无缝操控电脑和手机，为你自动搞定繁琐任务。

1/3/2025 3:44:09 PM

量子位

动物版谷歌翻译来了？Nature：用AI解码野性的呼唤！

每一种动物都有其独特的历史。来自加拿大Carleton University的鲸鱼生物学家Shane Gero，花了20年时间试图了解鲸鱼是如何交流的。比如，同一个家族的鲸鱼会发出特定的声音，而不同区域的抹香鲸（Physeter macrocephalus）有自己的「方言」。

1/3/2025 1:00:00 PM

新智元

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

缩放定律的放缓带来的技术路径演变在 2024 年的 NeurIPS 会议上，Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点，尤其集中于 Scaling Law 的观点：「现有的预训练方法将会结束」，这不仅是一次技术的自然演进，也可能标志着对当前「大力出奇迹」方法的根本性质疑。 Ilya 讨论了预训练模型的局限性，预见 AI 系统需要发展出更加接近人类思考方式的推理能力。他强调，为了突破当前的局限并继续提升 AI 的能力，必须寻找新的训练方法。

1/2/2025 2:20:00 PM

机器之心

全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘

刚刚过去的 2024 年是生成式 AI 大发展的一年，我们见证了 OpenAI Sora 的崛起，大模型服务价格的飞速下降，以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。对于身在 AI 领域的工程师和学者们来说，他们看待这一年的观点会有不同吗？

1/2/2025 1:15:00 PM

机器之心

微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

谁能想到，微软在一篇医学领域的论文里，竟然把OpenAI模型的参数全「曝光」了！ GPT-4参数约1.76万亿GPT-4o参数约2000亿GPT-4o mini参数约80亿o1-preview参数约3000亿o1-mini参数约1000亿Claude 3.5 Sonnet参数约1750亿研究人员：参数均为估算值让所有人难以置信的是，GPT-4o系列的参数如此少，mini版甚至只有8B。有网友猜测，4o mini是一个大约有40B参数的MoE模型，其中激活参数为8B。

1/2/2025 1:00:00 PM

新智元

ViT作者飞机上也要读的改进版Transformer论文，花2个小时详细批注解读分享出来

ViT核心作者Lucas Beyer，长文分析了一篇改进Transformer架构的论文，引起推荐围观。他前不久从谷歌跳槽到OpenAI，这次是在飞机上阅读论文并写下了分析。这篇论文被他简写为DiffTranformer，不过不是Sora底层架构的那个Diffusion Transformer，而是不久前来自微软的Differencial Transformer。

12/31/2024 2:30:00 PM

量子位

AAAI 2025 | 用于韦伯区位问题的去奇异性次梯度方法

暨南大学通用机器学习课题组由网络空间安全学院和信息科学技术学院的多名青年教师、博士生、硕士生和本科生共同组成，研究方向包括通用逼近理论、分布外泛化、非凸优化、稀疏学习、深度学习框架的基础模块开发、优化器开发、隐私保护与增强等。自 2024 年 4 月至 12 月，课题组作为第一单位已获得所有 CCF A 机器学习国际顶级会议 ICML（2 篇）、NeurIPS 和人工智能国际顶级会议 IJCAI、AAAI 录用论文共 5 篇。本文第一作者为课题组负责人赖兆荣，通讯作者为博士生李程，其他合作作者为课题组教师吴小天、方良达、陈子良。

12/30/2024 2:00:00 PM

机器之心

港科大开源VideoVAE+，视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE ，提出了一种强大的跨模态的视频变分自编码器（Video VAE），通过提出新的时空分离的压缩机制和创新性引入文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持很好的时间一致性和运动恢复。论文地址：：模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer，同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video，CogvideoX VAE，WF-VAE，CV-VAE，Open Sora，Open Sora Plan, Easy Animate-VAE。什么是 VideoVAE 模型VideoVAE 模型（Video Variational Autoencoder）是一种基于深度学习的生成模型，用于对视频数据进行压缩、重建和生成，讲视频从 RGB 像素空间投影到低维度的 latent 空间。

12/30/2024 1:40:00 PM

机器之心

南大周志华：百万模型进入学件基座系统，很多我们没预期过的事也有可能实现 | MEET 2025

大模型时代，全世界AI从业者追赶OpenAI GPT系列的脚步仍未停歇，但也有人，坚持深耕在国产原创的另一条大模型之路上。南京大学副校长、国际人工智能联合会理事会主席周志华教授，就是其中代表。他提出的“学件范式”，旨在从数据隐私角度着手，通过模型规约的方式构建基座系统，让用户的需求能被自动匹配到合适的模型、模型组合上，安全、可靠地复用他人开发的模型工具。

12/30/2024 12:30:00 PM

量子位

低精度只适用于未充分训练的LLM？腾讯提出LLM量化的scaling laws

论文标题：Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens论文链接：（low-bit quantization）和低比特大语言模型（low-bit LLM）近期受到了广泛的关注，因为有一些研究发现，它们能够以更小的模型规模、更低的内存占用和更少的计算资源，取得与 fp16 或 bf16 精度相当的性能表现。这一发现让低比特语言模型一度被认为是实现模型高效化的一个非常有前景的方向。然而，这一观点受到了腾讯 AI Lab 的挑战。

12/30/2024 10:35:00 AM

机器之心

机器人空间泛化也有Scaling Law！清华新国大新算法框架让机器人操作更加鲁棒

在机器人空间泛化领域，原来也有一套Scaling Law！来自清华和新加坡国立大学的团队，发现了空间智能的泛化性规律。在此基础上，他们提出了一套新颖的算法框架——ManiBox，让机器人能够在真实世界中应对多样化的物体位置和复杂的场景布置。

12/30/2024 10:20:00 AM

量子位

DeepSeek V3“报错家门”：我是ChatGPT

要说这两天大模型圈的顶流话题，那绝对是非DeepSeek V3莫属了。不过在网友们纷纷测试之际，有个bug也成了热议的焦点——只是少了一个问号，DeepSeek V3竟然称自己是ChatGPT。甚至让它讲个笑话，生成的结果也是跟ChatGPT一样：加之DeepSeek V3这次爆火的一个亮点，就是训练只花了557.6万美元的成本。

12/30/2024 9:25:00 AM

量子位

超越ControlNet++！腾讯优图提出动态条件选择新架构

超越ControlNet ，让文生图更可控的新框架来了！腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl，直接将多模态大语言模型（MLLM）的推理能力集成到文本生成图像（T2I)）任务中。而且还提出了一种新颖、高效的多控制适配器，可以自适应地选择不同的条件，从而实现动态多控制对齐。

12/30/2024 8:50:00 AM

量子位

CPO薪资倒挂CEO，创业公司薪酬情况大起底

初创公司里，平均薪酬最高的不是CEO？你还真别说，事实上，CEO薪酬不仅远远落后CPO（首席产品官，Chief Product Officer）。甚至COO（首席运营官，Chief Operating Officer）、CTO（首席技术官，Chief Technology Officer）都比CEO要高。

12/30/2024 8:10:00 AM

量子位

资讯热榜

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快宾州州立大学推出首个人工智能工程学位，抢占教育先机 Meta 新超级智能实验室遭遇离职潮，AI 人才流失引发担忧 DeepSeek刚提到FP8，英伟达就把FP4精度推向预训练，更快、更便宜联合国成立人工智能咨询小组 OpenAI 将推出家长监控功能以应对青少年自杀悲剧「精而巧」的端侧大模型为何火了？在代理 AI 和物理 AI推动下，全球芯片市场预计将突破 1 万亿美元大关

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画谷歌机器人数据大模型 Midjourney 开源智能用户 Meta 微软 GPT 学习技术图像 Gemini 马斯克 AI创作智能体英伟达 Anthropic 论文代码训练算法 AI新词 Stable Diffusion 芯片 LLM 蛋白质开发者腾讯苹果 Claude 生成式 Agent AI for Science 神经网络 3D 机器学习研究生成 xAI 人形机器人 AI视频计算百度 Sora GPU AI设计华为工具大语言模型 RAG 搜索具身智能字节跳动大型语言模型场景深度学习预测视频生成伟达视觉 Transformer AGI 架构亚马逊神器推荐 Copilot DeepMind 特斯拉应用