大模型
学术打假!清华上交大研究颠覆认知:强化学习竟是大模型推理的"绊脚石"
【研究颠覆】清华大学与上海交通大学联合发表的最新论文,对业界普遍认为"纯强化学习(RL)能提升大模型推理能力"的观点提出了挑战性反驳。 研究发现,引入强化学习的模型在某些任务中的表现,反而逊色于未使用强化学习的原始模型。 【实验验证】研究团队在数学、编码和视觉推理三大领域进行了系统性实验:数学任务:在GSM8K、MATH500等基准测试中,RL模型在低采样次数(k值)下准确率提升,但在高k值时问题覆盖率显著下降编码任务:RLVR训练模型在HumanEval 等测试中单样本pass@1分数提高,但在高采样数(k=128)时覆盖率下降视觉推理:Qwen-2.5-VL-7B模型在多模态任务中表现一致,RL未改变其基本问题解决策略【学界争议】研究结果引发学界激烈讨论:支持方认为RL提高了采样效率但限制了推理能力开发反对方指出可能是奖励结构缺陷而非RL本身问题中立观点建议结合蒸馏等其他方法增强推理【本质思考】研究团队提出关键区分:能力:模型解决问题的潜质与逻辑链条效率:在给定能力范围内得出答案的速度与稳定性强化学习更像是"能力调控器"而非"能力创造器",它能让模型更擅长做已知的事,但难以开发新的推理路径。
4/23/2025 2:00:43 PM
AI在线
微软发布全球首个1-bit大模型:内存缩至0.4 GB,参数只有0和±1,性能追平全精度
微软的BitNet b1.58 2B4T 的技术报告悄然上线。 其实在开源社区里,关于极致低比特量化的大模型早就有各种传闻,这次微软研究院终于亮出底牌。 ——全球首个原生1-bit、规模高达20亿参数的开源大模型。
4/23/2025 12:11:40 PM
文摘菌
谷歌考虑与安卓制造商签署Gemini人工智能独家合作协议
在最近的一场反垄断审判中,曝光出谷歌的内部文件显示,该公司曾在去年考虑与多个安卓手机制造商,如三星等,达成独家合作协议。 这些协议不仅涉及谷歌的搜索应用程序,还包括其最新推出的 Gemini 人工智能应用和 Chrome 浏览器。 这一消息无疑引发了行业的广泛关注,尤其是在当前反垄断监管日益严格的背景下。
4/23/2025 11:00:53 AM
AI在线
Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?
昨天一早,Meta 了放出自家用了 20 万显卡集群训练出的 Llama 4 系列模型,其中包括 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。 消息一出,直接引爆了大模型圈。 Meta 还特意强调,这些模型都经过了大量未标注的文本、图像和视频数据的训练,视觉理解能力已经到了 Next level,有种在大模型领域一骑绝尘的既视感。
4/23/2025 10:44:00 AM
郑佳美
谷歌 Gemini 推出视频分析功能,能准确识别视频拍摄场所
近日,科技媒体 Android Authority 报道称,谷歌最新的 Gemini 聊天机器人引入了一项引人注目的新功能 —— 视频分析。 用户现在可以轻松上传视频并提问,Gemini 会基于视频内容进行智能分析,回答相关问题。 这一创新功能无疑为视频内容的处理带来了新的可能性,吸引了广大用户的关注。
4/22/2025 5:00:42 PM
AI在线
初探谷歌 Gemini 视频解析功能,AI 准确识别视频拍摄场所
科技媒体 Android Authority 今天(4 月 22 日)发布博文,报道称谷歌 Gemini 聊天机器人被发现新增视频分析功能。用户可上传视频并提出相关问题,Gemini 能够基于视频内容进行精准分析。
4/22/2025 3:37:04 PM
故渊
力压群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精确引用
最新报告指出,谷歌旗下的 Gemini 2.5 Pro 模型能准确解析 PDF 文档的视觉结构,实现精准的视觉引用功能,成为首款能完全理解 PDF 布局的 AI 模型。
4/22/2025 11:02:14 AM
故渊
可信AI技术获中国电子学会科技进步一等奖,蚂蚁数科助力破解大模型应用“安全可信”难题
4月19日,2024年度中国电子学会科学技术奖在第十八届中国电子信息年会揭晓并颁奖,由清华大学、北京中关村实验室和蚂蚁集团等单位共同完成的联合项目《高效协作的互联网动态行为安全可信关键技术与应用》荣获科技进步奖一等奖。 近年来,网络环境日益复杂,恶意流量攻击和隐蔽未知应用风险在互联网中泛滥,如何构建一个更安全可信的互联网环境,成为学术界和产业界的共同追求。 由清华大学、北京中关村实验室及蚂蚁集团等联合提出的“高效协作的互联网动态行为安全可信关键技术”,创新提出了分层传递和高效求解的智能协作体系技术思路,通过模型表达、知识共享和应用支撑,在实现安全信息获取、传递和协作的同时,显著提升了互联网应对未知应用风险的能力。
4/21/2025 9:47:00 AM
新闻助手
银行科技转型加速,大模型应用深入核心业务
随着银行业在数字化型中面临的挑战与压力日益加大,越来越多的银行开始将大模型技术融入到核心业务中,而不仅仅停留在简单的聊天机器人应用上。 最新的财报数据显示,国内一些主要银行在科技投入和大模型应用方面取得了显著进展,但同时也显露出投入的分化趋势。 根据钛媒体 App 对十家主要银行的分析,包括六大国有银行及几家股份制银行,发现其中六家银行的科技投入出现了缩减。
4/18/2025 5:00:39 PM
AI在线
6周搞定18个月的工作量,爱彼迎不满老工具,暴力循环大模型怒迁代码,效果出奇好,怎么回事?谷歌亚马逊也做过类似的事
编辑 | 云昭Anthropic首席执行官Dario时不时就会出来发声,声称人工智能即将取代人工编码,或者抛出一个惊人的数字,预测在短短6个月内将有90%的编码工作将被AI取代。 这种措辞无疑有夸大的成分,但这里想说的是,这并非空穴来风,或许6个月内AI不会取代90%的程序员,但取代90%的编程工作不无可能! 因为企业接纳和适配大模型的速度远比我们想象得要快!
4/18/2025 4:05:39 PM
云昭
谷歌的“双子星”,正在围剿一众大模型
编辑 | 云昭继昨天凌晨OpenAI推出满血o3、o4-mini之后,没想到谷歌迈着“LLM王者”的步伐给出了自家的模型SOTA研究Gemini2.5 Flash。 如果说o3主打的是“干实事”,那么谷歌这次的新发布则是告诉我们:什么是“成本可控”的极致性价比。 这次的发布以后立马引来一众开发者的讨论,不过这次不是负面的,而是全面的好评。
4/18/2025 3:53:03 PM
云昭
华晨宝马与字节跳动火山引擎合作,推动AI赋能汽车营销
近日,华晨宝马领悦数字信息技术有限公司(“领悦”)与字节跳动旗下火山引擎达成合作,双方将在人工智能(AI)技术的帮助下创新汽车营销服务。 此次合作通过AI技术实现精准的产品匹配与购车建议,优化内容引导,提升用户购车体验及经销商运营效率。 宝马集团大中华区总裁高翔表示,AI是宝马打造更智能、贴心出行解决方案的关键,正在加速融入研发、生产、供应链、产品、服务及运营各个环节。
4/18/2025 3:00:39 PM
AI在线
谷歌 Gemini 2.5 Flash 混合推理 AI 模型上线:性能成本双优
谷歌公司昨日(4 月 17 日)发布公告,宣布在 Google AI Studio 和 Vertex AI 中,以 Gemini API 的方式推出 Gemini 2.5 Flash Preview 预览 AI 模型。
4/18/2025 2:59:20 PM
故渊
知识图谱与其它知识库的关系
知识图谱与传统知识库:解构数据连接的哲学传统企业数据库和知识库长期以来一直被当作信息的仓库,它们好比一个个分隔的抽屉,每个抽屉里都整齐地存放着特定类型的信息。 企业习惯了这种存储方式,却很少思考:我们真的需要将信息放在不同的抽屉里吗? 知识图谱打破了这种传统思维,它将信息视为一张巨大的网络——每条信息都是网络中的一个节点,节点之间通过各种关系连接起来。
4/18/2025 12:49:58 PM
大数据AI智能圈
智谱Z基金出资3亿支持全球开源社区 北京追加投资2亿元
北京市人工智能产业投资基金宣布在去年已有投资基础上,继续追加投资智谱(Z.ai)2亿元人民币,支持智谱的开源模型研发与开源社区生态建设。 智谱是基金成立以来投资的第一家 AI 大模型企业,也是目前成长最快的企业。 智谱在包括文本、推理、语音、图像、视频、代码等在内的模型能力上有全面积累,商业化布局完善,拥有超过百万规模的开发者社区和企业用户。
4/18/2025 12:01:21 PM
AI在线
360织语正式升级为360智语 并推出超级智能助理智小语
近日,三六零安全科技股份有限公司(简称“360”)宣布其旗下智能业务协同平台“360织语”正式升级为“360智语”,并在发布会上提出了“AI重构协同方式,让复杂工作简单点”的全新品牌理念。 据360数智化集团产品总监廖百成介绍,360智语采用“两个底座 五大能力”的产品架构,其中人工智能服务底座负责大模型的全生命周期管理,确保模型的专业性;通讯连接底座则统一归集了消息、应用、门户、会议、文档等协作功能,构建了智能协同交互的“超级入口”。 值得一提的是,360智语还引入了全新的Agent智能体平台,作为平台的全新引擎,与业务应用深度融合、智能调度,助力大型政企重构业务流程,实现复杂工作的简单化。
4/18/2025 11:01:48 AM
AI在线
腾讯开启史上最大就业计划,三年新增 28000校招岗位,今年六成面向技术人才
4月17日,腾讯宣布启动史上最大就业计划,三年内将新增 28000个实习岗位并加大转化录用,其中仅 2025年,就将迎来 10000名校招实习生,有六成面向技术人才开放。 腾讯方面表示,今年开放的校招实习岗位涵盖技术、产品、设计、市场、职能等五大类70余种岗位,包括大模型、研发、算法、市场、策划、运营、销售、美术等多个岗位职能。 同时,在大模型加速落地的背景下,腾讯加大了人工智能、大数据、云计算、游戏引擎、数字内容等技术类岗位的招聘力度,技术类岗位“扩招”力度空前,占比超60%。
4/17/2025 6:17:00 PM
新闻助手
从思考到行动:大模型自主工具调用能力的深度实现
本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导,博士生韩槿一,硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。 但是,多数主流模型仍在基础问题上犯错,复杂四则运算计算失误,简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。
4/17/2025 10:43:00 AM
机器之心
资讯热榜
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
AI绘画
DeepSeek
数据
模型
机器人
谷歌
大模型
Midjourney
智能
开源
用户
学习
GPT
微软
Meta
图像
AI创作
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
芯片
代码
生成式
英伟达
腾讯
神经网络
研究
计算
Anthropic
3D
Sora
AI for Science
AI设计
机器学习
开发者
GPU
AI视频
华为
场景
预测
人形机器人
百度
苹果
伟达
Transformer
深度学习
xAI
模态
字节跳动
Claude
大语言模型
搜索
具身智能
驾驶
神器推荐
文本
Copilot
LLaMA
算力
安全
视觉
视频生成
干货合集
训练
应用
大型语言模型
科技
亚马逊
DeepMind
特斯拉
智能体