AIGC宇宙 AIGC宇宙

大模型

Amazon重磅新作SimRAG:让大模型“自我进化”,轻松适配专业领域问答任务

在大模型技术飞速发展的今天,通用大模型在日常对话、内容创作等场景中已展现出卓越能力,但当面对医学、科学、计算机等专业领域时,却常常“力不从心”。 分布偏移导致模型认知与领域数据脱节,高质量领域数据稀缺推高训练成本,传统RAG技术又难以精准捕捉领域信息——这些痛点成为大模型落地专业场景的关键阻碍。 而Amazon在2025年NAACL会议上发表的SimRAG(Self-Improving Retrieval-Augmented Generation) 框架,为解决这些问题提供了全新思路。
10/30/2025 8:57:54 AM
Goldma

从反馈中学习:强化学习如何提升百晓生问答精准度

第一部分:引言在人工智能技术飞速发展的今天,智能问答系统已成为连接信息与用户的重要桥梁,它们不仅重塑着人机交互方式,更在提升服务效率、优化知识获取路径等方面展现出巨大潜力。 在此背景下,"百晓生"作为一款基于RAG(检索增强生成)与外挂知识库的大型语言模型(LLM)驱动的问答产品,专注于为上门工程师提供精准的质检知识答疑服务。 经过一年的持续迭代与优化,该产品已从最初的10%小流量实验,逐步开放至全国范围,目前每日稳定为超过3000名工程师提供支持,连续多周问答准确率保持在90% 。
10/30/2025 1:22:00 AM
车天博、李俊波、李莹莹

抖音副总裁李亮:AI 技术助力谣言治理,构建可信平台环境

近日,央视社会与法频道发布了一则视频,讨论了人工智能(AI)在假新闻制造中的作用。 对此,抖音集团副总裁李亮发表了看法。 他指出,AI 和算法同样是工具,虽然 AI 使得谣言的制造变得更加容易,但抖音也在利用 AI 技术来治理谣言。
10/29/2025 3:06:47 PM
AI在线

大模型也需要「自知之明」:KnowRL教会AI识别知识边界,推理能力反超SFT

今天给大家分享一篇刚出炉的大模型研究——《KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality》。 这篇论文提出的"知识边界学习"机制解决了一个特别棘手的问题:为什么模型参数越大反而越容易一本正经地胡说八道? 论文PDF可以直接戳这里下载: "推理-幻觉"两难?
10/29/2025 2:11:00 AM
一度

中小企业AI落地的算力“最优解”:一台插电即用的Mac mini

今天来聊下中小企业大模型应用落地的一些市场观察。 年初到现在,加起来聊过的两百来家企业中,约摸八九成都是年营收过亿,或者从规模上看,公司人数往往都在大几百人以上。 在新技术应用的初期,预算相对充足的企业中先行先试,很符合一般规律。
10/28/2025 9:32:36 AM
韦东东

大模型在具身推理上「翻车」了?4496 道题全面揭示短板

祁煜,2023年本科毕业于北京大学信息科学技术学院。 目前为美国Northeastern University在读博士生,研究方向为机器人与机器学习, 具身智能, 在 CVPR、ICML、CoRL 等顶级会议中发表过论文。 具身智能是近年来非常火概念。
10/28/2025 9:16:38 AM

谷歌地球整合 Gemini,大模型加持可识别风暴与干旱风险

谷歌正加速为其地球可视化平台注入 AI 能力。 最新消息显示,Google Earth 现已整合 Gemini 大模型,用户可通过自然语言对话直接与地球 AI 互动,实现如“识别风暴威胁”“分析干旱风险社区”等复杂地理推理任务。 据悉,这一升级基于谷歌今年7月推出的地理空间推理(Geospatial Reasoning)模型,并将多种地球 AI 能力联动整合——包括天气预报、卫星图像分析和人口分布数据等。
10/27/2025 5:51:26 PM
AI在线

LLM近一半回答在扭曲真相!ChatGPT、Gemini,全部顶流模型统统中招!BBC研究:AI系统性错误把媒体拖下水,信任滑坡

编辑 | 云昭 相信大家都碰到过类似这种情况,当你问 ChatGPT 或 Copilot:“最近 XXX 大火的新闻,后来进展怎么样了? ”你得到的,可能是一篇语气权威、逻辑完整的摘要。 但如果你追问一句:“这些信息来自哪?
10/27/2025 1:59:34 PM
云昭

AI人格分裂实锤!30万道送命题,撕开OpenAI、谷歌「遮羞布」

实锤! LLM也有自己的「价值观」? 想象一下,你让AI帮你做一个商业计划,既要「赚钱」,又要「有良心」。
10/27/2025 9:08:00 AM

企业级 RAG 系统实战:10 个项目踩过的坑(附代码工程示例)

25 年以来写了 55 篇技术 Blog,字数也累计超过 50 万字。 每篇内容背后都是几十甚至上百个小时的项目工程实践的经验提炼,虽然原创性没话说,但还是产出效率太低,以及也难免受限于个人的经验和水平。 So,从这篇开始,我会把日常闲暇时观摩的一些海外优质内容整理和加工后,附上自己的不同观察和思考也通过文章或者视频的形式发布出来,给各位做个参考。
10/24/2025 3:52:19 PM
韦东东

告别“模型军备竞赛”:专业化小模型正成为企业AI落地的务实之选

但规模大并不总是意味着更好,因为规模大通常意味着复杂度增加、灵活性降低。 渐渐地,企业开始意识到,万亿参数模型并不总是其业务的最佳解决方案,并非所有AI解决方案都需要一个巨型大语言模型,更专注的方法有望带来更好的成果。 针对相关数据的特定任务进行调整的小型专用模型正日益受到青睐。
10/24/2025 2:21:34 PM
Ilia Badeev

均值至上假繁荣!北大新作专挑难题,逼出AI模型真本事

当强化学习(RL)成为大模型后训练的核心工具,「带可验证奖励的强化学习(RLVR)」凭借客观的二元反馈(如解题对错),迅速成为提升推理能力的主流范式。 从数学解题到代码生成,RLVR本应推动模型突破「已知答案采样」的局限,真正掌握深度推理逻辑——但现实是,以GRPO为代表的主流方法正陷入「均值优化陷阱」。 这些基于均值的优化策略,过度聚焦高概率输出序列,却忽略了「低概率但高信息密度」的推理路径:模型训练早期就会出现熵坍缩,过早丧失探索能力;面对全错的难题时,优势函数直接归零,模型在薄弱环节完全无法学习。
10/24/2025 1:04:00 PM

揭秘大模型的魔法:从零实现一个简化版的GPT 模型

大家好,我是写代码的中年人! 今天我们结合代码从零实现一个简化版 GPT 模型。 近年来,大语言模型席卷了人工智能领域,从 ChatGPT 到 LLaMA,它们以惊人的语言理解和生成能力改变了我们与机器交互的方式。
10/24/2025 10:34:55 AM
写代码的中年人

Kimi k2性能被赞超越 GPT-5,月之暗面再获数亿美元重磅融资

据ZFinance消息, 国内大模型明星创业公司月之暗面(Moonshot AI)近日传出重磅消息,据 ZF 获悉,该公司即将完成新一轮数亿美元的融资。 此次融资距离月之暗面公开披露的上一轮约3亿美元融资仅过去不久(上一次公开信息为2024年8月),显示出资本市场对该公司的信心再次高涨。 这家曾被誉为“中国最受期待的大模型公司”之一的企业,在今年初曾一度因 DeepSeek 的爆发而显得沉寂,其主力产品 Kimi 几乎淡出公众视线。
10/24/2025 9:41:39 AM
AI在线

田渊栋被裁后新offer排到法国!原来Llama 4.5训完后被卸磨杀驴了

硅谷真是干啥都迅猛啊! 裁员也是……量子位刚刚从Meta一线获悉,田渊栋前脚刚发了推文说自己被裁,后脚就被解除了公司内部各种权限——嘿,亚历山大王的刀,就是这么快。 这也是这次裁员中最具争议的地方,“在Meta工作已超过十年的田渊栋和他的组员,整组被一锅端了”,这是为什么?
10/24/2025 9:31:42 AM

大模型+矢量数据库:为AI智能体构建内存架构

译者 | 陈峻审校 | 重楼目前,数据科学家们已经熟悉了那些以不同的文件格式作为处理输入与输出的各类机器学习模型。 在大多数情况下,人工智能智能体(AI agent)都需要通过维护上下文,从人机交互中学习,以及按需访问其他模型无法处理的海量知识存储。 这无疑需要庞大的内存架构。
10/24/2025 8:00:00 AM
陈峻

大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘

大模型在强化学习过程中,终于知道什么经验更宝贵了! 来自上海人工智能实验室、澳门大学、南京大学和香港中文大学的研究团队,最近提出了一套经验管理和学习框架ExGRPO——通过科学地识别、存储、筛选和学习有价值的经验,让大模型在优化推理能力的道路上,走得更稳、更快、更远。 实验结果显示,与传统的在线策略RLVR(基于可验证奖励的强化学习)方法相比,ExGRPO在不同基准上均带来了一定程度的性能提升。
10/23/2025 2:05:35 PM

大模型时代的双刃剑:RAG 与 微调 怎么选?

上周在一个技术交流会上,听到两位技术总监争得面红耳赤。 一位坚持说RAG就够了,简单高效还省钱;另一位则认为不微调根本做不出专业应用。 这场争论让我想起很多企业在落地AI项目时的迷茫:到底该选哪条路?
10/23/2025 9:28:39 AM
大数据AI智能圈