AIGC宇宙 AIGC宇宙

大模型

AI 为何能查天气、订机票?揭秘大模型背后的“神秘工具箱”

你有没有想过,为什么 AI 能回答“今天上海天气怎么样? ”这种实时问题,甚至帮你预订机票? 明明它的训练数据截止到去年,怎么会对现在的事情了如指掌?
7/15/2025 9:44:16 AM
红绿灯灯灯灯

首个旅游行业超级智能体上线,AI Agent落地垂直领域再下一城

7 月 11 日,马蜂窝的深度个性化的攻略定制产品 “AI 路书” 正式宣布向所有用户开放,同步上线 “AI 代订日本餐厅”、“菜单翻译”、“多语种实时翻译” 等几大实用工具,直击用户出境自由行核心痛点,实现从行程规划到目的地精细化服务的全链路智能化覆盖。 “AI 路书” 在内测时期就曾引起用户广泛关注,该产品突破传统 AI 被动响应模式,首创 “主动提问 - 需求校准 - 精准生成” 全流程。 用户提交初步需求后,AI 会以选择题形式引导补充关键细节,例如 “是否需要避开台阶较多的景点?
7/11/2025 10:09:00 PM
新闻助手

一文搞懂 | 大模型为什么出现幻觉?从成因到缓解方案

1、前言随着大模型(Large Language Models, 以下简称LLM)迅猛发展的浪潮中,幻觉(Hallucination)问题逐渐成为业界和学术界关注的焦点。 所谓模型幻觉,指的是模型在生成内容时产生与事实不符、虚构或误导性的信息。 比如,当你询问“世界上最长的河流是哪条?
7/11/2025 9:50:52 AM
火山引擎云安全

多模态大模型的“安全锁”:SAPT 软提示调优技术

引言:多模态大模型的安全困境在人工智能技术飞速发展的当下,多模态大模型(VLM)正以前所未有的速度融入我们的生活,从智能助手到图像识别,从文本生成到跨模态任务处理,它们展现出了令人惊叹的能力。 然而,随着 VLM 在实际应用中的广泛部署,一个不容忽视的问题逐渐浮出水面——其安全性漏洞正成为潜在的“ ticking bomb”。 近期,一篇题为《The Safety Reminder: A Soft Prompt to Reactivate Delayed Safety Awareness in Vision-Language Models》的论文,为我们揭开了 VLM 安全性研究的新篇章。
7/11/2025 1:23:00 AM
果冻布丁兔

谷歌 Gemini 待发布新技能曝光:AI 帮你生成插画故事书

AI在线 7 月 10 日消息,外媒 Testing Catalog 公布了 Gemini 网页端一个即将推出的新技能:生成“插画故事书”。 TestingCatalog 针对 Gemini 网页版进行代码分析,确认谷歌正在开发名为“Storybook”的 Gemini 模块。 随后,在新版 16.26.64.sa.arm64 中,又陆续出现更多与 Storybook 相关的资源。
7/10/2025 7:50:22 PM
清源

他一人撑起谷歌90%的AI宣传,劈柴真是挖到鬼才了

西风 发自 凹非寺. 量子位 | 公众号 QbitAI一个人撑起了谷歌AI宣传90%的工作! 而且这人还是被谷歌从OpenAI挖来的,谁啊?
7/10/2025 4:57:12 PM
西风

揭开大模型的秘密!那些 “思考词” 背后藏着惊人的信息量

近日,来自中国人民大学、上海人工智能实验室、伦敦大学学院和大连理工大学的研究团队揭示了大模型推理过程中的一个重要发现:当模型在思考时,所使用的 “思考词” 实际上反映了其内部信息量的显著提升。 这一研究成果通过信息论的方法,为我们更好地理解人工智能的推理机制提供了新的视角。 论文地址:,会输出一些看似人类化的语言,比如 “嗯……”、“让我想想……” 或 “因此……”。
7/5/2025 7:46:41 AM
AI在线

Meta-Think ≠ 记套路,多智能体强化学习解锁大模型元思考泛化

本文第一作者为上海交通大学计算机科学四年级博士生万梓煜,主要研究方向为强化学习、基础模型的复杂推理,通讯作者为上海交通大学人工智能学院温颖副教授和上海人工智能实验室胡舒悦老师。 团队其他成员包括来自英属哥伦比亚大学的共同第一作者李云想、Mark Schmidt 教授,伦敦大学学院的宋研、杨林易和汪军教授,上海交通大学的温潇雨,王翰竟和张伟楠教授。 引言最近,关于大模型推理的测试时间扩展(Test time scaling law )的探索不断涌现出新的范式,包括① 结构化搜索结(如 MCTS),② 过程奖励模型(Process Reward Model ) PPO,③ 可验证奖励 (Verifiable Reward) GRPO(DeepSeek R1)。
7/4/2025 8:53:00 AM

华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025

大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。 为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。 该方法借鉴人类“多角度思考、反复验证”的认知方式,打破传统LLM的线性推理范式,通过构建多棵并行推理树,引入动态自我修正机制与多视角共识决策策略。
7/4/2025 8:53:00 AM

重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!

刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。 长期从事机器学习基础理论研究,共发表论文 100 余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近 50 篇,涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。 你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。
7/4/2025 8:47:00 AM

大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮

来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一“越想越错”现象背后的元认知偏差:长链推理中的反思不是纠错机制,而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致,宁可篡改协议定义也不否定前提。 风险缺口:长链CoT放大“误差滚雪球”推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。 然而,随着推理链条变长,一个令人不安的趋势浮出水面——错误不再是偶发失误,而是沿链条滚雪球式放大。
7/4/2025 8:42:00 AM

Gemini负责人爆料!多模态统一token表示,视觉至关重要

一水 闻乐 发自 凹非寺. 量子位 | 公众号 QbitAI一次性揭秘Gemini多模态技术! 就在刚刚,Gemini模型行为产品负责人Ani Baddepudi在谷歌自家的开发者频道开启了爆料模式。
7/3/2025 3:06:44 PM
闻乐

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker

大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。 然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。 这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?强化学习在 Llama 模型上的扩展限制OpenAI 的 o1、o3和 DeepSeek 的 R1等模型在竞赛级数学问题上通过大规模强化学习取得了突破,推动了对千亿参数以下小型模型强化学习能力的探索。
7/3/2025 12:00:57 PM
AI在线

一文详解Character AI:实用指南+ ChatGPT、Gemini对比分析

译者 | 晶颜审校 | 重楼本指南将深入剖析Character AI的运行机制、功能特性及其存在的局限性。 近年来,生成式人工智能领域发展态势迅猛,其应用范畴已远超单纯的文本生成领域。 在众多备受瞩目的新兴平台中,Character AI是一款支持用户以对话形式与人工智能生成角色进行交互的工具。
7/3/2025 8:03:54 AM
晶颜

大模型时代,通用视觉模型将何去何从?

过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。 它们试图构建统一的架构,能够处理图像、点云、视频等多种视觉模态输入,以及分类、检测、分割等多样的下游任务,向着「视觉模型大一统」的目标迈进。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。
7/2/2025 9:17:13 AM

o3通关「俄罗斯方块」,碾压Gemini夺冠!UCSD新基准击碎宝可梦

谁能想到,作为童年回忆的宝可梦,现在竟摇身一变,成了大模型的试金石! 在无数人的童年记忆中,《宝可梦》是一款意义非凡的游戏——简单的操作哪怕是年纪尚小的孩子也能轻松上手。 然而,要真正通关这款游戏,仍然需要缜密的规划和大量的时间投入。
7/2/2025 2:45:00 AM
新智元

AI实战案例:快速实现快递查询助手!

昨晚直播,咱们用 RAG(Retrieval-Augmented Generation,检索增强生成)实现了数据库 AI 助手,今天我们准备换一个技术使用 function call 来实现快递 AI 助手。 执行效果快递 AI 助手的业务逻辑很清晰,就是我通过 LLM 大语言模型的对话来查询我的快递详情,例如,我问 AI 我有几个“运送中”的快递,他把这些快递查询并展示出来,效果如下图所示:什么是 function call? 定义: Function Call(也称为 Tool Call)它允许大模型与一组 API 或工具进行交互,从而增强其功能。
7/2/2025 12:00:00 AM

谷歌“送 AI 进校园”新举措:推出师生专享 Gemini 教育项目

年满 18 岁的学生还可以使用“Gemini Canvas”,依据任意主题生成个性化测验题,辅助复习。谷歌表示,未来数周内将逐步拓展至更年轻的学生群体。
6/30/2025 10:13:07 PM
清源