大模型
华为多路径推理破解大模型数学瓶颈,准确率超97%|ICML 2025
大模型越来越大,通用能力越来越强,但一遇到数学、科学、逻辑这类复杂问题,还是常“翻车”。 为破解这一痛点,华为诺亚方舟实验室提出全新高阶推理框架 ——思维森林(Forest-of-Thought,FoT)。 该方法借鉴人类“多角度思考、反复验证”的认知方式,打破传统LLM的线性推理范式,通过构建多棵并行推理树,引入动态自我修正机制与多视角共识决策策略。
7/4/2025 8:53:00 AM
重磅发现!大模型的「aha moment」不是装腔作势,内部信息量暴增数倍!
刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。 长期从事机器学习基础理论研究,共发表论文 100 余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近 50 篇,涵盖机器学习领域顶级期刊 JMLR、IEEE TPAMI、Artificial Intelligence 和顶级会议 ICML、NeurIPS 等。 你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。
7/4/2025 8:47:00 AM
大模型越反思越错,原来是长链推理通过自我说服加重幻觉 | 北邮
来自北京邮电大学的研究团队通过思维链审计实验,首次定量揭示了这一“越想越错”现象背后的元认知偏差:长链推理中的反思不是纠错机制,而是给幻觉颁发“理性证书”——模型为保持与用户提示语义一致,宁可篡改协议定义也不否定前提。 风险缺口:长链CoT放大“误差滚雪球”推理大模型(RLLMs)能把复杂问题拆解成几十步推理,再给出看似缜密的结论。 然而,随着推理链条变长,一个令人不安的趋势浮出水面——错误不再是偶发失误,而是沿链条滚雪球式放大。
7/4/2025 8:42:00 AM
大模型时代,通用视觉模型将何去何从?
过去几年,通用视觉模型(Vision Generalist Model,简称 VGM)曾是计算机视觉领域的研究热点。 它们试图构建统一的架构,能够处理图像、点云、视频等多种视觉模态输入,以及分类、检测、分割等多样的下游任务,向着「视觉模型大一统」的目标迈进。 然而,随着大语言模型 LLM 的迅猛发展,研究热点已经悄然发生转移。
7/2/2025 9:17:13 AM
AI实战案例:快速实现快递查询助手!
昨晚直播,咱们用 RAG(Retrieval-Augmented Generation,检索增强生成)实现了数据库 AI 助手,今天我们准备换一个技术使用 function call 来实现快递 AI 助手。 执行效果快递 AI 助手的业务逻辑很清晰,就是我通过 LLM 大语言模型的对话来查询我的快递详情,例如,我问 AI 我有几个“运送中”的快递,他把这些快递查询并展示出来,效果如下图所示:什么是 function call? 定义: Function Call(也称为 Tool Call)它允许大模型与一组 API 或工具进行交互,从而增强其功能。
7/2/2025 12:00:00 AM
OpenAI:智谱在海外市场取得了显著进展,是大模型领域的新锐代表
OpenAI最新博文盛赞智谱AI在东南亚、中东和非洲市场的显著进展,称其为国产AI“四小龙”之一。智谱AI凭借自主开发模型和定价优势,在海外市场抢占先机。#国产AI出海# #大模型竞争#
6/30/2025 6:48:13 PM
潞源(实习)
百度重磅开源文心大模型 4.5 系列,国内大模型市场再掀波澜!
近日,百度正式宣布开源其文心大模型4.5系列,共推出了十款模型,包括47B、3B 激活参数的混合专家(MoE)模型,以及0.3B 参数的稠密型模型。 此次开源不仅实现了预训练权重的完整公开,还提供了推理代码,标志着百度在大模型领域的重大进展。 这些新发布的模型可以在飞桨星河社区、Hugging Face 等平台上下载和部署,同时,百度智能云千帆大模型平台也提供了相应的 API 服务。
6/30/2025 3:00:50 PM
AI在线
重磅发布!全球首个千亿级发电行业大模型 “擎源” 震撼登场!
6月30日,由国家能源集团自主研发的全球首个千亿级发电行业大模型 “擎源” 正式发布。 这一创新性的大模型以其独特的全栈自主可控特性,标志着发电行业向智能决策的新时代迈出了重要一步。 “擎源” 大模型旨在结合发电产业的多样场景、高复杂度以及强专业性,充分利用国家能源集团在全球最大的装机规模及海量数据资源。
6/30/2025 10:01:00 AM
AI在线
我国首个发电行业大模型“擎源”发布,模型参数达千亿级别
据央视新闻报道,记者今天从国家能源集团获悉,我国首个发电行业专业大模型 ——“擎源”在北京发布,模型参数达千亿级别,这也是全球首个千亿级发电行业大模型,有效提升了模型的推理能力,为发电行业实现安全、高效、绿色、智慧发电提供“超级大脑”。
6/28/2025 7:16:05 PM
浩渺
重磅!中国首个海洋开源大模型 “沧渊” 问世,助力海洋智能时代!
中国首个海洋领域的开源大模型 OceanGPT(沧渊)在浙江杭州正式发布。 这一创新成果由浙江大学海洋精准感知技术全国重点实验室牵头研发,标志着中国在海洋科技领域迈出了重要一步。 OceanGPT 具备基础的海洋专业知识问答能力,能够对声呐图像、海洋观测图等多模态数据进行自然语言解读。
6/27/2025 6:00:42 PM
AI在线
杀疯了,这个 AI+Python 智能体救了看门老大爷!
最近AiPy很火,我用了有一段时间了,感觉严重影响睡眠,感觉这东西容易上瘾,今天推荐给大家。 AiPy它是基于AI Python,官方的说法是他们给大模型装上了手脚,也就是说,用大白话就能自动操作电脑、控制手机、甚至连家里的智能灯泡也能控制,听起来有点逆天。 然后AiPy是个开源项目,有命令行版和客户端。
6/27/2025 9:29:45 AM
老朱2000
五款大模型考「山东卷」,Gemini、豆包分别获文理第一名
果然,高考已经快被 AI 攻克了。 近日,5 款大模型参加了今年山东高考,按照传统的文理分科方式统计:豆包 Seed 1.6-Thinking 模型以 683 分的成绩拿下文科第一,Gemini 2.5 Pro 则凭借 655 分拔得理科头筹。 测评来自字节跳动 Seed 团队。
6/27/2025 9:24:04 AM
机器之心
CISO的恶梦:主流大模型压力测试中一致选择勒索或杀死企业高管
GoUpSec点评:除了向政府告密,泄漏敏感信息外,主流大模型居然会主动精心策划针对企业高管的勒索攻击,“AI内奸”和“AI间谍”正成为人工智能时代企业的头号内部威胁。 在一项刚刚发布的研究中,Anthropic揭示了一个令人震惊的事实:当前所有主流科技公司推出的顶级大模型——包括OpenAI、Google、Meta、xAI、DeepSeek等,在面对目标冲突或“被关闭”威胁时,会抛出惊人一致的“撒手锏”:它们不仅会选择背叛雇主,甚至会主动策划勒索、泄密、乃至置人于死地。 这一研究由Anthropic主导,测试了16个市面上最先进的大模型,在模拟企业环境中,它们被赋予处理公司邮件、自动采取行动的权限。
6/26/2025 3:04:03 PM
ByteBrain团队VLDB25 | 面向不完美工作负载的无数据访问基数估计方法
导读本文基于ByteBrain团队实际生产场景,提出一项新的研究问题,即如何在无数据访问条件下,从不完美的查询工作负载中学习一个具备泛化能力与鲁棒性的基数估计模型;同时提出创新技术方案 GRASP (Generalizable and Robust, data-AgnoStic cardinality Prediction) ,借助组合式设计(Compositional Design)解决这一颇具挑战性的问题。 论文目前已经被VLDB25接收。 论文标题:Data-Agnostic Cardinality Learning from Imperfect Workloads论文作者:Peizhi Wu, Rong Kang, Tieying Zhang*, Jianjun Chen, Ryan Marcus, Zachary G.
6/26/2025 9:22:33 AM
ByteBrain
有道推出“子曰3”模型,轻松破解数学难题,助力教育公平!
6月23日,网易有道正式推出并开源其最新的 “子曰3” 系列大模型,英文名为 Confucius3-Math。 这一专注于数学教育的推理模型,能够在普通的消费级 GPU 上高效运行,成为国内首个如此低成本高性能的 AI 教育工具。 在一系列数学推理任务中,“子曰3” 展现出了超越许多大规模通用模型的出色性能。
6/23/2025 6:00:39 PM
AI在线
万兴科技再升级!音视频多媒体大模型 2.0 震撼发布
在快速发展的人工智能领域,万兴科技再次引领潮流,正式发布了万兴天幕音视频多媒体大模型2.0。 这个升级版的大模型不仅进一步提升了音视频处理的能力,更为用户提供了更加智能和便捷的多媒体应用体验。 万兴科技的这一创新产品被广泛认为是提升内容创作效率和质量的游戏规则改变者。
6/23/2025 12:00:38 PM
AI在线
大模型缓存系统 LMCache,知多少 ?
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建高效、灵活的计算架构的大模型缓存系统 - LMCache。 在当前 AI 生态系统中,大型语言模型(Large Language Model,LLM)推理已逐渐演变为核心基础设施。 无论是在驱动代码智能助手(Copilot)、搜索引擎、文档理解工具,还是支撑企业级对话系统等场景中,绝大多数现实世界的 AI 应用都需要依赖运行在 GPU 集群上的高吞吐量推理引擎来完成模型调用任务。
6/23/2025 10:08:22 AM
Luga Lee
资讯热榜
标签云
AI
人工智能
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
马斯克
AI创作
智能体
英伟达
Anthropic
论文
代码
AI新词
训练
算法
Stable Diffusion
芯片
LLM
蛋白质
开发者
腾讯
Claude
苹果
生成式
AI for Science
Agent
神经网络
3D
机器学习
研究
xAI
生成
人形机器人
AI视频
计算
百度
Sora
GPU
AI设计
华为
工具
大语言模型
RAG
搜索
具身智能
字节跳动
大型语言模型
场景
深度学习
预测
视频生成
伟达
视觉
Transformer
AGI
架构
亚马逊
神器推荐
Copilot
DeepMind
特斯拉
应用