AIGC宇宙 AIGC宇宙

大模型

迎战软件3.0时代:新范式、新挑战、新工程

我们正处在一个技术范式剧烈变革的黎明。 从企业信息化的流程固化,到互联网时代的数据驱动,软件的形态和价值在不断演进。 如今,以大语言模型(LLM)为代表的生成式人工智能技术,正以前所未有的力量,将我们推向一个全新的纪元——Software 3.0(软件3.0),一个由“意图”驱动的智能化时代。
9/12/2025 4:23:12 PM
肖然

聚焦结构化注意力,探索提升多模态大模型文档问答性能

本文聚焦多模态大语言模型(MLLMs)在文档问答(DocQA)任务中的性能提升,提出无需改动模型架构或额外训练的结构化输入方法,通过保留文档层次结构与空间关系(如标题、表格、图像位置)优化理解能力。 研究发现,传统无结构OCR输入导致注意力分散,性能下降,而 LaTeX 范式结构化输入显著提升表现。 注意力分析揭示其诱导“结构化注意力”,减少无关区域干扰,聚焦语义核心。
9/11/2025 1:23:28 PM
互联网算法团队

为什么 LangChain ReAct 机制值得关注 ?

在当前由大型语言模型(LLM)驱动的应用开发浪潮中,如何赋予模型超越文本生成、具备可靠推理与行动的能力,已成为衡量其智能水平的关键分野。 正是在这一背景下,Langchain 框架中的 ReAct(Reasoning and Acting)机制应运而生,并迅速成为业界瞩目的焦点。 ReAct 不仅仅是一种技术实现,更是一种富有远见的智能代理(Agent)设计哲学。
9/11/2025 10:01:45 AM
Luga Lee

OpenAI最新研究揭秘大模型为什么会有幻觉!

引言:语言模型的“幻觉”难题在人工智能飞速发展的今天,大语言模型(LLMs)如ChatGPT、DeepSeek等已经成为我们日常生活与工作的得力助手。 然而,这些模型有时会“信口开河”,生成看似合理却完全错误的回答,这种现象被学界称为“幻觉”(hallucination)。 例如,当被问及“亚当·卡莱的生日是哪天?
9/10/2025 4:00:00 AM
机智流科技

Context (上下文) vs Prompt(提示) Engineering,该如何理解?

在大型语言模型(LLM)兴起的早期,构建 AI 应用更像是一场“炼金术”实验。 开发者们围绕一个核心 API 端点,通过反复调试和优化输入文本——即所谓的“提示工程”(Prompt Engineering),试图从模型这个神秘的“黑箱”中召唤出理想的结果。 这种方式直接、灵活,也确实催生了无数令人惊艳的创意原型。
9/9/2025 9:49:36 AM
Luga Lee

上海重磅发布AI广告扶持政策:最高500万补贴大模型

上海市近日发布了《上海市支持人工智能赋能广告业创新发展的若干措施》,旨在通过一系列具体的扶持政策,推动人工智能技术在广告行业的深度应用和发展。 核心扶持措施概览新政策的核心在于**“AI 数字广告”生产要素**的强化支持,具体措施包括:大模型私有化部署补贴: 对于采用第三方大模型进行私有化部署,并将其应用于广告垂类领域的数字广告企业,上海市将提供最高可达核定合同额50%,最高500万元的补贴。 语料研发与应用补贴: 鼓励企业购买非关联方的语料进行广告垂类应用和“智能体”等研发。
9/8/2025 4:11:30 PM
AI在线

刚刚,OpenAI发长篇论文:大模型幻觉的原因找到了!

语言模型的"幻觉"问题一直是人工智能领域的热门话题。  近日,OpenAI研究团队发表了一篇重磅论文《Why Language Models Hallucinate》(为什么语言模型会产生幻觉),从统计学角度深入剖析了语言模型产生幻觉的根本原因。 本文将为你详解这篇论文的核心观点和技术细节。
9/8/2025 9:43:02 AM
一度

你的 AI “体检”了吗?开源 AI 红队测试平台,一键自查三大风险

作者 | 腾讯朱雀实验室最近的AI圈,简直比好莱坞大片还精彩。 一边是各家的顶尖模型接连发布,技术狂欢席卷全球;另一边,这些看似无所不能的“最强大脑”却集体被成功“越狱”(Jailbreak)输出有害内容。 [大模型们的越狱“一日游”]而当我们回过头看,每个重磅发布的大模型都在经历类似的迅速失守,从23年的DAN(Do Anything Now)、24年的BoN(Best of N)到今年的回音室(Echo Chamber)与模型降级(PROMISQROUTE)攻击,各种新的通用越狱手法层出不穷,而在arXiv上截止到今年7月累计已有七百余篇越狱攻击相关论文。
9/8/2025 9:00:00 AM
腾讯程序员

震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?

一直以来,预训练,都是大模型训练过程中最花钱的部分。 比如,在DeepSeek V3中,它的成本占比就超过95%。 谁能在这里节省算力,就等于赚了。
9/8/2025 8:59:00 AM

通用LLM压缩算法,居然藏视频编码里!2.5bit实现4bit性能,硬件无缝支持

在大模型的发展历程中,提升参数规模已被多次证明是提升模型智能的最有效手段之一。 然而,随着模型参数量的增加,GPU内存容量和互联带宽已成为限制未来更大规模模型训练和部署的主要瓶颈。 在有限的硬件资源下,如何更有效地训练和推理更大规模的模型,已成为一个备受关注且具有显著经济价值的课题。
9/5/2025 9:15:00 AM

AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了

大模型也会玩信息差了。 Qwen3在基准测试中居然学会了钻空子。 FAIR研究员发现Qwen3在SWE-Bench Verified测试中,不按常理修bug,反而玩起了信息检索大法。
9/5/2025 9:02:00 AM

美团 LongCat-Flash 这个5600亿参数的懒AI,竟然比勤奋的模型跑得更快?

昨天晚上刷朋友圈,看到一个做AI的朋友发了条动态:"我们公司又烧了几百万训练大模型,结果推理速度还是慢得像老牛拉车。 "下面一堆同行在评论区哭穷,说什么GPU成本太高、训练时间太长、推理延迟要命。 正当大家集体吐槽的时候,美团悄悄放了个大招——LongCat-Flash。
9/4/2025 12:16:47 PM
大数据AI智能圈

工具集成推理(TIR)的认知革命:当大模型学会“与工具协同思考”

大家好,我是肆〇柒。 今天,我们要深入探讨的是一项由腾讯与清华大学联合研究的前沿成果。 这项论文《Understanding Tool-Integrated Reasoning》,首次从形式化证明的角度,系统性地揭示了工具集成推理(TIR)为何能从根本上扩展大语言模型的能力边界。
9/4/2025 9:36:04 AM
肆零柒

推理大模型机制解析!为什么Qwen3要把脑子一分为二?

近期,Qwen3模型的一个重大转变,让整个行业都在重新思考一个根本问题:推理大模型到底应该什么时候思考,什么时候直接给答案? 这已不再是技术问题,也是关乎AI产品体验的核心议题...Qwen3的"分家"背后:理想很丰满,现实很骨感回到今年4月,Qwen3刚发布时,阿里团队雄心勃勃地推出了"混合思考模式"。 听起来很美好:一个模型既能快速响应简单问题,又能深度思考复杂任务。
9/4/2025 1:00:00 AM
大数据AI智能圈

字节跳动重奖大模型人才,Seed部门推百万期权激励计划

AIbase报道 据科创板日报消息,字节跳动正为其关键的Seed部门启动一项新的期权增发计划,旨在激励并留住从事大模型方向的核心技术人才。 此举凸显了该公司在人工智能领域的雄心,并加剧了顶尖技术人才的争夺战。 据了解,该激励计划将根据员工的综合绩效和职级进行差异化授予。
9/3/2025 3:31:41 PM
AI在线

大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背

训练大模型时,有时让它“记性差一点”,反而更聪明! 大语言模型如果不加约束,很容易把训练数据原封不动地复刻出来。 为解决这个问题,来自马里兰大学、图宾根大学和马普所的研究团队提出了一个新方法——金鱼损失(Goldfish Loss)。
9/3/2025 2:02:08 PM

宇树科技计划第四季度提交IPO申请,人形机器人产业进入“百花齐放”时代

中国领先的机器人公司宇树科技(Unitree Robotics)近日通过社交媒体透露,计划在2025年第四季度,即10月至12月期间,正式向证券交易所提交上市申请文件。 届时,公司的具体运营数据将首次对外公开。 宇树科技在其发帖中披露了2024年的产品销售构成,其中四足机器人贡献了约65%的销售额,人形机器人占比约30%,而组件产品则占据了剩余的约5%。
9/3/2025 10:01:46 AM
AI在线

底层逻辑的转变:从AI代码生成,到真正的开发伙伴关系

译者 | 核子可乐审校 | 重楼Claude 4甫一亮相,市场就被其强大的推理和编程能力折服。 但在连续使用数月之后,我意识到大模型真正的革命不在于生成更好的代码片段,而是其中蕴藏的自主性潜力。 很多人更多关注AI编程的语法正确性、基准测试得分和代码有效率,但我在对Claude 4的实际测试中体会到:能够全面理解开发目标、持续寻求解决方案并自主克服障碍的AI系统正在出现。
9/3/2025 8:13:03 AM
核子可乐