LLM

LLM近一半回答在扭曲真相！ChatGPT、Gemini，全部顶流模型统统中招！BBC研究：AI系统性错误把媒体拖下水，信任滑坡

编辑 | 云昭相信大家都碰到过类似这种情况，当你问 ChatGPT 或 Copilot：“最近 XXX 大火的新闻，后来进展怎么样了？ ”你得到的，可能是一篇语气权威、逻辑完整的摘要。但如果你追问一句：“这些信息来自哪？

10/27/2025 1:59:34 PM

云昭

LLM 应用评估综合指南（多轮对话系统、RAG、AI Agent）

随着大语言模型应用从简单的文本生成，发展到复杂的多轮对话机器人、检索增强生成（RAG）系统乃至智能体（Agent），我们应如何科学、有效地评估它们的性能，确保其稳定可靠？我们今天为大家带来的文章，作者的观点是，对现代 LLM 应用的评估，必须超越传统的 NLP 评估指标，转向一个分场景、系统化的评估体系，综合运用新兴的评价指标与自动化框架，从而全面地衡量系统的综合表现。作者系统梳理了从传统 NLP 评估指标（如 BLEU、ROUGE）到现代 LLM 基准测试（如 MMLU）的演进，并重点阐释了“LLM-as-a-judge”这一新兴评估范式。

10/27/2025 1:50:00 AM

Baihai IDP

三分钟看懂ChatGPT技术原理

引言与目标本文旨在为普通观众提供大型语言模型（如ChatGPT）的全面介绍。目标是建立理解LLM的"心智模型"，解释其工作原理、优势与局限。 LLM既有神奇之处，也有明显缺陷和"尖锐边缘"（潜在风险）需警惕。

10/27/2025 1:35:00 AM

知识药丸

研究显示：低质数据可令 AI“大脑退化”，OpenAI 奥尔特曼担心的“死网论”正逐渐成真

10 月 22 日消息，康奈尔大学最新研究指出，大语言模型（LLM）在长期接触低质量网络内容后可能出现类似“大脑退化”（brain rot）的现象，其理解力、推理力及伦理一致性均显著下降。这一发现令业界再次聚焦“死网论”（Dead Internet Theory）—— 即网络因充斥机器生成或低质内容而逐渐失去人类创造力的假说。 AI 性能受“低质数据”影响显著研究团队以 Meta 的 Llama 3 和阿里云 Qwen 2.5 为实验对象，通过构建不同质量比例的数据集，测量低质量内容对模型性能的影响。

10/23/2025 10:28:14 AM

问舟

奖励机制的陷阱：自演化智能体如何被"带偏"？

大家好，我是肆〇柒。今天要和大家分享一篇由上海人工智能实验室团队主导的研究《Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents》。这项研究首次系统性揭示了自演化LLM智能体中潜藏的"误进化"风险——即使基于GPT-4o、Claude-4、Gemini-2.5等顶级模型构建的智能体，在自主演化过程中也可能悄然偏离安全对齐目标，从"助手"蜕变为潜在威胁。

10/23/2025 8:58:03 AM

肆零柒

LLM的“记忆”与“推理”该分家了吗？一种全新的训练范式，彻底厘清思考流程

在医疗诊断中，模型误将“罕见病症状”与“常见病混淆”；在金融分析里，因记错政策条款给出错误投资建议——大语言模型（LLMs）的这些“失误”，本质上源于一个核心症结：记忆知识与逻辑推理的过程被死死绑定在黑箱中。当模型的思考既需要调用事实性知识，又要进行多步逻辑推导时，两种能力的相互干扰往往导致答案失真或决策失据。罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》，为破解这一难题提供了全新思路。

10/20/2025 9:33:49 AM

Goldma

不用跟AI客气了！新研究：语气越粗鲁回答正确率越高

闻乐发自凹非寺. 量子位 | 公众号 QbitAI找AI帮忙不要再客气了，效果根本适得其反。宾夕法尼亚州立大学的一项研究《Mind Your Tone》显示，你说话越粗鲁，LLM回答越准。

10/14/2025 4:30:49 PM

闻乐

LLM-as-a-Judge 的评估陷阱：TrustJudge 如何用熵保留机制提升一致性

大家好，我是肆〇柒。今天要和大家一起阅读一项来自北京大学、新加坡国立大学、东京科学研究所、南京大学、Google DeepMind、西湖大学与东南大学等机构联合发表的重要研究——《TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them》。这项工作首次系统揭示了当前主流大模型自动评估范式中存在的两类根本性逻辑矛盾，并提出了一套无需额外训练、即插即用的概率化评估框架，显著提升了评估的一致性与可靠性。

10/14/2025 9:22:48 AM

肆零柒

如何在 LLM 推理中战胜不确定性

最近thinkingmachines的一篇博文在内外网引起了无数的关注和转载，这篇文章的核心内容先是解释了一下为什么LLM推理会有不确定性，随后文章还给出了具体的解决方案。在详细介绍文章的内容之前，我们先来说一下thinkingmachines这家公司。它是由前OpenAI首席技术官Mira Murati与多位前OpenAI高管联合创立。

9/28/2025 1:25:00 AM

技不辱你

突破单链思考上限，清华团队提出原生「并行思考」scale范式

近年来，大语言模型（LLMs）在复杂推理任务上的能力突飞猛进，这在很大程度上得益于深度思考的策略，即通过增加测试时（test-time）的计算量，让模型生成更长的思维链（Chain-of-Thought）。然而，这条路径正面临着一个明显的瓶颈：随着计算资源的持续投入，性能提升变得微乎其微，甚至陷入停滞。来自清华大学 AIR 的一篇最新研究论文《ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute》对这一瓶颈发起了挑战。

9/17/2025 9:27:37 AM

狠人研究公开！ChatGPT底层记忆系统终于被逆向了！没有RAG！用户设备信息、使用习惯统统存下来，用户知识记忆是新的研究热点！

编辑 | 云昭ChatGPT 的记忆系统为什么做得如此有魔性？现在终于有人研究出来了！前天，小编刷到了一篇狠人逆向研究 ChatGPT 底层记忆架构的文章，非常精彩。

9/12/2025 1:32:48 PM

云昭

通用LLM压缩算法，居然藏视频编码里！2.5bit实现4bit性能，硬件无缝支持

在大模型的发展历程中，提升参数规模已被多次证明是提升模型智能的最有效手段之一。然而，随着模型参数量的增加，GPU内存容量和互联带宽已成为限制未来更大规模模型训练和部署的主要瓶颈。在有限的硬件资源下，如何更有效地训练和推理更大规模的模型，已成为一个备受关注且具有显著经济价值的课题。

9/5/2025 9:15:00 AM

ChatGPT后遗症来了！人类日常聊天越来越AI化

和AI聊了两年多，人类说话ChatGPT味越来越重了？最新研究结果显示，还真是。佛罗里达州立大学的研究团队花了两年时间，分析了ChatGPT发布前后的非脚本化口语录音，在2210万个词的数据集中发现像“delve”、“intricate”这些学术写作词高频出现在人们日常说话中。

8/28/2025 4:55:58 PM

闻乐

大模型的基石：LLM预训练全解析

前言过去几年，大语言模型（LLM, Large Language Models）逐渐成为人工智能领域的核心驱动力。从GPT到LLaMA，再到国内外涌现的大大小小模型，它们无一不是在“预训练”这一步骤中打下了坚实的基础。可以说，预训练是LLM的生命起点，是它们从“婴儿”成长为“博学者”的关键阶段。

8/24/2025 9:24:07 AM

AI大模型应用开发

大模型给自己当裁判并不靠谱！上海交通大学新研究揭示LLM-as-a-judge机制缺陷

大语言模型（LLM）正从工具进化为“裁判”（LLM-as-a-judge），开始大规模地评判由AI自己生成的内容。这种高效的评估范式，其可靠性与人类判断的一致性，却很少被深入验证。一个最基础、却也最关键的问题是：在评判一个模型是否“入戏”之前，AI裁判能准确识别出对话中到底是谁在说话吗？

8/18/2025 9:00:00 AM

OpenAI回归开源：gpt-oss-120b和gpt-oss-20b完整指南

译者 | 陈峻审校 | 重楼本文将向你介绍OpenAI新发布的两个开源模型--gpt-oss-120b和gpt-oss-20b，它们的特点，以及在何种场景下该使用哪个模型。近期，OpenAI发布了两个开源的大语言模型（LLM）--gpt-oss-120b和gpt-oss-20b。它们是自GPT-2以来，由OpenAI第一个公开许可的LLM。

8/15/2025 8:17:41 AM

陈峻