大语言模型
研究显示:低质数据可令 AI“大脑退化”,OpenAI 奥尔特曼担心的“死网论”正逐渐成真
                        10 月 22 日消息,康奈尔大学最新研究指出,大语言模型(LLM)在长期接触低质量网络内容后可能出现类似“大脑退化”(brain rot)的现象,其理解力、推理力及伦理一致性均显著下降。 这一发现令业界再次聚焦“死网论”(Dead Internet Theory)—— 即网络因充斥机器生成或低质内容而逐渐失去人类创造力的假说。 AI 性能受“低质数据”影响显著研究团队以 Meta 的 Llama 3 和阿里云 Qwen 2.5 为实验对象,通过构建不同质量比例的数据集,测量低质量内容对模型性能的影响。
                    
                    10/23/2025 10:28:14 AM
                        问舟
                    LLM的“记忆”与“推理”该分家了吗?一种全新的训练范式,彻底厘清思考流程
                        在医疗诊断中,模型误将“罕见病症状”与“常见病混淆”;在金融分析里,因记错政策条款给出错误投资建议——大语言模型(LLMs)的这些“失误”,本质上源于一个核心症结:记忆知识与逻辑推理的过程被死死绑定在黑箱中。 当模型的思考既需要调用事实性知识,又要进行多步逻辑推导时,两种能力的相互干扰往往导致答案失真或决策失据。 罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》,为破解这一难题提供了全新思路。
                    
                    10/20/2025 9:33:49 AM
                        Goldma
                    从探索到验证:Parallel-R1 如何塑造大模型的"思考"哲学
                        大家好,我是肆〇柒。 今天看看由腾讯AI Lab Seattle联合马里兰大学、北卡罗来纳大学、香港城市大学和圣路易斯华盛顿大学共同研究的工作——Parallel-R1,它首次通过强化学习让大语言模型真正掌握了"并行思考"这一人类高级认知能力,而非仅依赖推理时策略的临时拼凑。 这项研究不仅刷新了AIME25数学竞赛基准测试的准确率记录,更揭示了机器"思考"方式的演化规律。
                    
                    9/28/2025 9:00:00 AM
                        肆零柒
                    当大模型“思考”时,它在做什么?—解构 LLM 架构体系
                        Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景 - 构建大模型应用架构技术底座:LLM 架构体系。 在人工智能技术快速演进的时代背景下,大语言模型(Large Language Models, LLMs)作为自然语言处理领域的核心架构,正逐步重塑人机交互的技术范式。 从智能对话系统到内容生成平台,从复杂决策支持到跨语言信息处理,LLM 已成为现代人工智能基础设施中不可或缺的组成部分。
                    
                    9/19/2025 9:46:53 AM
                        Luga Lee
                    幻觉成了AI的“癌症”,连OpenAI也治不了
                        学生参加考试,当他不知道题目的答案时,可能会猜测。 实际上,AI聊天机器人也一样。 AI给出的答案可能看起来正确,实际却是完全错误的,这就是所谓的“幻觉”。
                    
                    9/11/2025 1:00:00 AM
                        小刀
                    OpenAI回归开源:gpt-oss-120b和gpt-oss-20b完整指南
                        译者 | 陈峻审校 | 重楼本文将向你介绍OpenAI新发布的两个开源模型--gpt-oss-120b和gpt-oss-20b,它们的特点,以及在何种场景下该使用哪个模型。 近期,OpenAI发布了两个开源的大语言模型(LLM)--gpt-oss-120b和gpt-oss-20b。 它们是自GPT-2以来,由OpenAI第一个公开许可的LLM。
                    
                    8/15/2025 8:17:41 AM
                        
                    陈峻
                    法拉第未来重磅发布FF AI2.0:与OpenAI深度融合,支持50种语言智能交互
                        6月24日,法拉第未来正式宣布推出FF AI2.0智能座舱操作系统,这是自2023年FF91发布以来最重大的智能座舱升级。 新系统将通过OTA软件更新首先部署到FF912.0车型,并计划未来扩展至FX系列。 FF AI2.0实现了整个AI架构的全面重构,其最大亮点是与OpenAI的深度融合。
                    
                    6/24/2025 4:00:42 PM
                        AI在线
                    正式开源!DeepSeek-R1-0528震撼发布,性能直逼OpenAI o3,免费API已上线
                        近日,AI领域迎来重磅消息!中国AI初创公司DeepSeek正式发布了其开源大语言模型 DeepSeek-R1-0528的最新版本。 这一更新不仅在性能上实现了重大突破,还通过免费API的提供进一步推动了AI技术的普及与应用。 以下,AIbase将为您详细解析此次更新的亮点与意义。
                    
                    5/29/2025 10:01:21 AM
                        AI在线
                    字节跳动 AdaCoT:基于强化学习的自适应推理触发方法(万字)
                        大家好,我是肆〇柒。 在当下,大型语言模型(LLM)凭借其强大的语言理解和生成能力,在众多领域展现出了巨大的潜力。 然而,尽管 LLM 在处理常规任务时表现出色,但在面对复杂推理任务时,却常常暴露出明显的短板。
                    
                    5/26/2025 5:16:51 PM
                        肆零柒
                    大语言模型究竟为何会在对话中“迷失”
                        译者 | 张哲刚审校 | 重楼微软研究院和 Salesforce的一篇新论文发现,即使是功能最强大的大型语言模型,如果面临的指令是分阶段而非一次性给出,往往也会表现不佳。 该文作者运行六项任务进行研究,最终发现:当提示被拆分成多个回合时,大语言模型的性能平均下降了39%。 单轮次对话(左图)可获得最佳结果,但对最终用户而言显得并不自然。
                    
                    5/23/2025 8:18:52 AM
                        
                    张哲刚
                    MCP 协议深度解读:技术创新正以前所未有的速度突破
                        作者 | rianOpenAI 官宣全面支持MCP协议,至此MCP已得到业界广泛的认可。 正逐步成为AI应用架构的基础协议。 做为AI应用架构的USB-C,MCP原理是怎样的?
                    
                    4/15/2025 10:16:12 AM
                        腾讯技术工程
                    通付盾AI Agent信任系统建设宣言:从AI到IA,得Agent者得天下
                        深耕行业十四年,知浪潮将至,当相向而行。 本文旨在结合企业思考,探讨AI新时代下的技术与应用趋势,对内秉初心以率众,对外纳灼见而求臻。 技术分水岭:算力、算法和数据的能效博弈随着大模型的快速更迭,人类已经走上了通往人工超级智能(ASI)的快车道。
                    
                    3/26/2025 8:51:00 AM
                        AI在线
                    实战攻略:使用KubeMQ简化多LLM集成流程
                        译者 | 核子可乐审校 | 重楼将多个大语言模型集成至应用程序当中往往是项艰巨的挑战,各类不同API及通信协议的协同处理,以及如何确保请求路由的复杂性难题往往令人望而生畏。 好在可以使用消息代理与路由机制更优雅地解决此类问题,在解决痛点的同时实现多个关键优势。 本文将向大家介绍具体操作步骤。
                    
                    3/18/2025 8:00:00 AM
                        核子可乐
                    OpenAI重磅剧透:GPT-5“很快推出”,CPO预测年内AI代码自动化将达99%!
                        近日,OpenAI 首席产品官(CPO)Kevin Weil 在一次备受关注的访谈中透露了多个重磅消息,引发业界广泛关注。 最引人瞩目的是关于备受期待的 GPT-5以及 AI 代码自动化进程的预测。 对于 GPT-5的发布时间,Kevin Weil 虽然没有给出具体日期,但他明确表示:“我不会给你具体时间,但 GPT-5会很快出现。
                    
                    3/17/2025 11:19:00 AM
                        AI在线
                    亚马逊云科技率先推出完全托管DeepSeek-R1,企业AI部署再添利器
                        亚马逊云科技近日宣布,DeepSeek-R1大语言模型现已作为完全托管的无服务器服务在Amazon Bedrock上正式可用。 作为首个将该模型作为完全托管服务推出的云服务提供商,亚马逊云科技进一步扩展了客户使用DeepSeek-R1及其蒸馏版本的方式。 通过完全托管的服务方式,客户无需处理复杂的技术设置或运维,即可轻松将DeepSeek-R1应用于企业级部署。
                    
                    3/11/2025 11:21:00 AM
                        AI在线
                    DeepSeek级AI?训练自己的推理模型仅需七个步骤
                        译者 | 布加迪审校 | 重楼谁需要超级计算机? 仅用15GB VRAM就可以训练你自己的功能强大的AI推理模型! DeepSeek的R1模型在不需要人类反馈的情况下就能进行更深思熟虑的推理,已颠覆了大语言模型(LLM)领域。
                    
                    3/11/2025 8:37:42 AM
                        
                    布加迪
                    DeepSeek-V3深入解读!
                        上一篇文章对DeepSeek-R1进行了详细的介绍,今天来看看DeepSeek-R1的基座模型DeepSeek-V3。 项目地址::现有的开源模型在性能和训练成本之间往往难以达到理想的平衡。 一方面,为了提升模型性能,需要增加模型规模和训练数据量,这会导致训练成本急剧上升;另一方面,高效的训练和推理架构对于降低计算资源消耗至关重要。
                    
                    2/19/2025 10:49:30 AM
                        Glodma
                    Grok-3正式发布:马斯克"钞能力"催生AI新王座挑战者
                        埃隆·马斯克旗下xAI公司正式发布Grok系列第三代大语言模型,在AI领域掀起新一轮技术海啸。 这款被开发者称为"当下地表最强"的模型,或将重塑全球AI竞争格局。 据官方披露,Grok-3在多项核心指标上已超越现有主流模型,测试用户反馈其实际表现达到"o3-full"基准水平。
                    
                    2/18/2025 1:49:00 PM
                        AI在线
                    
        资讯热榜
    
    
        标签云
    
    
                    
                    AI
                    
                    
                    人工智能
                    
                    
                    OpenAI
                    
                    
                    AIGC
                    
                    
                    模型
                    
                    
                    ChatGPT
                    
                    
                    DeepSeek
                    
                    
                    谷歌
                    
                    
                    AI绘画
                    
                    
                    大模型
                    
                    
                    机器人
                    
                    
                    数据
                    
                    
                    Midjourney
                    
                    
                    开源
                    
                    
                    Meta
                    
                    
                    智能
                    
                    
                    微软
                    
                    
                    AI新词
                    
                    
                    用户
                    
                    
                    GPT
                    
                    
                    学习
                    
                    
                    技术
                    
                    
                    智能体
                    
                    
                    马斯克
                    
                    
                    Gemini
                    
                    
                    图像
                    
                    
                    Anthropic
                    
                    
                    英伟达
                    
                    
                    AI创作
                    
                    
                    训练
                    
                    
                    LLM
                    
                    
                    论文
                    
                    
                    代码
                    
                    
                    算法
                    
                    
                    Agent
                    
                    
                    AI for Science
                    
                    
                    芯片
                    
                    
                    苹果
                    
                    
                    腾讯
                    
                    
                    Claude
                    
                    
                    Stable Diffusion
                    
                    
                    蛋白质
                    
                    
                    开发者
                    
                    
                    生成式
                    
                    
                    神经网络
                    
                    
                    xAI
                    
                    
                    机器学习
                    
                    
                    3D
                    
                    
                    RAG
                    
                    
                    人形机器人
                    
                    
                    研究
                    
                    
                    AI视频
                    
                    
                    大语言模型
                    
                    
                    生成
                    
                    
                    具身智能
                    
                    
                    Sora
                    
                    
                    工具
                    
                    
                    GPU
                    
                    
                    百度
                    
                    
                    华为
                    
                    
                    计算
                    
                    
                    字节跳动
                    
                    
                    AI设计
                    
                    
                    AGI
                    
                    
                    大型语言模型
                    
                    
                    搜索
                    
                    
                    视频生成
                    
                    
                    场景
                    
                    
                    深度学习
                    
                    
                    架构
                    
                    
                    DeepMind
                    
                    
                    生成式AI
                    
                    
                    编程
                    
                    
                    视觉
                    
                    
                    Transformer
                    
                    
                    预测
                    
                    
                    AI模型
                    
                    
                    伟达
                    
                    
                    特斯拉
                    
                    
                    MCP