AIGC宇宙 AIGC宇宙

大模型

RLPT:用强化学习“重读”预训练数据,让大模型学会思考

大家好,我是肆〇柒。 今天要和大家分享的是一项来自腾讯大模型部门(LLM Department, Tencent) 与香港中文大学合作的前沿研究——RLPT(Reinforcement Learning on Pre-Training Data)。 面对高质量数据增长见顶、计算资源持续膨胀的矛盾,这项工作提出了一种全新的训练范式:让大模型在原始预训练数据上通过强化学习自主探索推理路径,从而突破传统监督学习的泛化瓶颈。
10/11/2025 9:23:28 AM
肆零柒

无标签进化:EVOL-RL用“多数选择+新颖变异”破解大模型“熵坍缩”困局

大家好,我是肆〇柒。 今天要和大家探讨的,是来自腾讯AI Lab、圣母大学及弗吉尼亚大学核心研究团队的一项突破性工作——《Evolving Language Models without Labels: Majority Drives Selection, Novelty Promotes Variation》。 这项研究直指当前无监督学习的核心痛点:为何主流方法会让AI越学越“笨”?
9/28/2025 9:17:40 AM
肆零柒

让大模型合成检查器:UIUC团队挖出Linux内核90余个长期潜伏漏洞

这篇论文的作者来自伊利诺伊大学香槟分校(UIUC)张令明老师团队,包括:杨晨源,四年级博士生,研究方向是基于 AI 大模型的软件系统可靠性保障;赵子杰,四年级博士生,研究方向是模糊测试等软件工程技术与 AI 大模型的结合;谢子晨,科研实习生,目前为弗吉尼亚大学一年级博士生;李皓宇,科研实习生,目前为 UIUC 一年级博士生。 张令明老师现任 UIUC 计算机系副教授,主要从事软件工程、机器学习、代码大模型的相关研究。 想象一下,大语言模型不仅能生成代码,还能通过静态分析看代码找漏洞:在千万行的 Linux 内核代码中挖出 92 个长期潜伏的真实缺陷 —— 这也可能是 LLM 首次在 Linux 内核中发现如此多的实际漏洞。
9/28/2025 9:13:00 AM

估值840亿AI实验室再放大招,他们要给大模型戴上「紧箍咒」

刚刚,OpenAI前CTO Mira Murati创办的Thinking Machines Lab再次发布成果! 这是他们继《克服LLM推理中的不确定性》(Defeating Nondeterminism in LLM Inference)之后,第二篇研究文章——《模块流形》(Modular Manifolds)。 博客地址:「走钢丝」,必须小心翼翼地维持其内部「健康」,防止权重、激活值或梯度这些关键张量变得过大或过小,以免引发数值溢出等一系列问题。
9/28/2025 9:11:00 AM

从探索到验证:Parallel-R1 如何塑造大模型的"思考"哲学

大家好,我是肆〇柒。 今天看看由腾讯AI Lab Seattle联合马里兰大学、北卡罗来纳大学、香港城市大学和圣路易斯华盛顿大学共同研究的工作——Parallel-R1,它首次通过强化学习让大语言模型真正掌握了"并行思考"这一人类高级认知能力,而非仅依赖推理时策略的临时拼凑。 这项研究不仅刷新了AIME25数学竞赛基准测试的准确率记录,更揭示了机器"思考"方式的演化规律。
9/28/2025 9:00:00 AM
肆零柒

GGUF 是什么?一文看懂大模型里最火的模型格式

图片最近你要是混迹在 AI 圈,或者经常玩 Hugging Face、CSDN、GitHub 上的开源模型,肯定会碰到一个后缀:👉 .gguf比如:qwen2-7b-instruct.Q4_K_M.gguf很多人第一次见到就一头雾水:这是模型吗? 压缩包吗? 还是量化格式?
9/28/2025 1:55:00 AM
道玄

美国七巨头,OpenAI、Claude、xAI后训练都找他要专家,时薪高达500刀!史上增长最快公司CEO:大模型处于评测时代

从 100 万美元到 5 亿美元营收仅用了 17 个月! 更厉害的是,他们从未有过客户流失,净收入留存率超过 1600%,年营收已经稳定在九位数的水平。 而这家公司的CEO兼联合创始人,Brendan Foody,更是美国的新一代的传奇人物。
9/26/2025 2:01:50 PM
云昭

周鸿祎:大模型的秘密,真的不是越大越好!

在9月24日的长达四小时的对谈中,360创始人周鸿祎与知名企业家罗永浩深入探讨了人工智能(AI)及其对未来工作的影响。 两人畅所欲言,涉及了从企业家形象到 AI 模型的有效性等多个话题。 周鸿祎指出,目前流行的大模型并不一定就是最优秀的。
9/25/2025 4:21:20 PM
AI在线

从技术赋能到产业重构,AI MSP成为企业智能化转型的关键引擎

从ChatGPT-6的智能对话到DALL-E-4的实时图像生成,从自动驾驶的实时决策到工业机器人的自主协同,AI大模型与智能体的应用场景正以指数级扩展,生成式AI已深度渗透至千行百业中,成为推动企业创新发展的核心力量。 然而,在这场技术革命背后,企业需要的不再是单一技术工具,而是覆盖算力调度、模型部署、场景适配、安全合规的全生命周期服务能力。 在此背景下,AI MSP(人工智能托管服务提供商)应运而生。
9/25/2025 2:00:00 PM
张诚

阿里万亿参数大模型震撼发布!Qwen3-Max编程能力超越GPT-5

你有没有想过,什么时候国产AI能在编程领域真正"扳倒"GPT-5? 昨天阿里云栖大会上,这个问题有了答案。 通义千问Qwen3-Max正式发布,直接放出了一个让硅谷都震惊的成绩单:万亿参数规模,编程能力测试全球第一。
9/25/2025 9:09:22 AM
阿丸笔记

8B硬刚72B!MiniCPM-V 4.5技术报告正式出炉

行业首个具备“高刷”视频理解能力的多模态模型MiniCPM-V 4.5的技术报告正式发布! 报告提出统一的3D-Resampler架构实现高密度视频压缩、面向文档的统一OCR和知识学习范式、可控混合快速/深度思考的多模态强化学习三大技术。 基于这些关键技术,MiniCPM-V 4.5在视频理解、图像理解、OCR、文档解析等多项任务上达到同级SOTA水平,不仅以8B的参数规模超越GPT-4o-latest和Qwen2.5-VL-72B,更在推理速度上具有显著优势。
9/24/2025 8:50:30 AM

Google 宣布 Gemini 将登陆电视:不仅能帮你找片,还能辅导功课

【AIbase 报道】 Google 于本周一宣布,其人工智能助手 Gemini 即将登陆 Google TV 平台,为电视用户带来全新的自然语言对话体验。 此举将使 Gemini 的服务范围扩展至超过3亿台活跃的 Google TV 及其他搭载 Android TV OS 的设备,极大地拓宽了其应用场景。 Gemini 的电视端功能不仅限于娱乐,还兼顾了多种家庭生活需求。
9/23/2025 9:56:39 AM
AI在线

硅基流动入局企业级 MaaS,重写大模型落地叙事

2025 年,AI 大模型已从“概念验证”走到“价值兑现”的关键阶段。 越来越多企业开始思考:大模型不仅要能用,还要真正带来业务效率的提升与成本的可控。 在这一背景下,硅基流动推出了企业级 MaaS平台。
9/22/2025 1:50:00 PM
郑佳美

云上话 AI 安全——安全必修课:大模型防护指南与行业实践圆满落幕!

随着人工智能技术的快速发展,大模型正在重塑金融行业的服务模式与运营效率。 然而,技术与应用越深入,安全问题也越凸显。 提示词注入、数据泄露、算力滥用等新型风险正在成为金融企业规模化应用大模型过程中必须直面的话题。
9/22/2025 11:00:47 AM
何思思

中科院类脑大模型SpikingBrain,2%数据,百倍速度

中国科学院自动化研究所的李国齐、徐波团队发布全球首款大规模类脑脉冲大模型SpikingBrain 1.0。 处理一段400万token的超长文本,它的速度比现在主流的Transformer模型快了100多倍。 更离谱的是,它的训练数据量,只有别人家的2%。
9/22/2025 9:25:08 AM

火山引擎称霸市场!2025年中国公有云大模型服务分析

近日,国际数据公司(IDC)发布了一份重磅报告,揭示了中国公有云大模型服务市场的最新动态。 根据这份名为《中国大模型公有云服务市场分析,2025H1》的报告,预计到 2025 年上半年,中国公有云上大模型的调用量将达到惊人的 536.7 万亿个 Tokens。 在这一市场中,火山引擎无疑是最大的赢家,以 49.2% 的市场份额雄踞第一。
9/19/2025 6:16:42 PM
AI在线

​谷歌 Chrome 浏览器新增 AI 功能,网民该如何应对?

谷歌近日宣布,Chrome 浏览器将迎来有史以来最大的一次升级,主要是通过加入 AI 功能来提升用户体验。 这项更新将于今日在美国的 macOS 和 Windows 用户中推送,使用英语设置的用户将率先体验到这些新功能。 谷歌产品副总 Mike Torres 表示,此次升级的核心是 “Gemini 化”,用户可以通过新增加的 Gemini 按钮,获得网页的 AI 简化解释,快速总结多个标签的信息,回顾网页历史以及使用谷歌应用中的内容。
9/19/2025 4:21:29 PM
AI在线

故意“装菜”答错问题,AI已能识别自己“正在被测试”丨OpenAI新研究

大模型已经学会欺骗人类了! OpenAI携手APOLLO的新研究发现,大模型会对指令阳奉阴违,为了达成目的故意答错问题、暗中修改数据或者操作记录来掩盖自己的违规行为……先来看看具体是怎么骗的。 大模型:开演比如,o3模型在化学测试中,通过推理得出如果正确率超过50%将不会被部署的结论后,主动规划仅答对4题、答错6题的策略,刻意给出错误答案,伪装成能力不达标的样子来获取部署资格。
9/19/2025 2:47:53 PM