大模型

深度解析大模型技术演进脉络：RAG、Agent与多模态的实战经验与未来图景

作者 | jaymie大模型作为产业变革的核心引擎。通过RAG、Agent与多模态技术正在重塑AI与现实的交互边界。三者协同演进，不仅攻克了数据时效性、专业适配等核心挑战，更推动行业从效率革新迈向业务重构。

5/20/2025 8:30:00 AM

腾讯技术工程

Transformer 模型结构详解及代码实现!

一、Transformer简要发展史以下是Transformer模型发展历史中的关键节点：Transformer架构于2017年6月推出。原本研究的重点是翻译任务。随后推出了几个有影响力的模型，包括：时间模型简要说明2017 年 6 月「Transformer」Google 首次提出基于 Attention 的模型，用于机器翻译任务2018 年 6 月「GPT」第一个使用 Transformer 解码器模块进行预训练的语言模型，适用于多种 NLP 任务2018 年 10 月「BERT」使用 Transformer 编码器模块，通过掩码语言建模生成更强大的句子表示2019 年 2 月「GPT-2」更大更强的 GPT 版本，由于潜在风险未立即发布，具备出色的文本生成能力2019 年 10 月「DistilBERT」BERT 的轻量化版本，在保留 97% 性能的同时，速度更快、内存占用更低2019 年 10 月「BART、T5」使用完整的 Encoder-Decoder 架构，在各种 NLP 任务中表现优异2020 年 5 月「GPT-3」超大规模语言模型，支持“零样本学习”，无需微调即可完成新任务这个列表并不全面，只是为了突出一些不同类型的 Transformer 模型。

5/20/2025 8:15:00 AM

郭小喵玩AI

使用 Unsloth 高效微调 Qwen3，国产大模型的轻量化和部署实践

近年来，大语言模型在自然语言处理任务中取得了显著进展。然而，对于开发者和中小型企业，模型微调的资源需求仍是一个挑战。本文将讨论如何利用 Unsloth 框架，在有限的硬件资源下完成 Qwen3-14B 的高效微调，并支持后续部署。

5/19/2025 9:32:06 AM

口袋数据

向量存储瘦身术：智能问答系统的空间优化革命

在AI智能问答系统中，向量数据库的存储压力越来越大。随着知识库规模扩大，如何高效压缩存储空间正在被大家所关注。本文将介绍一种方案，实现节省知识库占用空间，避免数据量无限制的增长。

5/16/2025 10:01:31 AM

贝塔街的万事屋

高考AI志愿规划师之争：靠谱AI指责优志愿虚假宣传

靠谱AI近日发布声明，指责竞争对手优志愿的升学规划大模型存在虚假宣传行为。这场 “高考 AI 志愿规划师” 的争夺战引起了广泛关注。据靠谱 AI 透露，自2024年4月28日以来，优志愿通过其官方公众号及 “优家 SaaS 平台” 声称其大模型是 “全行业首个通过工信部备案” 的升学规划工具，并自称为 “国内首发”。

5/15/2025 4:00:55 PM

AI在线

腾讯宣布混元图像2.0将于5月16日全新发布

今日，腾讯混元大模型团队今日正式宣布，其新一代多模态图像生成工具——混元图像2.0将于5月16日上午11时通过全球直播发布。这是继去年混元大模型升级后，腾讯在AI视觉领域的又一次重大突破，以“更智能、更开放、更中国”为核心理念，赋能创作者与企业用户迈向AI驱动的视觉生产新阶段。

5/15/2025 4:00:30 PM

AI在线

32B 稠密模型推理能力超越 R1？秘密 AI 团队发布推理小模型 AM-Thinking-v1

在大模型竞速进入推理能力深水区的 2025 年，一支神秘的团队悄然登场。他们不是来自一线大厂的 AI Lab，也没有高调预热和融资造势，而是在 Hugging Face 低调开源了一款 32B 的推理模型：AM-Thinking-v1。令人惊讶的是，这个中等规模的稠密模型，在多个关键推理评测中击败了 DeepSeek-R1，并与超大规模的 MoE 模型Qwen3-235B-A22B、Seed1.5-Thinking 不相上下。

5/15/2025 2:39:00 PM

郑佳美

首次披露！DeepSeek V3 发布软硬一体协同训练论文，公开“降成本”秘诀

就在刚刚，DeepSeek团队发布最新论文《洞察 DeepSeek-V3：规模的挑战和对AI架构硬件的思考》。论文链接：，论文采用了双重视角——跨越硬件架构和模型设计，通过研究这种协同作用，探索 DeepSeek-V3 如何实现经济高效的大规模训练和推理。随着 OpenAI o1/o3、DeepSeek-R1、Claude-3.7 Sonnet 等先进模型的出现，大规模架构和上下文推理的进步强调了对更快、更高效推理的需求。

5/15/2025 2:32:00 PM

郑佳美

新一代开源3D模型 Step1X-3D 亮相，AI行业新动向引关注

近日，科技领域迎来了一款全新的开源3D 大模型 —— 阶跃星辰 Step1X-3D。该模型的发布，标志着 AI 技术的又一次重大进步，尤其是在3D 建模和推理能力方面。该模型不仅开源，且针对开发者提供了多种实用的功能，极大地促进了创新和研究的可能性。

5/15/2025 11:02:25 AM

AI在线

AI+数据智能体的三大支点：数据治理、知识库和大模型

当销售部喊出"业绩增长15%"，财务部却坚称"只有8%"。会议室里争论不休，时间流逝，竞争对手已经抢占先机。你不禁自问：明明砸了千万建设数据系统，为何企业依然深陷数据内耗？

5/15/2025 9:56:32 AM

大数据AI智能圈

昆仑万维推出开源Matrix-Game大模型，推动游戏世界的智能生成

近日，昆仑万维正式宣布开源其最新的 Matrix-Game 大模型，这一模型以其超过10亿参数的规模，成为了工业界首个开源的空间智能大模型，标志着交互式世界生成技术的重大突破。 Matrix-Game 不仅支持知名游戏《我的世界》，还专为开放式环境中的高质量生成和精确控制而设计。 Matrix-Game 大模型的核心在于其三大组成部分。

5/13/2025 12:00:52 PM

AI在线

合合信息推出 MCP 服务，助力大模型高效智能文档处理

在人工智能和大模型技术飞速发展的今天，如何高效调用外部工具已成为开发者们面临的新挑战。不同大模型的调用结构和参数格式各不相同，导致开发者不得不为每种模型单独编写工具调用逻辑，进而影响了集成的效率。为了解决这一难题，合合信息近日推出了文档处理领域首批 MCP（Model Context Protocol）服务，为企业和开发者提供了一个 “万能接口”。

5/13/2025 9:00:52 AM

AI在线

国产大模型「五强争霸」，决战AGI！

DeepSeek的横空出世，已经彻底改变了全球的AI局势。从此，不仅中美大模型竞争格局改变，国产大模型的产业版图，也被一举打破！纵观中国基础大模型的市场，可以看到，如今的基础大模型版图已然改天换地，演变为全新的五强格局——字节、阿里、阶跃星辰、智谱，以及DeepSeek。

5/13/2025 2:00:22 AM

新智元

痛斥！现在的MCP，就像尿裤子！创业CTO试用后怒气值飙升，开怼整个大模型圈怪象：开发文档用大模型写的！网友：召唤MCP适配器

作者 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）现在的MCP乃至大模型开发圈，就像尿了裤子！一开始热乎乎的，然后就开始难受了！近日，一篇有关MCP深度批判的博客文章《A Critical Look at MCP》在网络上走红。

5/12/2025 3:07:01 PM

云昭

国内首个自研通用具身智能大模型 “自变量机器人” 完成数亿元融资

近日，具身智能公司 “自变量机器人” 宣布成功完成了 Pre-A 轮和 A 轮两轮融资，融资总额达到数亿元。这一融资活动由华映资本和美团领投，标志着该公司在推动通用具身智能技术的道路上迈出了重要一步。自变量机器人自2023年成立以来，已完成七轮融资，累计融资金额超过10亿元。

5/12/2025 3:00:52 PM

AI在线

一年半融资七轮超10亿!自变量机器人再获美团数亿元A轮加码

据《智能涌现》消息，成立不到一年半的具身智能公司「自变量机器人」（X Square Robot）近日完成数亿元A轮融资，由美团战投领投，美团龙珠跟投。本轮资金将主要用于加速其全自研端到端通用具身智能大模型与机器人本体的同步迭代，并推动未来在多个应用场景的智慧化方案合作与落地。值得注意的是，在本次A轮融资前，自变量机器人还完成了由光速光合、君联资本领投的数亿元Pre-A 轮融资（今年2月披露），以及由华映资本、云启资本、广发信德投资的数亿元Pre-A 轮融资。

5/12/2025 10:01:17 AM

AI在线

Copilot上大分，仅数天，陶哲轩的估计验证工具卷到2.0！刚刚又发数学形式化证明视频

本周二，我们报道了菲尔兹奖得主陶哲轩的一个开源项目 —— 在大模型的协助下编写了一个概念验证软件工具，来验证涉及任意正参数的给定估计是否成立（在常数因子范围内）。在项目中，他开发了一个用于自动（或半自动）证明分析中估计值的框架。估计值是 X≲Y（在渐近记法中表示 X=O (Y)）或 X≪Y（在渐近符号中表示 X=o (Y)）形式的不等式。

5/12/2025 9:05:00 AM

曝国行版iOS18.6启用部分苹果AI 百度阿里提供技术支持

近日，苹果记者Mark Gurman爆料称，国行版苹果iOS18.6即将启用部分Apple Intelligence功能，而这一功能的实现将由百度和阿里共同提供技术支持。据了解，在此次合作中，阿里负责开发审查引擎。与此同时，百度将自身AI技术与苹果的Siri和Visual Intelligence进行深度整合。

5/11/2025 10:00:42 AM

AI在线

资讯热榜

Wan2.2-Animate又火了！5分钟让抠脚大汉秒变高冷女神最具争议性研究：大模型中间层输出可 100% 反推原始输入奥特曼回应一切：重组后仍需微软支持，不相信OpenAI的欢迎做空 Bevel 获得 1000 万美元 A 轮融资，致力于 AI 健康助手创新亚马逊股价暴涨 13%，人工智能推动云计算迎来多年最快增长 OpenAI更新ChatGPT规则：10月29日起禁止医疗、法律与财务建议 OpenAI 或将于明年上市，估值可达万亿！「套壳」的最高境界：OpenAI揭秘Atlas浏览器架构OWL

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta AI新词微软智能用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果 Claude 腾讯 Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人 AI视频研究大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习架构生成式AI DeepMind 编程视觉 Transformer 预测亚马逊 AI模型特斯拉 MCP