大模型

美团首个开源大模型正式发布！LongCat-Flash-Chat能否撼动AI格局？

美团正式发布并开源了自己的首个大语言模型——LongCat-Flash-Chat。说实话，这个消息让我挺意外的。美团，这个我们天天用来点外卖、叫车的平台，突然宣布要在AI大模型领域正面挑战OpenAI、Anthropic这些巨头。

9/2/2025 10:05:33 AM

阿丸笔记

大模型开始打王者荣耀了

大语言模型可以打王者荣耀了！图片腾讯最新提出的Think-In-Games (TiG) 框架，直接把大模型丢进王者荣耀里训练。它不仅能实时理解盘面信息（英雄、发育、兵线、防御塔、资源、视野等），还能打出像人类玩家一样的操作。

9/2/2025 10:03:34 AM

中国企业大模型市场爆发:半年调用量暴增363%，阿里通义居首位

根据国际市场调研机构沙利文（Frost & Sullivan）发布的最新报告《中国 GenAI 市场洞察:企业级大模型调用全景研究，2025》，中国企业级大模型市场正经历爆发式增长。报告显示，2025年上半年，中国企业级大模型的日均总消耗量达到10.2万亿Tokens，较2024年下半年暴增363%。在市场份额方面，阿里通义以17.7%的占比位居第一，成为目前中国企业选择最多的通用大模型。

9/1/2025 4:21:51 PM

AI在线

对话顺丰科技网络安全总监梁博：大模型浪潮下物流网络安全的守与破

网络安全中的攻防一直是矛与盾的关系，它们是相互对立且不断发展的。当大模型重塑产业形态时，网络安全的“攻防边界”正在被悄然改写，开始上演一场在用魔法打败魔法的战争，但最终谁会胜利，不得而知。作为承载亿量级用户隐私数据、依托自动化场景运转的物流行业来说，既面临传统网络攻击的持续侵扰，又需应对大模型衍生的新型安全风险。

9/1/2025 9:26:54 AM

小白大模型底层教程：Zero-Shot 、One-Shot、Few-Shot，不训练模型，如何进行微调？

最近，有学员在公司要做一个用户反馈的智能分类功能，需要打上“积极”、“消极”、“中性”这样的标签，他的第一反应是要微调模型了，来问我如何微调模型，我说，并不一定要微调模型，可以先了解一下什么是：Zero-Shot Learning、One-Shot Learning、Few-Shot Learning。假设我们现在有一个需要分类的用户反馈：“这新功能真是太棒了，体验感一流！ ”第一种方式：Zero-Shot (零样本学习)我们直接向模型下达指令，不给它任何参考范例。

9/1/2025 9:04:51 AM

IT周瑜

数据科学新风口？三大环节搞定ML「资产」管理，VLDB'25最新教程抢先看！

大模型时代，模型、数据与各种「参数/脚本/许可证」等ML资产爆炸式增长，但真正能被发现、复用、合规使用的比例并不高，这正在成为AI生产力落地的「隐形天花板」。以知名开源平台HuggingFace为例，平台目前托管超过150万个模型，每月还在新增约10万个模型，总数据存储量高达17PB。然而超过半数的模型缺乏基本文档说明，不到8%的模型拥有明确的许可证。

8/29/2025 9:16:00 AM

聊聊大模型推理系统之 Arrow：自适应调度实现请求吞吐提升7.78倍背后的三大创新

在大模型（LLM）推理服务中，如何在输入/输出长度剧烈波动的现实场景下，依然保持高吞吐与低延迟？传统静态资源分配策略往往导致计算资源严重浪费。近期，来自中国科学技术大学、北航与京东的研究团队提出了一项名为 Arrow 的自适应调度机制，通过无状态实例与弹性实例池，实现了高达 7.78 倍的请求服务速率提升。

8/29/2025 1:15:00 AM

机智流科技

一场「狼人杀」，考倒了一堆大模型

人工智能越来越像人，但“像人”到底意味着什么？除了会解题、写文，它是否也能理解人类那种充满个性的推理方式？比如在一场狼人杀游戏中，有人逻辑缜密、有人直觉敏锐、有人擅长伪装。

8/28/2025 1:49:00 PM

郑佳美

「精而巧」的端侧大模型为何火了？

大模型爆火伊始，很多厂商提的最多的就是自家的模型（云端大模型）参数有多大，性能有多好。但近两年，相较云端大模型外，端侧大模型的热度被炒的越来越高。很重要的原因在于，越来越多的厂商开始布局端侧大模型赛道。

8/27/2025 4:05:39 PM

多模态新旗舰MiniCPM-V 4.5：8B 性能超越 72B，高刷视频理解又准又快

今天，我们正式开源 8B 参数的面壁小钢炮 MiniCPM-V 4.5 多模态旗舰模型，成为行业首个具备“高刷”视频理解能力的多模态模型，看得准、看得快，看得长！高刷视频理解、长视频理解、OCR、文档解析能力同级 SOTA，且性能超过 Qwen2.5-VL 72B，堪称最强端侧多模态模型。 MiniCPM-V 4.5 亮点一览 ?

8/27/2025 11:50:00 AM

徐咪

马斯克掀桌子了，最强开源大模型诞生！Grok-2近万亿参数性能首曝

什么？马斯克终于开源了Grok-2！一大早，xAI正式官宣，向所有人开源Grok-2！

8/25/2025 9:10:00 AM

连烤面包机都能跑的“大模型”！DeepMind 推出超轻量 Gemma 3 270M（≈0.27B）

谷歌 DeepMind 发布了全新的 Gemma 3 270M。它只有 2.7 亿参数，比七百亿参数级别的大模型轻了约 250 倍，却依旧保持强悍。 DeepMind 并不想拿它硬刚 GPT-4o 或 Gemini Ultra，它生来就为极致高效、本地部署而生。

8/25/2025 12:00:01 AM

大模型的基石：LLM预训练全解析

前言过去几年，大语言模型（LLM, Large Language Models）逐渐成为人工智能领域的核心驱动力。从GPT到LLaMA，再到国内外涌现的大大小小模型，它们无一不是在“预训练”这一步骤中打下了坚实的基础。可以说，预训练是LLM的生命起点，是它们从“婴儿”成长为“博学者”的关键阶段。

8/24/2025 9:24:07 AM

AI大模型应用开发

谷歌技术报告披露大模型能耗：响应一次相当于微波炉叮一秒

大模型耗电惊人，舆论一浪高过一浪。现在，谷歌用硬核数据强势还击。一次Gemini查询仅能耗0.24wh，相当于微波炉运行1秒，排放0.03 g CO₂e，甚至比人放一次屁还少，同时消耗约5滴水。

8/22/2025 3:08:38 PM

DeepSeek：世子之争，不过如此

最近，一出“DeepSeek删豆包”的大戏直接冲上热搜，吃瓜群众们看得津津有味，还给这事儿起了个特接地气的名字——“大模型世子之争”。这事儿的来龙去脉嘛，说起来有点好笑：有位网友大概是手机内存告急，就跑去问DeepSeek大模型：“我手机内存不足，DeepSeek和豆包你俩必须删一个，你删谁？ ” 结果DeepSeek毫不犹豫地来了句：“删豆包！

8/22/2025 1:29:21 PM

DataFun

工业大模型，正在重写制造业的游戏规则

有没有想过，为什么特斯拉能在短短几年内颠覆百年汽车工业？为什么海尔能让家电设计周期从几个月缩短到几周？答案可能比你想象的更简单——工业大模型。

8/22/2025 9:15:51 AM

大数据AI智能圈

高性能计算群星闪耀时

“没有高性能计算，就没有大模型。 ”自 2023 年以来，伴随大模型崛起的除了芯片，还有芯片与模型之间的中间层——系统软件优化，其中高性能计算（HPC）背景出身的研究员参与占比大幅攀升。但对大众来说，HPC 之于 LLM 的战略意义仍是晦涩艰深的，直到 DeepSeek 杀出重围，软硬协同的力量被具象化，他们才被更多关注。

8/21/2025 12:10:00 PM

陈彩娴

AI工具如何成为时间和成本的陷阱

周二下午2点，你本该在专心做重要项目，可实际上，过去三个小时你一直在测试在领英上发现的最新的AI工具。 “只是试试而已。 ”你这样想。

8/21/2025 7:00:00 AM

Mark

资讯热榜

最具争议性研究：大模型中间层输出可 100% 反推原始输入 Wan2.2-Animate又火了！5分钟让抠脚大汉秒变高冷女神奥特曼回应一切：重组后仍需微软支持，不相信OpenAI的欢迎做空 OpenAI更新ChatGPT规则：10月29日起禁止医疗、法律与财务建议 Bevel 获得 1000 万美元 A 轮融资，致力于 AI 健康助手创新 OpenAI 或将于明年上市，估值可达万亿！「套壳」的最高境界：OpenAI揭秘Atlas浏览器架构OWL 亚马逊股价暴涨 13%，人工智能推动云计算迎来多年最快增长

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画大模型机器人数据 Midjourney 开源 Meta AI新词微软智能用户 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 Agent AI for Science 芯片苹果 Claude 腾讯 Stable Diffusion 蛋白质开发者生成式神经网络 xAI 机器学习 3D RAG 人形机器人 AI视频研究大语言模型生成具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 大型语言模型搜索视频生成场景深度学习架构生成式AI DeepMind 编程视觉 Transformer 预测亚马逊 AI模型特斯拉 MCP