FlashMLA

DeepSeek FlashMLA：大模型推理的“涡轮增压器”

FlashMLA（Flash Multi-head Latent Attention）是DeepSeek针对英伟达Hopper架构GPU（如H800/H100）设计的高效解码内核，其核心技术围绕多头潜在注意力（MLA）机制展开，通过软硬件协同优化实现性能突破

2/25/2025 9:08:12 AM

AI在线

DeepSeek开源周“第一刀”砍向算力！重磅开源FlashMLA，挑战H800算力极限，网友直呼：极致的工程设计！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）上周五，DeepSeek刚刚预告了重磅开源周！周一一早，DeepSeek就履行承诺，开源了针对 Hopper GPU 的高效 MLA 解码内核——FlashMLA！图片根据DeepSeek介绍，FlashMLA内核针对变长序列进行了优化，是已投入生产的核心技术。

2/24/2025 12:52:46 PM

伊风

DeepSeek开源放大招：FlashMLA让H800算力狂飙！曝光低成本秘笈

就在刚刚，DeepSeek放出了开源周首日的重磅炸弹——FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核，特别针对变长序列进行了优化，目前已正式投产使用。经实测，FlashMLA在H800 SXM5平台上（CUDA 12.6），在内存受限配置下可达最高3000GB/s，在计算受限配置下可达峰值580 TFLOPS。

2/24/2025 11:32:57 AM

dream

刚刚，DeepSeek开源FlashMLA，推理加速核心技术，Star量飞涨中

上周五，DeepSeek 发推说本周将是开源周（OpenSourceWeek），并将连续开源五个软件库。第一个项目，果然与推理加速有关。北京时间周一上午 9 点，刚一上班（同时是硅谷即将下班的时候），DeepSeek 兑现了自己的诺言，开源了一款用于 Hopper GPU 的高效型 MLA 解码核：FlashMLA。

2/24/2025 10:28:00 AM

机器之心

DeepSeek 开源周首日：发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA，这是一款专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核。该技术特别针对变长序列场景进行优化，可显著提升大模型推理性能。 FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。

2/24/2025 10:18:00 AM

AI在线

资讯热榜

苹果发布全新Xcode 26开发者工具：内置ChatGPT先进AI功能 DeepSeek前高管秘密创业，新AI Agent项目已获顶级VC押注那个男人回来了！Ilya现身多伦多大学毕业典礼：AI 像是用数字方式复制出来的大脑！不管你愿不愿意，AI都将深刻影响你的一生！ ChatGPT 语音功能升级，实时翻译对话更自然流畅支持MCP！开源智能体开发框架 Rowboat：打造你的智能助手只需几分钟谷歌 Gemini 应用月下载量超越 ChatGPT，用户活跃度仍显不足长文本理解新王者?Gemini2.5Pro 击败 o3领跑 Fiction.Live 基准测试肝了30小时，Flux Kontext是我用过最稳、最能干活的AI图像模型！

标签云

人工智能 AI OpenAI AIGC 模型 ChatGPT DeepSeek AI绘画数据谷歌机器人大模型 Midjourney 用户智能开源微软 GPT 学习 Meta 图像技术 AI创作 Gemini 论文马斯克 Stable Diffusion 算法代码英伟达 Anthropic 芯片生成式开发者蛋白质腾讯神经网络研究 3D 生成训练苹果计算智能体 Sora 机器学习 AI设计 AI for Science Claude GPU AI视频人形机器人华为搜索场景百度大语言模型 xAI 预测伟达深度学习 Transformer 字节跳动 Agent 模态具身智能神器推荐 LLaMA 文本视觉 Copilot 算力工具 LLM 驾驶 API 大型语言模型应用 RAG 亚马逊