AIGC宇宙 AIGC宇宙

刚刚,DeepSeek开源V3.2-Exp,公开新稀疏注意力机制DSA

还是熟悉的节奏! 在假期前一天,DeepSeek 果然搞事了。 刚刚,DeepSeek-V3.2-Exp 开源了!

还是熟悉的节奏!

在假期前一天,DeepSeek 果然搞事了。

图片

刚刚,DeepSeek-V3.2-Exp 开源了!

图片

该模型参数量为 685B,HuggingFace 链接:

https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp

此外,此次发布竟然也同步公开了论文,公开了 DeepSeek 新的稀疏注意力机制,为我们提供了更多结束细节:

图片

https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

DeepSeek Sparse Attention(DSA)稀疏注意力机制

在官方介绍中,DeepSeek 表示 DeepSeek-V3.2-Exp 是实验版本。作为迈向下一代架构的过渡,V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek 稀疏注意力机制(DeepSeek Sparse Attention,DSA)—— 一种旨在探索和验证在长上下文场景下训练和推理效率优化的稀疏注意力机制。

DSA 也是 3.2 版本的唯一架构改进。

图片

      DeepSeek-V3.2-Exp 的架构,其中 DSA 在 MLA 下实例化。

重点要说的是,DeepSeek 称该实验版本代表了他们对更高效的 Transformer 架构的持续研究,特别注重提高处理扩展文本序列时的计算效率。

图片

在 v3.2 版本中,DeepSeek 稀疏注意力 (DSA) 首次实现了细粒度稀疏注意力,在保持几乎相同的模型输出质量的同时,显著提高了长上下文训练和推理效率。

为了严格评估引入稀疏注意力机制的影响,DeepSeek 特意将 DeepSeek-V3.2-Exp 的训练配置与 9 月 22 日刚刚推出的 V3.1-Terminus 进行了对比。在各个领域的公开基准测试中,DeepSeek-V3.2-Exp 的表现与 V3.1-Terminus 相当。

图片

更多信息,读者们可以查阅 DeepSeek-V3.2-Exp 的 huggingface 介绍。

值得一提的是,智谱的 GLM-4.6 也即将发布,在 Z.ai 官网可以看到,GLM-4.5 标识为上一代旗舰模型。

图片

最后,有一波小节奏。在模型发布前,已经有网友在 Community 里发帖称:国庆是休息日,请给我们关注的同学一点休息时间。

图片对此,你怎么看?

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

专家圆桌:“国产类 ChatGPT ”所存在的差距与挑战

内容来源:ChatGPT 及大模型专题研讨会 转载自CSDN稿件在经历寒冬、雾霾,甚至大家纷纷看不到希望之际,ChatGPT 犹如一场春雨,给做 AI 甚至 NLP 等研究的人带来了新的希望。3 月 11 日,由中国人工智能学会主办,中国人工智能学会 NLP 专委会、真格基金、达观数据共同承办,中国信通院云大所支持的「ChatGPT 及大模型专题研讨会」正式举行。在圆桌对话环节,来自学术界、产业界及投资界的知名专家学者,就 ChatGPT 引发的新 AI 浪潮、大模型“基础模型”论、“国产类 ChatGPT ”所存
4/21/2023 9:41:00 AM
达观数据

ChatGPT在iOS美区下载火爆,6天内下载量超过 50 万次

Open AI ChatGPT正在美版iOS市场大杀四方。5月26日,根据App分析厂商Data.AI的消息,ChatGPT在推出后的六天内已经突破了50万次下载,成为美区最近两年内增长速度最快的新应用之一。与此同时,ChatGPT正在美区APP Store掀起一股AI聊天热潮,相关领域的一些消费欺诈也随着ChatGPT的火爆而出现。据TechCrunch报道,随着消费者热情不断高涨,许多其他自称为“ChatGPT”或“AI聊天机器人”的第三方应用也纷纷涌入App Store。其中许多其实本质上都是欺诈应用,试图欺
5/26/2023 7:23:00 PM
yangdz
  • 1