AIGC宇宙 AIGC宇宙

DeepSeek V3.1 Base突袭上线!击败Claude 4编程爆表,全网在蹲R2和V4

就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。 图片本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。 综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。

就在昨晚,DeepSeek官方悄然上线了全新的V3.1版本,上下文长度拓展到128k。

图片图片

本次开源的V3.1模型拥有685B参数,支持多种精度格式,从BF16到FP8。

综合公开信息和国内大咖karminski3的实测,V3.1此次更新亮点有:

  • 编程能力:表现突出,根据社区使用Aider测试数据,V3.1在开源模型中霸榜。
  • 性能突破:V3.1在Aider编程基准测试中取得71.6%高分,超越Claude Opus 4,同时推理和响应速度更快。
  • 原生搜索:新增了原生「search token」的支持,这意味着搜索的支持更好。
  • 架构创新:线上模型去除「R1」标识,分析称DeepSeek未来有望采用「混合架构」。
  • 成本优势:每次完整编程任务仅需1.01美元,成本仅为专有系统的六十分之一。

值得一提的是,官方群中强调拓展至128K上下文,此前V3版本就已经支持。

图片图片

对于这波更新,大家的热情可谓是相当高涨。

即便还未公布模型卡,DeepSeek V3.1就已经在Hugging Face的趋势榜上排到了第四。

图片图片

DeepSeek粉丝数已破8万DeepSeek粉丝数已破8万

看到这里,网友们更期待R2的发布了!

图片图片

混合推理,编程击败Claude 4

这次最明显的变化是,DeepSeek在官方APP和网页端上,把深度思考(R1)中的「R1」去掉了。

图片图片

同时,与V3-base相比,DeepSeek V3.1新增了四个特殊Token:

  • <|search▁begin|> (id: 128796)
  • <|search▁end|> (id: 128797)
  • <think> (id: 128798)
  • </think> (id: 128799)

图片图片

对此,有推测认为,这可能暗示推理模型与非推理模型的融合。

图片图片

在编程方面,根据网友曝出的结果,DeepSeek V3.1在Aider Polyglot多语言编程测试中拿下了71.6%高分,一举击败了Claude 4 Opus、DeepSeek R1。

图片图片

而且,它的成本仅1美元,成为非推理模型中的SOTA。

图片图片

最鲜明的对比,V3.1编程性能比Claude 4高1%,成本要低68倍。

图片图片

在SVGBench基准上,V3.1实力仅次于GPT-4.1-mini,远超DeepSeek R1的实力。

图片图片

在MMLU多任务语言理解方面,DeepSeek V3.1毫不逊色于GPT-5。不过在,编程、研究生级基准问答、软件工程上,V3.1与之有一定的差距。

图片图片

一位网友实测,模拟六边形中小球自由落体的物理测试,DeepSeek V3.1理解力明显提升。

图片图片

一手实测

第一时间,我们对V3.1进行了实测,首先是此次模型更新的重点:上下文长度。

假设对于中文而言,1个token ≈ 1–1.3个汉字,那么这128K tokens ≈ 100,000–160,000汉字。

相当于整本《红楼梦》正文(约80–100万字)的1/6–1/8,或者一篇超长博士论文/大部头学术专著。

实际测试也很准确,DeepSeek告诉我们它只能阅读差不多9%,也就是大约十分之一。

图片图片

由于总结内容太长,我们截取了前三回,你觉得这个总结的怎么样?

图片图片

在128K上下文测试中,DeepSeek-V3.1输出速度相比以往获得较大提升,并且在工程上做了一些优化。

图片图片

此次更新,DeepSeek重点强调了对上下文的支持。

整个活,给DeepSeek-V3.1上点压力,让它根据「梦」这个字,输出尽可能多的内容,尽量达到上下文极限。

图片图片

不过最后,差不多只输出了3000字左右,模型就停止了输出。

图片图片

再来看下推理能力。

经典的9.11和9.9比大小问题,两种询问方式都能正确做答。

这次更新的一大体感还是速度变快了很多。

图片图片

最后再来看看编程能力。

DeepSeek的上一个模型是R1-0528,主打的是编程能力。

看看这次V3.1是否有更大的提升。

图片图片

最终结果只能说,打个80分吧,基本要求都满足了,但是画面风格和颜色变换功能并没有完美实现。

图片图片

并且和R1-0528的结果相比,两者之间还是有些差距的,但孰好孰坏还需看个人偏好。

以下是开启思考模式后的结果,你觉得哪个更好?

图片图片

接下来,看看DeepSeek V3.1能否复刻出GPT-5发布会上的法语学习小程序。

我们再来让V3.1画一个自己的SVG自画像,两种效果着实有些抽象。

图片图片

图片图片

图片图片

参考资料:HYX

https://weibo.com/2169039837/Q0FC4lmeo  

https://x.com/karminski3/status/1957928641884766314  

https://github.com/johnbean393/SVGBench/  

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

相关资讯

我用 Claude Sonnet 和 DeepSeek R1 开发一个同样的工具,看谁更厉害!

先给 DeepSeek 泼一盆冷水,DeepSeek 在编程能力上和 Claude Sonnet 还是差了一大截的。 下面有使用 Sonnet 3.5 和 DeepSeek R1 配合 Trae 实现一个推文生成图片卡片小插件的过程,功能虽小,但还是能看出差距的。 这两天 Trae 不是推出了国内版吗 (), 搭载豆包和 DeepSeek 大模型,因为之前 Trae 国际版是支持 Claude Sonnet 的,最开始是 3.5,后来 Claude 升级了 3.7,隔了一天 Trae 就跟进了,而且也是完全免费的。
3/6/2025 12:22:00 AM
风筝

用不了ChatGPT?快试试免费又强大的Anthropic Claude

大家好,这里是和你们一起探索 AI 的花生~ 前段时间 OpenAI 不稳定导致有些小伙伴没有办法继续使用 ChatGPT 了,不过没有关系,最近又新出现了一个 AI 聊天机器人 Claude,功能与 ChatGPT 不相上下,还比 ChatGPT 更容易获取和使用,目前可以免费使用,一起来看看吧~ 往期回顾:一、Claude 简介 Anthropic 官方: Claude 是最近新开放的一款 AI 聊天机器人,是世界上最大的语言模型之一,比之前的一些模型如 GPT-3 要强大得多,因此 Claude 被认为是
4/23/2023 7:51:39 AM
夏花生

Claude 3.7 Sonnet深夜上线,AI编程的天又被捅破了

AI 这个行业真的卷生卷死,凌晨 2 点半,刚想早睡一点点,9 点起来蹲 DeepSeek 的开源。 结果,Claude 直接玩偷袭了。 Claude 3.7 Sonnet 来了,也是 Claude 家族,第一个能推理的模型。
2/26/2025 12:54:18 AM
数字生命卡兹克
  • 1