出品 | 51CTO技术栈(微信号:blog51cto)
DeepSeek 于 5 月 28 日晚间在微信平台低调宣布——R1 模型完成“小版本试升级”!
图片
这波有多低调呢?DeepSeek 又是“0 宣发”出手,连一句英文公告都没有。海外网友想知道发生了什么,只能翻译我们在微信上这则小通知。
图片
今天凌晨,新的R1已经上线抱抱脸了,同样采用的是MIT协议。
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
不过大家期待的模型卡部分仍然是空白,目前也没有官方的基准测试。
图片
但懂行的人一看就知道,DeepSeek 又是在“闷声干大事”。
图片
这次更新“虽小”,但用料却非常猛,让网友实测后惊呼:“这还叫小版本?”
最新更新的 DeepSeek R1 在 LiveCodeBench 上几乎与 openAI o3-high 模型打成平手!
图片
不少网友实测它的编程能力,直指可以媲美 Gemini 2.5 Pro,和一众顶级模型掰手腕。
图片
更令人惊喜的是,实测显示它在思维链、写作能力、长文本处理等方面也有显著进步。
- 思维链(Chain-of-Thought)能力显著提升
- 长时间思考更稳定,每个任务最多 30-60 分钟
- 写作表现更加自然、结构更清晰
1.编程能力显著提升,实测表现甚至超越Gemini 2.5 Pro和Opus 4
Reddit 上一条高赞评论写道:新版的 R1 “dangerously insane”(致命地疯狂)。
“我刚刚用 DeepSeek R1-0528 成功解决了 RooCode 上一些进行中的编程难题。”
不仅如此,其他网友在使用了R1的编程之后,也纷纷化身“自来水”:
一次性跑通了我所有 Claude 3.7 用过的提示词,甚至包括 Claude 3.7 和 Opus 4 都失败过的那些。到目前为止,我真的非常惊讶。
图片
我可以确认这一点。我试了几个我常用的 JavaScript 提示词,它一次就生成了我目前见过最好的实现版本。
图片
除了“能写代码”,R1 在前端 UI 生成上的理解能力也被多位用户提及。例如,有开发者使用新版 R1 一次性生成了一个完整的学生信息管理系统,界面结构清晰、交互完整:
图片
甚至还有用户尝试构建“商品库存管理平台”时,直接获得了 1000 多行可用代码。不仅没有报错,所有按钮都能正确执行出库、入库等逻辑操作。
来源:X用户@op7418
小编也尝试测试了新版R1在交互式前端动画上的表现,输入的 prompt 是:
写一个模拟小球被弹簧牵引上下振荡的动画。初始位置偏离平衡点后开始往返运动,带阻尼效果。用 JS 和 canvas 实现。
结果页面不仅完成了动画逻辑,还自动生成了弹簧系数、阻尼系数的调节面板。代码结构清晰,几乎无需调试,已经具备了轻量交互系统的原型能力。这种水平,给初高中生课堂做课堂演示都够用了!
2.R1超长思考化身“深度研究”,每个任务最多 30-60 分钟
有网友在 X 上分享,更新后的R1居然能思考超过25分钟!!!
据了解,在某些任务下R1的思考甚至能飙升到30-60分钟,这是多么疯狂的算力燃烧。
图片
这位网友说,在任务期间新的R1不断补充新的信息源,表现出类似 OpenAI “深度研究”功能的行为。
图片
为了测试是否长时间思考是否能做“深度研究”,小编决定进行测试,首先是看看生成技术报告的能力,输入prompt:
搜索大量的信息,帮我生成一份小米玄戒芯片的报告
不过,这个指令没有触发R1的长时间思考,模型思考31秒,搜索了46个网页后就开始给定答案了,不过非常强悍的是,这份报告结构完整,生成的内容长度远远超越了前代R1,正文足有洋洋洒洒5千字内容:
图片
第二次升级了问题的难度,请R1解决一个复杂的几何建模问题:
一个点 P 绕圆心 O 做匀速圆周运动,半径为 R,周期为 T。与此同时,点 Q 从 P 的初始位置出发,沿直线匀速前进,方向始终指向点 P 当前的位置,速度为常数 v(小于点 P 的切线速度)。建立点 Q 的运动路径的数学模型(最好用微分方程或参数方程表示)。(除此之外还追加了小的任务,比如要用代码画出 Q 的实际轨迹图像,模拟其随时间变化的路径。)
这个问题也只用了279秒完成了,目前不清楚什么问题才能触发超长思考。
图片
除了长时间思考,cot的推理风格也发生了一些变化,和答案的衔接会更流畅、符合用户阅读习惯。
图片
3.写作风格的自然进化:不再迷恋“量子纠缠”
当然,这次 R1 的提升不仅体现在推理和编程上,在文本生成的风格表达上也迈出了一大步。
前代 R1 有个比较突出的风格特征:AI 输出常常带有浓厚的 “deepseek 语感”——无论什么题材,时常夹杂“星云”、“量子纠缠”、“赛博朋克”、“宇宙的尽头”等充满科幻感的意象。
虽然偶尔增添了一点 AI 独特的风格趣味,但对于强调人物情感、日常细节的写作任务来说,这种“写作模板感”显得格格不入。
有用户在实测中提到,新版R1在这方面的改进:
中文写作也变强了……这一次cot(思维链)都明显看出来人味儿重了,也没有了各种机械、莫名其妙的修辞,而且输出很长。
图片
小编也进行了类似的测试,能看出来R1的进步非常显著,虽然不能说模仿的名家有多么出色,但起码有那味了!
请用“第一人称”的方式,写一篇描写北京胡同中一个夏日午后的小说片段,分别以鲁迅、王小波和张爱玲的风格呈现一个情节。
图片
图片
4.写在最后
又快到假期,DeepSeek 照例更新。
这次 R1可不是表面说的那种“小修小补”:编程一骑绝尘,打破了DS“缺乏后劲”的误读;长思考、自然写作也让它更像一个能完成任务的“智能体”进化。
模型在悄悄变强,吞噬着更多任务边界。
R2,会不会很快就来? 这波更新,是预热,还是还得再等等?你怎么看?