AIGC宇宙 AIGC宇宙

全面解读:新版R1低调升级!编程强到起飞直追o3-high,支持30分钟以上长思考,推理、写作都进化了!

出品 | 51CTO技术栈(微信号:blog51cto)DeepSeek 于 5 月 28 日晚间在微信平台低调宣布——R1 模型完成“小版本试升级”! 图片这波有多低调呢? DeepSeek 又是“0 宣发”出手,连一句英文公告都没有。

出品 | 51CTO技术栈(微信号:blog51cto)

DeepSeek 于 5 月 28 日晚间在微信平台低调宣布——R1 模型完成“小版本试升级”!

图片图片

这波有多低调呢?DeepSeek 又是“0 宣发”出手,连一句英文公告都没有。海外网友想知道发生了什么,只能翻译我们在微信上这则小通知。

图片图片

今天凌晨,新的R1已经上线抱抱脸了,同样采用的是MIT协议。

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

不过大家期待的模型卡部分仍然是空白,目前也没有官方的基准测试。

图片图片

但懂行的人一看就知道,DeepSeek 又是在“闷声干大事”。

图片图片

这次更新“虽小”,但用料却非常猛,让网友实测后惊呼:“这还叫小版本?”

最新更新的 DeepSeek R1 在 LiveCodeBench 上几乎与 openAI o3-high 模型打成平手!

图片图片

不少网友实测它的编程能力,直指可以媲美 Gemini 2.5 Pro,和一众顶级模型掰手腕。

图片图片

更令人惊喜的是,实测显示它在思维链、写作能力、长文本处理等方面也有显著进步。

  • 思维链(Chain-of-Thought)能力显著提升
  • 长时间思考更稳定,每个任务最多 30-60 分钟
  •  写作表现更加自然、结构更清晰

1.编程能力显著提升,实测表现甚至超越Gemini 2.5 Pro和Opus 4

Reddit 上一条高赞评论写道:新版的 R1 “dangerously insane”(致命地疯狂)。

“我刚刚用 DeepSeek R1-0528 成功解决了 RooCode 上一些进行中的编程难题。”

图片

不仅如此,其他网友在使用了R1的编程之后,也纷纷化身“自来水”:

一次性跑通了我所有 Claude 3.7 用过的提示词,甚至包括 Claude 3.7 和 Opus 4 都失败过的那些。到目前为止,我真的非常惊讶。

图片图片

我可以确认这一点。我试了几个我常用的 JavaScript 提示词,它一次就生成了我目前见过最好的实现版本。

图片图片

除了“能写代码”,R1 在前端 UI 生成上的理解能力也被多位用户提及。例如,有开发者使用新版 R1 一次性生成了一个完整的学生信息管理系统,界面结构清晰、交互完整:

图片图片

甚至还有用户尝试构建“商品库存管理平台”时,直接获得了 1000 多行可用代码。不仅没有报错,所有按钮都能正确执行出库、入库等逻辑操作。

来源:X用户@op7418来源:X用户@op7418

小编也尝试测试了新版R1在交互式前端动画上的表现,输入的 prompt 是:

写一个模拟小球被弹簧牵引上下振荡的动画。初始位置偏离平衡点后开始往返运动,带阻尼效果。用 JS 和 canvas 实现。

结果页面不仅完成了动画逻辑,还自动生成了弹簧系数、阻尼系数的调节面板。代码结构清晰,几乎无需调试,已经具备了轻量交互系统的原型能力。这种水平,给初高中生课堂做课堂演示都够用了!

全面解读:新版R1低调升级!编程强到起飞直追o3-high,支持30分钟以上长思考,推理、写作都进化了!

2.R1超长思考化身“深度研究”,每个任务最多 30-60 分钟

有网友在 X 上分享,更新后的R1居然能思考超过25分钟!!!

据了解,在某些任务下R1的思考甚至能飙升到30-60分钟,这是多么疯狂的算力燃烧。

图片图片

这位网友说,在任务期间新的R1不断补充新的信息源,表现出类似 OpenAI “深度研究”功能的行为。

图片图片

为了测试是否长时间思考是否能做“深度研究”,小编决定进行测试,首先是看看生成技术报告的能力,输入prompt:

搜索大量的信息,帮我生成一份小米玄戒芯片的报告

不过,这个指令没有触发R1的长时间思考,模型思考31秒,搜索了46个网页后就开始给定答案了,不过非常强悍的是,这份报告结构完整,生成的内容长度远远超越了前代R1,正文足有洋洋洒洒5千字内容:

图片图片

第二次升级了问题的难度,请R1解决一个复杂的几何建模问题:

一个点 P 绕圆心 O 做匀速圆周运动,半径为 R,周期为 T。与此同时,点 Q 从 P 的初始位置出发,沿直线匀速前进,方向始终指向点 P 当前的位置,速度为常数 v(小于点 P 的切线速度)。建立点 Q 的运动路径的数学模型(最好用微分方程或参数方程表示)。(除此之外还追加了小的任务,比如要用代码画出 Q 的实际轨迹图像,模拟其随时间变化的路径。)

这个问题也只用了279秒完成了,目前不清楚什么问题才能触发超长思考。

图片图片

除了长时间思考,cot的推理风格也发生了一些变化,和答案的衔接会更流畅、符合用户阅读习惯。

图片图片

3.写作风格的自然进化:不再迷恋“量子纠缠”

当然,这次 R1 的提升不仅体现在推理和编程上,在文本生成的风格表达上也迈出了一大步。

前代 R1 有个比较突出的风格特征:AI 输出常常带有浓厚的 “deepseek 语感”——无论什么题材,时常夹杂“星云”、“量子纠缠”、“赛博朋克”、“宇宙的尽头”等充满科幻感的意象。

虽然偶尔增添了一点 AI 独特的风格趣味,但对于强调人物情感、日常细节的写作任务来说,这种“写作模板感”显得格格不入。

有用户在实测中提到,新版R1在这方面的改进:

中文写作也变强了……这一次cot(思维链)都明显看出来人味儿重了,也没有了各种机械、莫名其妙的修辞,而且输出很长。

图片图片

小编也进行了类似的测试,能看出来R1的进步非常显著,虽然不能说模仿的名家有多么出色,但起码有那味了!

请用“第一人称”的方式,写一篇描写北京胡同中一个夏日午后的小说片段,分别以鲁迅、王小波和张爱玲的风格呈现一个情节。

图片图片

图片图片

4.写在最后

又快到假期,DeepSeek 照例更新。

这次 R1可不是表面说的那种“小修小补”:编程一骑绝尘,打破了DS“缺乏后劲”的误读;长思考、自然写作也让它更像一个能完成任务的“智能体”进化。

模型在悄悄变强,吞噬着更多任务边界。

 R2,会不会很快就来? 这波更新,是预热,还是还得再等等?你怎么看?

相关资讯

OpenAI更新o3-mini模型,展示了给出答案的 “思维链”

近日,OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后,进行了重大更新,改变了 o3-mini 的回应方式。 现在,这款模型不仅能够回答用户的问题,还能展示其思考过程,为用户提供更多透明度。 这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步,使得 AI 工具的使用变得更加人性化。
2/7/2025 2:40:00 PM
AI在线

应对DeepSeek挑战,OpenAI增加o3-mini公开推理过程

OpenAI近日宣布展示其最新推理模型o3-mini的详细推理过程,此举被视为对竞争对手DeepSeek-R1日益增长压力的回应。 这一改变标志着OpenAI在模型透明度策略上的重要转变。 此前,OpenAI一直将"思维链"(Chain of Thought, CoT)视为核心竞争优势而选择隐藏。
2/8/2025 9:38:00 AM
AI在线

微软全新开源模型 MAI-DS-R1:敏感话题响应提升,安全风险降低

微软在其官网上正式开源了 DeepSeek-R1的魔改版 ——MAI-DS-R1。 这一新模型在保留原有推理性能的基础上,进行了显著的增强,尤其在对敏感话题的响应能力上取得了巨大的突破。 MAI-DS-R1的响应能力达到了99.3%,是原版 R1的两倍多。
4/18/2025 5:00:40 PM
AI在线
  • 1