AIGC宇宙 AIGC宇宙

DeepSeek-OCR

Andrej Karpathy评DeepSeek-OCR论文:图像输入可能成为大语言模型新方向

特斯拉前自动驾驶负责人、OpenAI联合创始人Andrej Karpathy近日在推特上评论了开源的DeepSeek-OCR论文,提出了一个颇具启发性的观点:相比传统文本输入,图像作为大语言模型(LLM)的输入形式可能更加高效。 这一观点在AI研究社区引发了关于模型输入方式未来演进方向的讨论。 Karpathy认为,当前广泛使用的文本token输入方式可能既浪费又低效,未来研究或许应该转向图像输入。
10/21/2025 2:20:56 PM
AI在线

DeepSeek的新模型很疯狂:整个AI圈都在研究视觉路线,Karpathy不装了

「我很喜欢新的 DeepSeek-OCR 论文…… 也许更合理的是,LLM 的所有输入都应该是图像。 即使碰巧有纯文本输入,你更应该先渲染它,然后再输入。 」一夜之间,大模型的范式仿佛被 DeepSeek 新推出的模型给打破了。
10/21/2025 12:07:00 PM
机器之心

太强了!DeepSeek刚刚开源新模型,用视觉方式压缩一切

我们或许能通过文本到图像的方法实现近 10 倍无损上下文压缩。 没想到吧,DeepSeek 刚刚开源了新模型,还是一款 OCR 模型。 可以看到,该模型的参数量为 3B,刚上线不久就已经有 100 多次下载量了。
10/20/2025 5:50:00 PM
机器之心
  • 1