DeepSeek-OCR：用视觉模态给长文本“瘦身”，大模型处理效率再突破

在大语言模型（LLMs）不断拓展能力边界的今天，长文本处理始终是道绕不开的坎——文本序列每增加一倍，计算量就可能翻四倍，像处理一本几十万字的书籍、一份上千页的金融报告时，内存溢出、推理卡顿成了常态。但DeepSeek团队最近开源的DeepSeek-OCR模型，给出了一个全新解法：把文本“画”成图像，用视觉Token实现高效压缩。原本需要1000个文本Token存储的内容，现在100个视觉Token就能搞定，还能保持97%的OCR精度。

在大语言模型（LLMs）不断拓展能力边界的今天，长文本处理始终是道绕不开的坎——文本序列每增加一倍，计算量就可能翻四倍，像处理一本几十万字的书籍、一份上千页的金融报告时，内存溢出、推理卡顿成了常态。

但DeepSeek团队最近开源的DeepSeek-OCR模型，给出了一个全新解法：把文本“画”成图像，用视觉Token实现高效压缩。原本需要1000个文本Token存储的内容，现在100个视觉Token就能搞定，还能保持97%的OCR精度。这种“光学压缩”思路，不仅让长文本处理效率飙升，更给大模型的“记忆机制”研究打开了新窗口。

目前，DeepSeek-OCR的代码、模型权重、论文已经全部开源，大家可以直接上手试用：

论文地址：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
项目地址：https://github.com/deepseek-ai/DeepSeek-OCR
Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-OCR

01、为什么要给长文本“换一种存储方式”？

传统LLM处理长文本的痛点，本质是“文本Token的低效性”——一段文字里藏着大量冗余信息，却要靠一个个Token线性存储，导致计算量随长度呈平方级增长。比如要处理1万字的文档，可能需要上万个文本Token，模型光是建立这些Token间的关联，就要消耗大量算力。

DeepSeek团队的核心洞察是：视觉是更高效的信息压缩媒介。一张包含文字的图片，能比纯文本少用几十倍的Token来传递同样信息。就像我们看一页书时，眼睛能瞬间捕捉整页内容，而不是逐字逐句读取——这种“二维视觉优势”，正是解决长文本瓶颈的关键。

更巧的是，OCR（光学字符识别）任务成了绝佳的“试验场”。它既要把图像里的文字“解压缩”成文本（验证压缩效果），又能通过精度、压缩比等指标量化性能，完美契合“视觉-文本压缩”的研究需求。

02、核心架构：两大组件实现“压缩-解压”闭环

DeepSeek-OCR的架构特别简洁，就像一套“文本压缩工具包”，由编码器（DeepEncoder）和解码器（DeepSeek3B-MoE）组成，前者负责“压得小”，后者负责“解得出”。

DeepEncoder：高分辨率下的“Token瘦身大师”

传统视觉编码器在应对高分辨率图像时，存在两个突出问题。一方面，处理高分辨率图像时会生成过多的 Token。以 1024×1024 的图像为例，会生成 4096 个 Token（1024/16×1024/16 = 4096），过多的 Token 会导致计算量大幅增加，给后续的处理带来沉重负担。另一方面，部分编码器在对图像进行压缩后，细节丢失严重，这对于需要精准识别文本的 OCR 任务来说是致命的，会极大影响识别的准确性和完整性。

DeepEncoder通过“局部+全局”的双阶段设计，完美平衡了“压缩比”和“保真度”：

第一步：局部感知（窗口注意力）采用 SAM-base 模型：DeepEncoder 使用参数为 8000 万的 SAM-base 模型，该模型将输入的图像分割成 16×16 的小 patch。这种方式就如同使用 “显微镜”，能够聚焦于图像的每一个细微部分，精确捕捉每个字符的细节信息。窗口注意力机制控制计算量：在生成较多 Token 的情况下，窗口注意力机制发挥了关键作用。它使得模型在处理这些 Token 时，计算量处于可控范围。窗口注意力机制会限定模型关注的区域，只对窗口内的 Token 进行计算，避免了对所有 Token 同时进行大规模计算带来的高复杂度，确保了模型在高分辨率图像局部处理时的高效性和稳定性。
第二步：全局压缩（16×卷积+全局注意力）2 层卷积模块压缩 Token 数量：经过局部感知后，DeepEncoder 利用一个 2 层卷积模块对生成的 Token 进行压缩。这个卷积模块能够将 Token 数量大幅减少，例如把 4096 个 Token 压缩到 256 个，压缩比例达到 1/16 。CLIP-large 模型实现全局理解：压缩后的 Token 会被传输到 3 亿参数的 CLIP-large 模型。CLIP-large 模型具有强大的全局理解能力，它能将经过初步处理的 “零件”（压缩后的 Token）整合起来，形成对文档的整体认知，就像把一堆零件组装成完整机器。在这个过程中，不仅减少了 Token 数量，降低了后续处理的复杂度，还成功保留了文档的整体布局信息，使得模型在后续的文本解码中，能够更好地还原文档内容，提高 OCR 任务的准确性。
多分辨率输入与 “Gundam 模式”多分辨率输入支持：DeepEncoder 支持从 512×512（64 个 Token）到 1280×1280（400 个 Token）的多分辨率输入。不同分辨率适用于不同的场景和需求，较低分辨率在处理简单文档或对精度要求稍低的场景下，可以提高处理速度；较高分辨率则能在处理复杂文档或对细节要求严格的任务时，保证信息的完整性和准确性。“Gundam 模式” 处理大图像：对于像报纸这种超长篇幅的大图像，DeepEncoder 通过 “Gundam 模式” 将其拆分成小瓦片进行处理。这种方式进一步降低了处理大图像时的计算压力，同时保证了对大图像内容的有效处理。通过 “Gundam 模式”，DeepSeek-OCR 能够适应各种复杂的文档场景，真正实现了 “按需压缩”，在不同的应用场景下都能展现出良好的性能。

DeepEncoder 通过独特的 “局部 + 全局” 双阶段设计以及对多分辨率输入和 “Gundam 模式” 的支持，有效解决了传统视觉编码器的问题，在高分辨率图像的处理上实现了高效的 Token 压缩和信息保留，为 DeepSeek-OCR 在 OCR 任务中的出色表现奠定了坚实基础。

DeepSeek3B-MoE：小参数也能高效“解压”

解码器没有用传统的大模型，而是选了30亿参数的混合专家（MoE）架构，推理时从64 个路由专家中只激活6个专家模块（总激活参数5.7亿）。这种设计的好处很明显：

既有30亿参数模型的“理解能力”，能精准把视觉Token还原成文本；
又有小模型的“速度优势”，单张A100-40G显卡一天能处理20万页文档，比传统OCR工具快好几倍。

它的“解压逻辑”也很清晰：通过非线性映射，把DeepEncoder输出的压缩视觉Token（n个），还原成原始文本Token（N个，n≤N），就像把压缩包还原成完整文件一样。

03、性能有多能打？数据说话

压缩比与精度：10倍压缩近乎无损

在Fox基准测试（包含多种文档布局）中，DeepSeek-OCR的表现超出预期：

当文本Token是视觉Token的10倍以内（压缩比<10×）时，OCR精度能到97%，相当于把1000字的文档压成100个视觉Token，还原后几乎没错字；
就算压缩到20倍（2000字对应100个视觉Token），精度仍有60%，核心信息基本能保留。

这个结果说明，未来用“文本转图像”实现“无损压缩”完全有可能——而且不用额外加算力，因为它能直接复用视觉语言模型（VLM）的基础设施。

实际任务：用更少Token赢过主流模型

在真实文档解析任务（OmniDocBench基准）中，它的“性价比”优势更明显：

仅用100个视觉Token，就超过了需要256个Token的GOT-OCR2.0；
使用 400 个视觉Token，性能与该基准测试上的当前最优模型持平。
用不到800个视觉Token，性能碾压了平均需要6000+个Token的MinerU2.0。

关键结论：

部分类别文档仅需极少数Token即可达到理想性能。例如，幻灯片（slides）仅需 64 个视觉Token；书籍（book）和报告（report）类文档使用 100 个视觉Token即可实现良好性能。这可能是因为这些文档中大多数文本Token数量在 1000 以内，视觉 - 文本压缩比未超过 10×。
对于报纸（newspaper）类文档，由于文本Token数量通常在 4000-5000 之间，远超其他模式 10× 压缩比的处理范围，需要使用 Gundam 模式甚至 Gundam-master 模式才能达到可接受的编辑距离（edit distance），为 VLMs 的视觉Token优化、LLMs 的上下文压缩及遗忘机制等研究提供了参考。

深度解析：不止能识字，还能解析图表、公式、多语言

DeepSeek-OCR 具备布局处理和 OCR 2.0 任务处理能力，可通过二次调用对文档中的图像进行进一步解析，称为“深度解析”（deep parsing）。只需统一提示词，模型就能对图表、几何图形、化学公式乃至自然图像进行深度解析。

图表：把金融报告里的折线图、柱状图，自动转成结构化的HTML表格；
书籍和文章：对于书籍和文章，深度解析模式可对自然图像输出密集型描述。
化学公式：识别文档里的分子式，输出科研常用的SMILES格式；
几何图形：还原平面几何题里的线段、角度，甚至能标注坐标；
多语言：支持近100种语言，从中文、英文到阿拉伯语、僧伽罗语都能搞定。

这些能力让它在金融、科研、教育等场景里“大有用武之地”——比如把几十年的历史病历压缩成图像存储，既能节省空间，又能快速检索关键信息。

通用视觉理解

DeepSeek-OCR 同样具备一定程度的通用图像理解能力，包括图像描述、目标检测、视觉定位等功能。同时，由于训练数据中包含纯文本数据，模型的语言能力也得以保留。但是，模型并非聊天机器人，部分功能需通过完整提示词激活。

04、更大的价值：给大模型装一个“视觉记忆库”

DeepSeek-OCR的意义，远不止是一个高效OCR工具——更在动摇“文本作为大模型核心输入”的固有认知，为LLM的“长上下文处理”提供了颠覆性新范式：视觉模块可以成为LLM的“核心记忆组件”。

传统LLM的“记忆”依赖文本Token存储，就像用一根“无限长的薯条”堆砌信息，不仅占用大量上下文窗口，还受制于分词器的诸多弊病。而DeepSeek-OCR的视觉模块将信息压成“一张小饼”，一举解决几大关键痛点：

突破容量瓶颈：依托强大的视觉压缩能力，100个视觉Token可对应上千个文本Token，在OmniDocBench基准测试中甚至能实现最高60倍的压缩比。这种效率提升相当于让LLM的“记忆容量”呈数倍增长，使其能轻松存下整本书、数天的多轮对话记录，从根本上缓解了上下文窗口的容量压力。
重构记忆效率：通过分辨率调节实现“按需存储”——近期的重要信息用高分辨率图像保留细节（精准解码），远期的次要信息用低分辨率压缩核心（语义蒸馏），这种“近清远模糊”的模式既贴合人类记忆规律，又大幅降低了算力消耗，完美契合视觉输入的高效特性。
实现多模态兼容：视觉输入让信息流更通用，不仅能存纯文本，更能自然融合加粗、彩色文字、图表、图片等丰富格式。例如把带数据图表的财报渲染为图像压缩存储，后续调用时既能读取文字数据，又能还原图表逻辑——这是受限于文本形式的传统记忆完全无法实现的。
摆脱分词器桎梏：视觉模块通过像素处理信息，彻底绕开了“丑陋、独立”的分词器，避免了其带来的Unicode兼容、字节编码遗留问题，以及“肉眼相同字符却生成不同Token”的荒谬情况，更消除了由此引发的安全与越狱风险，让记忆存储更纯粹、更可靠。

05、写在最后

DeepSeek-OCR的探索仅仅是个开始，正如Karpathy看完论文后甚至“想立马搞一个只有图像输入的nanochat版本”，这个方向还有无数值得深挖的可能：如何将“视觉压缩”的短期记忆转化为模型的参数化长期记忆？能否基于这种模态转换实现真正的“无限长上下文”对话？视觉输入的双向注意力机制如何与LLM的生成逻辑更高效地衔接？

但无论如何，DeepSeek-OCR已经用事实证明了Karpathy的判断：通过模态转换优化效率，远比单纯堆参数、扩窗口更聪明。它所实践的“文本转视觉”路径，不仅是技术层面的优化，更是对大模型输入范式的重新思考——毕竟“所有‘文本到文本’任务都能转化为‘视觉到文本’任务，反之则不行”。

对于开发者而言，现在就能用它批量处理多格式文档、生成高质量训练数据，享受高压缩率与高准确率带来的效率提升；对于研究人员，它更是验证“视觉输入优越性”的绝佳“试验田”。或许不久后，我们就能看到能“记住一整本书、看懂所有格式”的大模型，而这一切的起点，正如Karpathy所展望的，就是把文本“渲染”成一张图。

DeepSeek-OCR：用视觉模态给长文本“瘦身”，大模型处理效率再突破

01、为什么要给长文本“换一种存储方式”？

02、核心架构：两大组件实现“压缩-解压”闭环

DeepEncoder：高分辨率下的“Token瘦身大师”

DeepSeek3B-MoE：小参数也能高效“解压”

03、性能有多能打？数据说话

压缩比与精度：10倍压缩近乎无损

实际任务：用更少Token赢过主流模型

深度解析：不止能识字，还能解析图表、公式、多语言

通用视觉理解

04、更大的价值：给大模型装一个“视觉记忆库”

05、写在最后

相关资讯

OpenAI首席研究官：DeepSeek独立发现了o1的一些核心思路，奥特曼、LeCun纷纷置评

“DeepSeek出了一个昏招！”

淘宝卖DeepSeek安装包一月赚数十万？？？我们免费教你本地部署DeepSeek-R1