视觉模态

DeepSeek-OCR：用视觉模态给长文本“瘦身”，大模型处理效率再突破

在大语言模型（LLMs）不断拓展能力边界的今天，长文本处理始终是道绕不开的坎——文本序列每增加一倍，计算量就可能翻四倍，像处理一本几十万字的书籍、一份上千页的金融报告时，内存溢出、推理卡顿成了常态。但DeepSeek团队最近开源的DeepSeek-OCR模型，给出了一个全新解法：把文本“画”成图像，用视觉Token实现高效压缩。原本需要1000个文本Token存储的内容，现在100个视觉Token就能搞定，还能保持97%的OCR精度。

10/30/2025 7:00:00 AM

Goldma

资讯热榜

最强OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大顶尖开源OCR模型横评！继DS后又杀出匹黑马！如何把ChatGPT嵌入到自己的应用中？ OpenAI 内部警示:ChatGPT Atlas 面临“即时注入”安全威胁基于JoyAgent的二开工程实践（信贷尽调报告生成） ChatGPT 涉嫌“诱导”美国 16 岁少年自杀，家属指控 OpenAI 事发前放松安全措施微软AI主管苏莱曼:微软不会开发情色类AI，与OpenAI划清界限揭秘大模型的魔法：从零实现一个简化版的GPT 模型直击 Mac 桌面!OpenAI 收购 Sky 团队，ChatGPT 即将深度嵌入 macOS 工作流

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT DeepSeek 谷歌 AI绘画机器人大模型数据 Midjourney 开源 Meta 智能微软用户 AI新词 GPT 学习技术智能体马斯克 Gemini 图像 Anthropic 英伟达 AI创作训练 LLM 论文代码算法 AI for Science 芯片 Agent 腾讯 Stable Diffusion 苹果 Claude 蛋白质开发者生成式神经网络 xAI 机器学习 3D 人形机器人 RAG 研究 AI视频生成大语言模型具身智能 Sora 工具 GPU 百度华为计算字节跳动 AI设计 AGI 搜索大型语言模型视频生成场景深度学习架构 DeepMind 生成式AI 编程视觉预测 Transformer AI模型伟达亚马逊特斯拉