在数字时代,从扫描文档、图片等非结构化数据中高效、准确地提取结构化信息,是人工智能领域长期面临的挑战。无论是复杂的表格、交织的文本段落,还是难以识别的数学公式,都对文档解析技术提出了严苛要求。传统的解决方案往往依赖于多个专业模型的串联,不仅集成成本高昂,还容易在处理过程中累积误差 。而一些通用多模态大模型在直接自回归生成页面内容时,也常遭遇效率瓶颈和关键布局信息丢失的问题 。
正是在这样的背景下,一个名为 Dolphin(全称:Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting)的创新多模态文档图像解析模型应运而生。这项研究成果已获得学术界认可,其相关论文被计算语言学协会(ACL 2025)正式接收 ,并且其预训练模型和推理代码也已向全球社区开放 。
模拟人类理解的先分析后解析范式
Dolphin 的核心创新在于其独特的先分析后解析两阶段范式,这一设计巧妙地模拟了人类阅读和理解复杂文档的认知过程 。
第一阶段,全面的页面级布局分析。在这一初始阶段,Dolphin 对整个输入文档图像进行全局性分析。其主要目标是精准识别页面上的所有异构布局元素(例如,文本段落、图表、公式和表格),并按照自然的阅读顺序进行排列。对于每个识别出的元素,模型会确定其精确的类型和边界框(使用标准化坐标)。
这一阶段的关键在于建立对文档整体布局结构及其组成部分之间空间和逻辑关系的全面理解,为后续的内容提取奠定基础 。
第二阶段:高效的文档元素并行解析。第一阶段识别并排序的布局元素,在Dolphin中被视为异构锚点。这些代表不同内容块的锚点,随后被用于指导其各自内容的并行解析。
Dolphin 利用这些元素的特定类型和相关的任务特定提示(task-specific prompts)并发处理它们 。
例如,对于表格,模型会使用Parse the table in the image.这样的提示来生成HTML格式的结构化数据;而对于文本段落和公式,则可能使用Read text in the image.这样的统一提示来生成纯文本或LaTeX标记 。
这种跨多个元素的并行处理机制是 Dolphin 实现卓越效率的关键设计选择,相较于传统的顺序解析方法,其效率显著提升 。
技术架构:轻量级与多模态的融合
Dolphin 的技术架构建立在强大的视觉编码器-解码器模型之上,充分利用了 Transformer 网络的强大能力,并针对文档图像解析任务进行了优化 。
视觉编码器,负责从输入文档图像中提取丰富、层次化的视觉特征。
该组件基于 Swin Transformer 实现,能够有效地捕捉文本的形状、布局、颜色,以及表格中的线条和图像中的轮廓等关键视觉信息。输入图像通常会调整大小至 896x896 的固定尺寸,同时保持纵横比 。
文本解码器,负责将编码器提供的视觉特征转换为可读文本。
该解码器基于 MBart 模型,通过交叉注意力机制,在准确解码各种文本格式方面表现出色,包括连续文本段落、嵌入在表格中的内容以及数学公式中的符号 。
基于提示的接口,Dolphin 架构的一个显著特点是其基于提示(prompt-based interface)的交互方式。
这允许用户通过自然语言提示直观地控制和引导特定的解析任务,有效地充当模型的灵活指挥官,极大地增强了模型的适应性和可扩展性 。
为了更广泛的可访问性和易于集成,该模型与广泛的Hugging Face Transformers生态系统兼容 。同时Dolphin 的开发也借鉴了多个成熟的开源项目,如 Donut、Nougat、GOT、MinerU、Swin 和 Hugging Face Transformers 。
解决行业痛点,推动文档智能发展
Dolphin 的出现,旨在解决当前文档图像解析领域存在的诸多痛点,并展现出超越现有方案的潜力。
首先是克服传统方法的局限性。 传统方法常将多个OCR专家模型串联使用,导致集成开销大、错误累积等问题 。Dolphin 的两阶段统一模型设计,有效避免了这些问题,提供了一个更集成、更准确的解决方案 。
弥补通用大模型的不足。 尽管通用多模态大型模型(VLM)功能强大,但在处理文档图像时,往往面临效率瓶颈,且在解码过程中容易丢失关键的布局结构信息 。Dolphin 的先分析后解析范式和并行处理机制,显著提升了效率,并更好地保留了文档的结构信息 。
卓越的性能与效率。尽管 Dolphin 架构轻量(仅 322M 参数),但其在多项基准测试中表现出色 。在处理纯文本文档和包含混合元素(表格、公式、图形)的复杂文档时,Dolphin 在中英文测试集上均展现出卓越的解析能力 。其解析效率甚至比现有最快的基线模型 Mathpix 提升了近 2 倍,达到 0.1729 FPS 。
广泛的应用潜力。Dolphin 能够将整个文档图像解析为结构化的 JSON 和 Markdown 格式,也能针对单个元素(如文本段落、表格、公式)进行精准解析,这使其在多个行业具有广阔的应用前景。
写在最后
Dolphin 的开源,为文档智能领域带来了新的活力,为更复杂文档理解以及模型性能和效率优化方面提供了支持。也为构建个人知识库的文档解析提供了一种新的思路。
2025年的今天,AI创新已经喷井,几乎每天都有新的技术出现。作为亲历三次AI浪潮的技术人,我坚信AI不是替代人类,而是让我们从重复工作中解放出来,专注于更有创造性的事情,关注我们公众号口袋大数据,一起探索大模型落地的无限可能!