AIGC宇宙 AIGC宇宙

百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%

2025年5月20日,百度飞桨团队正式发布了PaddleOCR3.0版本,并对外开源。 这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展,进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。 PaddleOCR自发布以来,凭借其学术前沿算法和产业落地实践,受到了产学研各方的喜爱,并被广泛应用于众多知名开源项目。

2025年5月20日,百度飞桨团队正式发布了PaddleOCR3.0版本,并对外开源。这一新版本在文字识别精度、多语种支持、手写体识别以及高精度文档解析等方面取得了显著进展,进一步提升了PaddleOCR在OCR领域的技术实力和应用价值。

PaddleOCR自发布以来,凭借其学术前沿算法和产业落地实践,受到了产学研各方的喜爱,并被广泛应用于众多知名开源项目。此次发布的PaddleOCR3.0全面适配了飞桨框架3.0正式版,不仅提升了文字识别精度,还支持多文字类型识别和手写体识别,满足了大模型应用对复杂文档高精度解析的需求。此外,结合文心大模型4.5Turbo,PaddleOCR3.0显著提升了关键信息抽取精度,并新增了对昆仑芯、昇腾等国产硬件的支持。

微信截图_20250522090536.png

PaddleOCR3.0的核心亮点之一是全场景文字识别模型PP-OCRv5。该模型实现了单一模型支持简体中文、繁体中文、中文拼音、英文、日文五种文字类型,以及手写、竖版、拼音、生僻字等复杂文本场景的识别。与上一代相比,PP-OCRv5的整体识别精度提升了13个百分点,达到了业界领先水平。PP-OCRv5通过统一模型架构实现了多种文字类型的无缝识别,简化了部署流程,提升了识别的总体精度和速度。

在文档解析方面,PaddleOCR3.0推出了通用文档解析方案PP-StructureV3。该方案强化了版面区域检测、表格识别、公式识别的能力,增加了图表理解和多栏阅读顺序的恢复能力,并可以将结果转换为Markdown和JSON格式。PP-StructureV3在OmniDocBench基准测试中领先众多开源和闭源方案,展现了其在多场景、多版式PDF高精度解析方面的强大能力。

微信截图_20250522090722.png

此外,PaddleOCR3.0还发布了智能文档理解方案PP-ChatOCRv4。该方案原生支持文心大模型4.5Turbo,关键信息抽取精度相比上一代提升了15个百分点。PP-ChatOCRv4结合了大模型和小模型的优势,支持离线使用多模态文档理解模型PP-DocBee2,能够一站式解决版面分析、生僻字、多页PDF、表格、印章识别等复杂文档信息抽取问题。

PaddleOCR3.0的发布,不仅体现了百度在OCR技术上的持续创新,也为广大开发者提供了更加强大和易用的工具,助力开发者快速落地AI应用。

开源地址:

https://github.com/PaddlePaddle/PaddleOCR

相关资讯

合合信息推出 MCP 服务,助力大模型高效智能文档处理

在人工智能和大模型技术飞速发展的今天,如何高效调用外部工具已成为开发者们面临的新挑战。 不同大模型的调用结构和参数格式各不相同,导致开发者不得不为每种模型单独编写工具调用逻辑,进而影响了集成的效率。 为了解决这一难题,合合信息近日推出了文档处理领域首批 MCP(Model Context Protocol)服务,为企业和开发者提供了一个 “万能接口”。
5/13/2025 9:00:52 AM
AI在线

OpenAI GPT-4 解锁新成就:100% 识别性别、74.25% 识别年龄范围,未专门训练可媲美专业算法

科技媒体 The Decoder 昨日(10 月 9 日)发布博文,报道称最新研究表明 OpenAI 的 GPT-4 AI 模型在未经专门微调和训练情况下,能够识别面孔、判断性别,并在照片中估计年龄,其准确度媲美专业算法。来自挪威科技大学、Mizani 及 Idiap 研究所的研究人员推进这项研究,测试了 GPT-4 的生物识别能力,发现其性能和 MobileFaceNet 等专门的面部识别算法不相上下。在性别识别测试中,GPT-4 在 5400 张平衡(balanced)图像的数据集上取得了 100% 的准确率,
10/10/2024 11:56:04 AM
故渊

ChatGPT时代,很想问问AI这些金融难题何解?

自从去年 ChatGPT 横空出世,这款 AI 对话机器人俨然成为了全球最热门的的技术话题。
6/27/2023 2:33:00 PM
机器之心
  • 1