PaddleOCR-VL-1.5 懒人整合包支持PDF转MD 比PP-StructureV3更精准

PaddleOCR-VL-1.5

github地址：https://github.com/PaddlePaddle/PaddleOCR

PaddleOCR-VL-1.5：0.9B VLM，专为真实世界文档解析和文本识别而 设计，是一款资源高效且达到最先进水平的模型。它在文档解析任务中，涵盖六大主要场景：正常、倾斜、变形、扫描、多光照和屏幕拍摄，均展现出全面领先优势。该模型引入了领先的文本识别和印章识别功能，增强了对复杂元素（如文本、表格、公式和图表）的解析能力，并将语言支持扩展至111种语言——所有这些都保持了极低的资源消耗

核心特性：

文档解析任务的SOTA性能： PaddleOCR-VL-1.5 在 OmniDocBench v1.5 基准上实现了 94.5% 的高精度，超越了全球顶尖的通用大模型和文档解析专用模型。
现实5大场景文档解析的SOTA性能：引入了一种创新的文档解析方法，业界首个支持不规则文档版面定位。在扫描、弯曲、倾斜、屏摄和光照变化这五个现实场景的文档解析任务评估集上，表现全面优于主流的开源和闭源模型。
基于0.9B紧凑模型的能力扩展：基于 0.9B 的参数量，PaddleOCR-VL-1.5 扩展了文本检测识别和印章识别任务，进一步提升了其能力范围，各任务相关指标均创下了 SOTA 结果。
强化多元素识别能力：增强了特定场景和多语言识别方面的能力。针对特殊符号、古籍、多语言表格、下划线和复选框的识别性能得到提升。语言覆盖范围扩展，新增支持中国藏文和孟加拉语识别。
长文档跨页解析：模型支持跨页表格自动合并和跨页段落标题识别，有效缓解了长文档解析中的内容碎片化问题。