PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上线,沐曦曦云C500/C550 Day 0 适配PaddleOCR-VL-1.5模型,助力PaddleOCR-VL-1.5第一时间面向企业与开发者提供模型服务。
PaddleOCR-VL-1.5创新性地支持了文档元素的异形框定位,使得PaddleOCR-VL-1.5 在扫描、倾斜、弯折、屏幕拍摄及复杂光照等真实落地场景中均表现卓越,实现了全面的 SOTA。此外,模型进一步集成了印章识别与文本检测识别任务,关键指标持续领跑主流模型。
曦云C系列基于沐曦自主研发的高性能核心GPU IP,具备高能效和高通用性的天然优势。曦云C系列支持大模型训练及推理,可广泛应用于推荐系统、自动语音识别、语音合成、图像分割检测、数据库加速、大语言模型、文生图、文生视频等多种场景。作为沐曦主力训推一体GPU产品,曦云C500/C550具备强劲的算力支撑与灵活的部署优势,支持多种混合精度计算,可充分释放PaddleOCR-VL-1.5的模型潜力,实现推理效率与部署体验的双重提升,降低企业与开发者的模型应用门槛。
目前,沐曦已构建了从硬件架构到软件栈的完整自研技术体系。为了让长周期迭代的硬件适配短周期更新的应用与算法,沐曦打造了全栈自主可控的MXMACA软件栈原生兼容主流生态,这意味着AI应用可以几乎零成本地迁移到沐曦的平台上,基本做到“即插即用”。MXMACA软件栈于2025年2月份开源,现已拥有超过15万用户。
1PaddleOCR-VL-1.5关键能力
在 OmniDocBench v1.5 上以 0.9B 的参数量实现 94.5% 的精度,超越了上一代 SOTA 模型 PaddleOCR-VL,表格、公式及文本识别能力大幅提升。
全球首个支持异形框定位的文档解析模型,可精准返回倾斜、弯折场景下的多边形检测框。在扫描、弯折、倾斜、屏幕拍照、光线变化 5 个场景下,精度均优于目前主流的开源与闭源模型。
新增文本行定位/识别与印章识别能力,各项技术指标均刷新领域 SOTA。
精进特殊场景及多语种识别能力。优化了生僻字、古籍、多语种表格、下划线及复选框的识别效果,并扩展了藏语和孟加拉语的识别支持。
支持跨页表格自动合并与跨页段落标题识别,解决了长文档解析中的断层问题。
推理速度进一步提升。
2模型架构

3如何使用
在线使用:https://www.paddleocr.com
开源项目地址:https://github.com/PaddlePaddle/PaddleOCR
模型下载地址:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
PaddleOCR-VL-1.5使用步骤(详情可点击下方阅读全文):
启动容器(使用官方镜像)
dockerrun -it --user root --privileged --device /dev/dri:/dev/dri --device /dev/dri --device /dev/mxcd:/dev/mxcd --security-opt seccomp=unconfined --security-opt apparmor=unconfined --shm-size64g --network host ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleocr-genai-fastdeploy-server:latest-metax-gpu bash
安装PaddleOCR-VL-1.5
python-m pip install -U"paddleocr[doc-parser]" pip install openai
(可选): 快速测试PaddleOCR-VL-1.5原生推理(基于paddlex)
paddleocr doc_parser-i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png
# 可选参数:
--layout_detection_model_name(版面区域检测排序模型的名称,不设置将会使用默认模型)
--layout_detection_model_dir(版面区域检测排序模型的路径,不设置将会使用默认模型)
--vl_rec_model_name(多模态识别模型目录名称,不设置将会下载官方模型)
--vl_rec_model_dir(多模态识别模型目录路径,不设置将会下载官方模型)
--device(用于推理的设备,不设置默认使用cpu, 如要使用gpu,请设--device metax_gpu, 如要指定某张卡,请先设置环境变量 MACA_VISIBLE_DEVICES={gpu_id})
启动fastdeploy服务
paddleocrgenai_server --model_name PaddleOCR-VL-1.5-0.9B --host0.0.0.0--port8118--backend fastdeploy --model_dir {model_dir}
注:model_dir为下载的PaddeOCR-VL-1.5模型的路径
启动客户端程序
方式一:通过CLI调用
paddleocr doc_parser--inputpaddleocr_vl_demo.png--vl_rec_backendfastdeploy-server--vl_rec_server_urlhttp://127.0.0.1:8118/v1 --device metax_gpu
注:model_dir为下载的PaddeOCR-VL-1.5模型的路径
方式二:通过Python API调用
frompaddleocrimportPaddleOCRVL
#基于paddlex推理
# pipeline = PaddleOCRVL()
#基于fd server推理
pipeline = PaddleOCRVL(vl_rec_backend="fastdeploy-server", vl_rec_server_url="http://127.0.0.1:8118/v1", device="metax_gpu", layout_detection_model_name="PP-DocLayoutV2", vl_rec_model_name="PaddleOCR-VL-0.9B")
# pipeline = PaddleOCRVL(use_doc_orientation_classify=True) # 通过 use_doc_orientation_classify 指定是否使用文档方向分类模型
# pipeline = PaddleOCRVL(use_doc_unwarping=True) # 通过 use_doc_unwarping 指定是否使用文本图像矫正模块
# pipeline = PaddleOCRVL(use_layout_detection=False) # 通过 use_layout_detection 指定是否使用版面区域检测排序模块
output = pipeline.predict("./paddleocr_vl_demo.png")
forresinoutput:
res.print()## 打印预测的结构化输出
res.save_to_json(save_path="output")## 保存当前图像的结构化json结果
res.save_to_markdown(save_path="output")## 保存当前图像的markdown格式的结果
关于沐曦股份
沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。
推荐阅读:
经纬辉开喜提“20cm”涨停 参股公司与安华高(博通)9年争议达成和解
重磅!英国首相苏纳克宣布辞职!民调显示英国工党在英国议会下院选举中胜出
主力正悄悄吸筹?这些筹码集中股或被错杀 3股获北上资金大手笔买入







