OCR 引擎分析动画

多格式文件输入、视觉解析、版面结构化与坐标级文本输出

ENGINE_READY

文件输入

PDF

招标文件扫描件.pdf

多页文档 / 表格 / 印章

PNG

营业执照截图.png

图片增强 / 方向校正

JPG

合同拍照件.jpg

透视修正 / 噪声抑制

TIFF

历史归档票据.tiff

批量页切分 / 清晰化

DOC

电子标书正文.docx

版式渲染 / 文本抽取

XLS

报价明细表.xlsx

表格识别 / 单元格映射

BMP

盖章扫描页.bmp

低清增强 / 印章区域

WEBP

移动端上传.webp

压缩图像 / 自动纠偏

x=126 y=084 w=188 h=31 line_angle=0.2 conf=0.987 cell[2,3] -> text read_order: 01 -> 07 key=value pair text="项目名称" lang=zh-CN table_rows=12 rotate=0.4deg stamp_region=true paragraph_id=P03 merge_cell: A2:C2 output=json

文件进入引擎后，会先转成统一页面图像，再经历检测、识别、结构恢复与结果校验，最后输出可检索、可定位的文本数据。

OCR VISION ENGINE

98.7% 识别置信

0.36s 单页解析

12K 字符定位

格式接入PDF 渲染、图片解码、页级任务切分

图像预处理去噪、纠偏、透视修正、清晰化增强

版面分析标题、段落、表格、图片、页眉页脚拆解

文本检测定位文本行、字符框、阅读顺序与旋转角

字符识别中英文、数字、符号、手写/印刷体识别

结构恢复表格单元格、键值对、列表层级、跨页合并

后处理输出置信度校验、错字纠正、文本与坐标导出

PDF

scan.pdfpage stream

PNG

license.pngimage pixels

JPG

contract.jpgcamera frame

TIFF

archive.tiffbatch pages

DOC

tender.docxlayout render

XLS

quote.xlsxtable cells

BMP

seal.bmpstamp area

WEBP

mobile.webpcompressed