功能特性
覆盖 PDF 标准化从检测到交付的完整链路
A4 规格检测与转换
- 自动识别 A4 竖版、A4 横版、非 A4 页面
- 横版页面通过内容流矩阵无损旋转为竖版,保留矢量内容
- 非 A4 页面等比缩放并居中放置,避免内容裁切
- 支持批量断点续传,单批次百万级文件不丢进度
颜色空间检测与修复
- 检测 DeviceN、ICCBased、Indexed、Lab 等复杂颜色空间
- 自动将非标准颜色空间修复为 RGB / CMYK / Gray
- 按页记录修复明细,导出 Excel 逐页查看
- 复杂颜色空间自动跳过,避免误修复导致画质下降
颜色渲染检测
- 基于实际渲染像素识别粉红、黄、青、红、绿、蓝、反色、灰度丢失等问题
- 量化问题像素占比,辅助判断是否需要重新生成 PDF
- 常用于发现“颜色空间声明正常但渲染异常”的隐蔽问题
源文件完整性校验
- 对比源文件与处理后文件的大小、页数、MD5
- 自动发现转换过程中的页数丢失或文件损坏
- 关键校验准确率可达 99.9%,支持历史记录回扫检测
签名验签(可选)
- 验证 PDF 数字签名有效性
- 支持同步路径指数退避重试
- 适用于电子合同、电子证照等合规场景
高性能与易部署
- asyncio 异步 + 多进程并发,单批次支持百万级文件
- 自动适配 CPU 与内存,8 核机器 1,000 文件 3–8 分钟
- SQLite WAL 模式支持多进程安全访问
- 提供 Docker 镜像与离线部署包
- 无需互联网即可完成私有化部署
AI 与企业系统集成
- 标准化后的 PDF 页面统一、颜色正常,降低大模型解析噪音
- 可选 OCR 让扫描件变为可搜索、可复制的 PDF
- CLI、Excel、SQLite、HTML/Excel 输出,便于对接 ECM、DMS、RPA
- 可嵌入 CI/CD、定时任务与内部知识库工作流
- 私有化部署,数据不出域即可与内部系统打通
混合存储与高效 I/O
- 支持本地目录、S3/MinIO 等混合存储,适配企业现有存储架构
- 大文件分片并发下载,显著提升读取效率
- SQLite WAL 模式支持多进程安全写入
- 异步数据库操作,避免 I/O 阻塞处理流水线
- 百万级文件高吞吐,断点续传不丢进度
远程文件协议读取
- 支持 http:// / https://、ftp:// / ftps://、sftp://、file:// 等多种协议
- Excel 中直接填写 URL 即可批量接入远程文件,无需预先落盘
- HTTP/HTTPS 原生异步下载,大文件流式写入不占用大量内存
- 按 URL 路径自动保留目录结构,输出结果易于与原系统对齐
- 与 S3/MinIO/本地目录混合使用,灵活适配企业分散存储