功能特性

覆盖 PDF 标准化从检测到交付的完整链路

A4 规格检测与转换

  • 自动识别 A4 竖版、A4 横版、非 A4 页面
  • 横版页面通过内容流矩阵无损旋转为竖版,保留矢量内容
  • 非 A4 页面等比缩放并居中放置,避免内容裁切
  • 支持批量断点续传,单批次百万级文件不丢进度

颜色空间检测与修复

  • 检测 DeviceN、ICCBased、Indexed、Lab 等复杂颜色空间
  • 自动将非标准颜色空间修复为 RGB / CMYK / Gray
  • 按页记录修复明细,导出 Excel 逐页查看
  • 复杂颜色空间自动跳过,避免误修复导致画质下降

颜色渲染检测

  • 基于实际渲染像素识别粉红、黄、青、红、绿、蓝、反色、灰度丢失等问题
  • 量化问题像素占比,辅助判断是否需要重新生成 PDF
  • 常用于发现“颜色空间声明正常但渲染异常”的隐蔽问题

源文件完整性校验

  • 对比源文件与处理后文件的大小、页数、MD5
  • 自动发现转换过程中的页数丢失或文件损坏
  • 关键校验准确率可达 99.9%,支持历史记录回扫检测

签名验签(可选)

  • 验证 PDF 数字签名有效性
  • 支持同步路径指数退避重试
  • 适用于电子合同、电子证照等合规场景

高性能与易部署

  • asyncio 异步 + 多进程并发,单批次支持百万级文件
  • 自动适配 CPU 与内存,8 核机器 1,000 文件 3–8 分钟
  • SQLite WAL 模式支持多进程安全访问
  • 提供 Docker 镜像与离线部署包
  • 无需互联网即可完成私有化部署

AI 与企业系统集成

  • 标准化后的 PDF 页面统一、颜色正常,降低大模型解析噪音
  • 可选 OCR 让扫描件变为可搜索、可复制的 PDF
  • CLI、Excel、SQLite、HTML/Excel 输出,便于对接 ECM、DMS、RPA
  • 可嵌入 CI/CD、定时任务与内部知识库工作流
  • 私有化部署,数据不出域即可与内部系统打通

混合存储与高效 I/O

  • 支持本地目录、S3/MinIO 等混合存储,适配企业现有存储架构
  • 大文件分片并发下载,显著提升读取效率
  • SQLite WAL 模式支持多进程安全写入
  • 异步数据库操作,避免 I/O 阻塞处理流水线
  • 百万级文件高吞吐,断点续传不丢进度

远程文件协议读取

  • 支持 http:// / https://、ftp:// / ftps://、sftp://、file:// 等多种协议
  • Excel 中直接填写 URL 即可批量接入远程文件,无需预先落盘
  • HTTP/HTTPS 原生异步下载,大文件流式写入不占用大量内存
  • 按 URL 路径自动保留目录结构,输出结果易于与原系统对齐
  • 与 S3/MinIO/本地目录混合使用,灵活适配企业分散存储