功能特性

覆蓋 PDF 標準化從檢測到交付的完整鏈路

A4 規格檢測與轉換

  • 自動識別 A4 直向、A4 橫向、非 A4 頁面
  • 橫向頁面通過內容流矩陣無損旋轉為直向,保留矢量內容
  • 非 A4 頁面等比縮放並居中放置,避免內容裁切
  • 支持批量斷點續傳,單批次百萬級文件不丟進度

顏色空間檢測與修復

  • 檢測 DeviceN、ICCBased、Indexed、Lab 等複雜顏色空間
  • 自動將非標準顏色空間修復為 RGB / CMYK / Gray
  • 按頁記錄修復明細,導出 Excel 逐頁查看
  • 複雜顏色空間自動跳過,避免誤修復導致畫質下降

顏色渲染檢測

  • 基於實際渲染像素識別粉紅、黃、青、紅、綠、藍、反色、灰度丟失等問題
  • 量化問題像素佔比,輔助判斷是否需要重新生成 PDF
  • 常用於發現「顏色空間聲明正常但渲染異常」的隱蔽問題

源文件完整性校驗

  • 對比源文件與處理後文件的大小、頁數、MD5
  • 自動發現轉換過程中的頁數丟失或文件損壞
  • 關鍵校驗準確率可達 99.9%,支持歷史記錄回掃檢測

簽名驗簽(可選)

  • 驗證 PDF 數字簽名有效性
  • 支持同步路徑指數退避重試
  • 適用於電子合同、電子證照等合規場景

高性能與易部署

  • asyncio 異步 + 多進程並發,單批次支持百萬級文件
  • 自動適配 CPU 與內存,8 核機器 1,000 文件 3–8 分鐘
  • SQLite WAL 模式支持多進程安全訪問
  • 提供 Docker 鏡像與離線部署包
  • 無需互聯網即可完成私有化部署

AI 與企業系統集成

  • 標準化後的 PDF 頁面統一、顏色正常,降低大模型解析噪音
  • 可選 OCR 讓掃描件變為可搜索、可複製的 PDF
  • CLI、Excel、SQLite、HTML/Excel 輸出,便於對接 ECM、DMS、RPA
  • 可嵌入 CI/CD、定時任務與內部知識庫工作流
  • 私有化部署,數據不出域即可與內部系統打通

混合存儲與高效 I/O

  • 支持本地目錄、S3/MinIO 等混合存儲,適配企業現有存儲架構
  • 大文件分片並發下載,顯著提升讀取效率
  • SQLite WAL 模式支持多進程安全寫入
  • 異步數據庫操作,避免 I/O 阻塞處理流水線
  • 百萬級文件高吞吐,斷點續傳不丟進度

遠程文件協議讀取

  • 支持 http:// / https://、ftp:// / ftps://、sftp://、file:// 等多種協議
  • Excel 中直接填寫 URL 即可批量接入遠程文件,無需預先落盤
  • HTTP/HTTPS 原生異步下載,大文件流式寫入不佔用大量內存
  • 按 URL 路徑自動保留目錄結構,輸出結果易於與原系統對齊
  • 與 S3/MinIO/本地目錄混合使用,靈活適配企業分散存儲