功能特性
覆蓋 PDF 標準化從檢測到交付的完整鏈路
A4 規格檢測與轉換
- 自動識別 A4 直向、A4 橫向、非 A4 頁面
- 橫向頁面通過內容流矩陣無損旋轉為直向,保留矢量內容
- 非 A4 頁面等比縮放並居中放置,避免內容裁切
- 支持批量斷點續傳,單批次百萬級文件不丟進度
顏色空間檢測與修復
- 檢測 DeviceN、ICCBased、Indexed、Lab 等複雜顏色空間
- 自動將非標準顏色空間修復為 RGB / CMYK / Gray
- 按頁記錄修復明細,導出 Excel 逐頁查看
- 複雜顏色空間自動跳過,避免誤修復導致畫質下降
顏色渲染檢測
- 基於實際渲染像素識別粉紅、黃、青、紅、綠、藍、反色、灰度丟失等問題
- 量化問題像素佔比,輔助判斷是否需要重新生成 PDF
- 常用於發現「顏色空間聲明正常但渲染異常」的隱蔽問題
源文件完整性校驗
- 對比源文件與處理後文件的大小、頁數、MD5
- 自動發現轉換過程中的頁數丟失或文件損壞
- 關鍵校驗準確率可達 99.9%,支持歷史記錄回掃檢測
簽名驗簽(可選)
- 驗證 PDF 數字簽名有效性
- 支持同步路徑指數退避重試
- 適用於電子合同、電子證照等合規場景
高性能與易部署
- asyncio 異步 + 多進程並發,單批次支持百萬級文件
- 自動適配 CPU 與內存,8 核機器 1,000 文件 3–8 分鐘
- SQLite WAL 模式支持多進程安全訪問
- 提供 Docker 鏡像與離線部署包
- 無需互聯網即可完成私有化部署
AI 與企業系統集成
- 標準化後的 PDF 頁面統一、顏色正常,降低大模型解析噪音
- 可選 OCR 讓掃描件變為可搜索、可複製的 PDF
- CLI、Excel、SQLite、HTML/Excel 輸出,便於對接 ECM、DMS、RPA
- 可嵌入 CI/CD、定時任務與內部知識庫工作流
- 私有化部署,數據不出域即可與內部系統打通
混合存儲與高效 I/O
- 支持本地目錄、S3/MinIO 等混合存儲,適配企業現有存儲架構
- 大文件分片並發下載,顯著提升讀取效率
- SQLite WAL 模式支持多進程安全寫入
- 異步數據庫操作,避免 I/O 阻塞處理流水線
- 百萬級文件高吞吐,斷點續傳不丟進度
遠程文件協議讀取
- 支持 http:// / https://、ftp:// / ftps://、sftp://、file:// 等多種協議
- Excel 中直接填寫 URL 即可批量接入遠程文件,無需預先落盤
- HTTP/HTTPS 原生異步下載,大文件流式寫入不佔用大量內存
- 按 URL 路徑自動保留目錄結構,輸出結果易於與原系統對齊
- 與 S3/MinIO/本地目錄混合使用,靈活適配企業分散存儲