OCRmyPDF
市面常见的OCR工具往往把 PDF 转成 Word 或 TXT,破坏了原有排版。不同于普通 OCR 软件粗暴转换的做法,OCRmyPDF 像给文件装上透明文字层:打开处理后的 PDF,所有文字可随意复制,页面上的表格、图片位置分毫不差。
OCRmyPDF 是一个命令行工具,可以处理多种语言,并提供诸如页面旋转、图像去斜等功能。
使用 Tesseract 引擎,支持超过 100 种语言,同时保持原始图片的分辨率不变。该工具能在不干扰其他内容的情况下无损插入 OCR 信息,并优化 PDF 文件大小,使其比原文件更小。
OCRmyPDF 还支持多核处理,能有效处理大批量的 PDF 文件。用户可以通过简单的命令行选项指定输入和输出文件类型,并控制生成 PDF/A 格式的可搜索文件。这个项目被广泛应用于需要处理大量扫描文档的用户,确保了良好的性能和稳定性。
标题:OCRmyPDF
日期:2025-04-20 18:57
链接:https://www.zhouwenxi.com/index.php/archives/130.html
许可:© CC BY 4.0 · 转载请保留原文链接及作者