用Adobe Acrobat Pro使扫描版PDF可搜索

2017-03-13|Categories: macOS, Windows|Tags: |

方法

打开Acrobat → 增强扫描 → 识别文本

性能

  • 资源占用低,Acrobat运行在Paralles Desktop的Windows 10虚拟机中,增强扫描期间CPU、内存一直很平稳
  • 识别快速,818页的中文扫描版PDF文件,耗时大约70分钟
  • 使用 Acrobat for macOS 2015.006.30306 原生应用识别速度更快:
    • 《跟老男孩学Linux运维之Web集群实战》,693页,38分钟完成识别,每分钟平均识别18页
    • 《unix-linux-系统管理技术手册.第4版》,1008页,52分钟完成识别,每分钟平均识别19页

结果

  • 增强扫描之前,所有PDF阅读器,例如Preview.app、PDF Expert,完全无法搜索PDF内容。
  • 增强扫描之后,Acrobat、PDF Expert可以搜索绝大部分内容,Preview.app能搜索到部分英文内容,Evernote的搜索结果与Preview.app完全一致,可能是直接调用Preview.app的缘故。(截图中的红色方框是阅读PDF时留下的批注,在这里没有其他意义)
    adobe-acrobat-enhance-scan
  • Evernote提供了一种名为「曲线识别」的专利OCR技术,可以识别图片中的文字并搜索,还可以识别扫描版PDF(少于100页、小于25M),准确率比Acrobat稍低,效果如下图:
    • 注1:下图所示的PDF并未经过Acrobat增强扫描处理,搜索关键词同样是「观察x window的发展」。
    • 注2:完整版《Unix & Linux大学教程》扫描版PDF共818页,超出了Evernote的限制,因此只能分割成100页的小文件,再单独上传,效率非常低,这里只是为了测试,不适合日常使用。

其它发现

  • macOS上的Evernote在搜索PDF时,可能是直接调用系统内置的Preview.app,我做出推测的原因如下:
    • 搜索增强扫描的PDF的结果完全相同
      App 搜索pipe的结果 搜索mit的结果
      Acrobat 18 17
      PDF Expert 18 17
      Preview.app 4 5
      Evernote 4 5
    • 搜索普通的非扫描版PDF,比如RHEL 7 LVM管理指南的结果完全相同
      App 搜索守护进程的结果
      Acrobat 29
      PDF Expert 32
      Preview.app 28
      Evernote 28
    • 以上的搜索关键词都是随意挑选

  • PDF Expert采取全文搜索,且不可更改,搜索时占用CPU特别厉害,搜索结果会包含冗余,比如同一个位置的关键词被匹配两次。

  • 相比之下,Acrobat默认会在搜索到第一个匹配项之后暂停,用户点击「下一个」按钮时再继续,同时还提供高级搜索,既可以搜索单个PDF,也可以搜索指定范围内的所有PDF,非常强大。
    adobe-acrobat-advance-search

结论

  • 日常使用PDF Expert阅读、批注,也可以编辑非扫描版的PDF。
  • Evernote可以用于处理扫描版PDF,但限制较多,页数超出100页,文件大于25M就必须分割再上传,比较麻烦。
  • 涉及到PDF文件页面的重新排序、新增、删除、旋转、分割、合并时,可以通过Preview.app + PDFsam basic edition这种免费方案。
    pdfsam-basic-edition-free
  • Adobe Acrobat Pro几乎可以完成所有和PDF相关的工作,加上「几乎」二字是考虑其在某些情况下需要专业插件的配合。
    adobe-acrobat-tools
  • 可以使用Enfocus PitStop插件批量删除水印

Leave A Comment