双层PDF
此功能可以用来制作双层PDF。
什么是双层PDF
我们常见的PDF主要有两种:
- 文本型PDF,这类PDF的文字可以被复制和搜索,如通过word文档转换而来的PDF就是这种,但是也面临易被PDF编辑器篡改内容的风险。
- 图片型PDF,这类PDF一般是由图片转换得到的,或者通过扫描得到的,只能查看内容,里面的文字不支持复制和检索,使用起来不太方便。
而我们的主角 『双层PDF』 兼顾了上面两种类型PDF的特点,它的底层仍然是图片,但是却额外增加了一个不可见的文字图层,故取名为『双层PDF』,既可以防止内容被篡改,又方便了文本的复制和检索,在制作标书场景中经常会用到。
如何制作双层PDF
制作双层PDF的关键是为图片型PDF增加一个不可见的文字图层,根据文字层来源可分为两种类型:
- 基于PDF文字提取
如果你有原始的文本型PDF,建议采用这种方式。软件会直接从文本型PDF中提取文字,相比于OCR方式,文字识别准确率更高。
- 基于OCR识别
如果你没有原始的文本型PDF,那么你只能通过这种方式制作双层PDF。软件会自动对PDF页面进行OCR文字识别,并创建不可见文字图层到目标PDF中。这种方式的适用范围更广,但是文字识别准确率受限于OCR引擎的识别效果。
下面具体演示下两种类型的方法:
基于OCR识别
参数填写示例:
本软件支持PaddleOCR、Apple Vision、OCRmyPDF三种OCR引擎制作双层PDF。
- PaddleOCR: 仅限win10/11可使用,软件内置,无需额外安装依赖,开箱即用,并且对中文识别更友好,因此更推荐使用。目前只支持Win10/11设备使用。
- Apple Vision: 仅限Mac使用,软件内置,无需额外安装依赖,开箱即用,并且对中文识别更友好,因此更推荐使用。目前只支持Win10/11设备使用。
- OCRmyPDF: 需要额外安装依赖,并且步骤比较繁琐,对中文识别效果一般,对英文等语言更适合,支持多线程,识别效率更高,适合有计算机基础的用户使用,详见安装指南。
使用PaddleOCR或Apple Vision制作双层PDF很简单,填写好语言、输入文件等参数后,点击确认,耐心等待程序执行完成即可。
使用OCRmyPDF制作双层PDF属于高阶教程,适合有计算机编程基础的用户,可自行对照安装指南安装。安装完成后,还需要在本软件的首选项中配置ocrmypdf
可执行文件的绝对路径。
如果生成的PDF文件发生文字和底下正文重影的情况,可以分别尝试下勾选和不勾选overlay
参数是否正常。如果仍然出现问题,可以将原PDF先转成图片型PDF后再制作双层PDF。
基于PDF文字提取
参数填写示例:
首先准备好一份文本型PDF,通常由word文档转换得到。然后填写DPI、输入文件等参数,点击确认,耐心等待程序执行完成即可。软件会自动把文本型PDF转成图片型PDF,并给图片型PDF添加不可见文字图层。