使用python压缩扫描pdf文件，压缩率0.1

Python | 2020-11-09 17:10:44 | 0 COMMENT

代码基本网上搜的，没啥贴的，写一下思路，有需要的自己网上搜就行了。主要是自己看的电子书是扫描版的pdf，里边全是图片，超级大，好几百M。之前找了一圈，靠谱软件需要收费，不靠谱个人软件只能windwos下用。于是自己搞吧，发现也不太难。第一步是把pdf提取图片用到pymupdf库，这个是封装的c的接口，感觉写个pdf软件也不难啊，都有开源库，不知道为啥他们还收费。我提取图片发现，好多水印图片是直接用pdf编辑软件加上的，导致水印可以直接从提取的图片里边删掉，这个挺好。第二步，把图片二值化这里用到opencv，用到cv2.threshold。这个阈值不太好设置，可以使用cv2.THRESH_OTSU，提取一个分析值，但是这个不是最优的，有的书是半彩页的，书边会有浅色的背景之类，或者重点颜色等。这个有分析建议值之后，还需要自己试一下哪个值比较好。第三部，把图片生成新pdf 这个还是用pymupdf库，基本都差不多。没想到的是压缩率还挺低，一百多MB的pdf能压缩成十多兆。可能也是之前的pdf质量比较高吧。但是我看了一下压缩后的，清晰度一点不减少。有背景色的地方，选择阈值合适，背景色也都过滤掉了，文字不受影响。

上一篇: 参加两次数据库比赛的总结
下一篇: 使用Rserve实现java调用R程序

Categories: 博客记录

使用python压缩扫描pdf文件，压缩率0.1

相关文章：

0 Responses so far.

Leave a Reply