前言:

pypdf2是一个纯python的开源库,能够分割或合并pdf文件,也可以裁剪或转换pdf文件中的页面。我们还可以使用pypdf2查看pdf文件的元信息,对pdf文件进行加密等。

pypdf2是一个开源的库,因此在使用之前需要先安装。

1.读取pdf

首先导入pypdf2模块,然后以二进制读模式打开a.pdf文件,并将它传递给pdffilereader类的初始化函数。pdffilereader的初始化函数会返回一个pdffilereader类的对象,我们可以使用这个对象来获取pdf文件的信息。

通过getnumpages函数获取pdf的总页数,通过getisencrypted函数获取文件是否加密,通过getdocumentinfo函数获取文件的元数据,通过传递下标给getpage函数的方式获取pdf页面,下标从0开始,与python内置的字符串、列表和元组等保持一致。通过pageobject类的extracttext方法提取页面中的文本。从该方法的返回结果来看,提取pdf文本的效果并不理想。

2.删除pdf的某些页

思路:pypdf2并不能直接编辑pdf文件,但是我们可以利用pypdf2从一个pdf文档拷贝需要的页面到另一个pdf文档,通过这种迂回的方式实现编辑pdf的功能。例如删掉a.pdf中的第一页

3.旋转页面

pageobject类中有部分方法可以修改pdf页面,其中rotateclockwiserotatecounterclockwise方法用来旋转页面。这两个方法只接受一个参数,且参数取值必须是90的倍数,表示旋转多少度。

4.合并pdf

append方法通过fileobj参数确定要添加的pdf文件,通过pages参数指定要将哪些pdf页面添加到新的pdf文件中,并将要添加的页面添加到merger对象的末尾。merge方法相对于append方法,增加了position参数,我们可以通过position参数指定页面插人的位置。append方法和merge方法的pages参数非常灵活,该参数是一个三元组(start,stop[,step]),分别表示起点、终点和步长。我们可以通过该参数指定合并pdf文件中的页面。

到此这篇关于python使用技巧pdf的详细内容介绍的文章就介绍到这了,更多相关python使用技巧pdf介绍内容请搜索www.887551.com以前的文章或继续浏览下面的相关文章希望大家以后多多支持www.887551.com!