读取页面和保存页面-Python与办公-玩转PDF

当前位置:　首页>> 技术小册>> Python与办公-玩转PDF

要操作一个文档，则操作它的页面是不可缺少的常规操作，第一件事就是获取页面。
在pypdf2中，一个页面即一个PageObject对象，我们可以访问PdfReader对象的pages属性获取所有页面，然后再遍历一下所有页面即可获取每一个页面，代码如下：

from PyPDF2 import PdfReader
reader = PdfReader("./pdf_ files/test.pdf")
for page in reader.pages:
    print(type(page))  # <class 'PyPDF2._page.PageObject'>

如果想要指定某个页面，PdfReader对象还提供了getPage()方法，参数是页面的索引，为了避免索引越界，我们可以使用len(reader.pages)查看一共有多少个页面，也可以调用PdfReader对象的getNumPages()方法，代码如下：

from PyPDF2 import PdfReader
reader = PdfReader("./pdf_ files/test.pdf")
print(reader.getNumPages())  # 输出：2
page = reader.getPage(0)
print(type(page))  # 输出：<class 'PyPDF2._page.PageObject'>

保存页面

读取到页面之后，我们就可以调用PdfWriter对象的addPage()方法保存页面了，参数就传入一个PageObject对象就行。这个PageObject对象可以从上一步的getPage()方法获得或者遍历pages属性获取。

比如说，我们要读取一个PDF文档，将它的前2页取出来，保存为一个新的PDF文档，当然，直接覆盖原文档也没问题，但不建议这么做，代码如下：

from PyPDF2 import PdfWriter,PdfReader
writer = PdfWriter()
reader = PdfReader（"./pdf_ files/测试文档1.pdf"）
for page in reader.pages[:2]:
    writer.addPage(page)
with open("./pdf_ files/test.pdf","wb") as f:
    writer.write(f)