一个文件往往会有一些用来描述自身属性的数据信息,比如说作者、创建时间、标题、版权声明等,我们把这些数据称为元数据。我们可以访问PdfReader对象的metadata属性或者调用它的getDocumentInfo()方法获取支持读写的元数据,代码如下:
# 查看元数据
from PyPDF2 import PdfReader
reader = PdfReader("./pdf_ files/练习文档.pdf")
meta = reader.metadata
# meta = reader.getDocumentInfo()
print(type(meta),len(meta),meta.keys())
# 作者
print(meta.author)
# 创建者
print(meta.creator)
# 制作者
print(meta.producer)
# 标题
print(meta.title)
# 子标题
print(meta.subject)
# 获取其他键值
print(meta.getText("/Company"))
这些元数据存储在一个DocumentInformation对象里,这个对象是继承于字典的,所以你可以把它当字典使用,比如说可以调用它的keys()方法查看所有元数据的键名。