当前位置:  首页>> 技术小册>> Python与办公-玩转PDF

一个文件往往会有一些用来描述自身属性的数据信息,比如说作者、创建时间、标题、版权声明等,我们把这些数据称为元数据。我们可以访问PdfReader对象的metadata属性或者调用它的getDocumentInfo()方法获取支持读写的元数据,代码如下:

  1. # 查看元数据
  2. from PyPDF2 import PdfReader
  3. reader = PdfReader"./pdf_ files/练习文档.pdf"
  4. meta = reader.metadata
  5. # meta = reader.getDocumentInfo()
  6. print(type(meta),len(meta),meta.keys())
  7. # 作者
  8. print(meta.author)
  9. # 创建者
  10. print(meta.creator)
  11. # 制作者
  12. print(meta.producer)
  13. # 标题
  14. print(meta.title)
  15. # 子标题
  16. print(meta.subject)
  17. # 获取其他键值
  18. print(meta.getText("/Company"))

这些元数据存储在一个DocumentInformation对象里,这个对象是继承于字典的,所以你可以把它当字典使用,比如说可以调用它的keys()方法查看所有元数据的键名。


该分类下的相关小册推荐: