close
1.找了網路很多資料, 終於得到python讀取PDF檔案的方法
2.首先, 我們必須先下載PDF檔案
http://pythonscraping.com/pages/warandpeace/chapter1.pdf
3.安裝PyPDF2
老樣子, 用pip install pypdf2
我已經安裝過了, 所以出現這樣的提示
4導入PyPDF2模組 和 pprint模組
import PyPDF2
import pprint
5.我把下載的pdf放在F槽, 並且改名字為1.pdf, 然後用python打開
File = open('F:\\1.pdf','rb')
這裡的r是讀取模式, 如果是w則是寫入(如果檔案原本就有會被刪掉), b是二進位
6.其他的我們查看一下文檔
打開pydoc
打開pypdf2
進入pdf, 找到PdfFileReader
我們構建一個PdfFileReader的類對象
PDF = PyPDF2.PdfFileReader(File)
7.然後
for page in PDF.pages:
pprint.pprint(page.extractText())
就可以打印出文件囉~
文章標籤
全站熱搜
留言列表