close

1.找了網路很多資料, 終於得到python讀取PDF檔案的方法

2.首先, 我們必須先下載PDF檔案

http://pythonscraping.com/pages/warandpeace/chapter1.pdf

3.安裝PyPDF2

老樣子, 用pip install pypdf2

擷取.PNG

我已經安裝過了, 所以出現這樣的提示

4導入PyPDF2模組 和 pprint模組

import PyPDF2

import pprint

5.我把下載的pdf放在F槽, 並且改名字為1.pdf, 然後用python打開

File = open('F:\\1.pdf','rb')

這裡的r是讀取模式, 如果是w則是寫入(如果檔案原本就有會被刪掉), b是二進位

6.其他的我們查看一下文檔

打開pydoc

未命名.png

打開pypdf2

擷取.PNG

進入pdf, 找到PdfFileReader

擷取.PNG

我們構建一個PdfFileReader的類對象

PDF = PyPDF2.PdfFileReader(File)

7.然後

for page in PDF.pages:
    pprint.pprint(page.extractText())

擷取.PNG

就可以打印出文件囉~

 

 

arrow
arrow
    文章標籤
    PYTHON PYPDF PDF
    全站熱搜
    創作者介紹
    創作者 張郎屋 的頭像
    張郎屋

    張郎生活的筆記

    張郎屋 發表在 痞客邦 留言(0) 人氣()