辦公利器！用Python批次識別發票並錄入到Excel表格

用Python批次識別發票並錄入到Excel表格

。對於

財務專業

等學生或者

公司財務

人員來說，將報賬發票等彙總到excel簡直就是一個

折磨

。

尤其是到

年底

的時候，公司的財務人員面對一大堆的發票簡直就是

苦不堪言

。正好我們學會了Python，我們應該將Python的優勢發揮起來。

場景描述

這裡有以四張發票為例（辰哥網上搜的），將發票圖片放到pic資料夾下。

隨便開啟一張發票

提取目標：

金額

、

名稱

、

納稅人識別號

、

開票人

。

最後將每一張發票的這四個內容儲存到excel中：

準備環境

需要用到的庫如下：

from PIL import Image as PIimport pyocrimport pyocr。buildersfrom cnocr import CnOcr

安裝的命令如下：

pip install pyocrpip install cnocr

發票中含有中文內容，我們需要對圖片中的中文進行識別，那麼 cnocr 是一個不錯的選擇。

提示

：安裝好上面的庫之外，還需要安裝額外的exe檔案，不然會出現下面這種錯誤

需要安裝的exe檔案：

ImageMagick

tesseract-OCR

這兩個軟體的安裝過程就不再贅述了，大家可以自行搜尋教程進行安裝。

提取內容

下面以其中一張圖片為例，講解如何提取目標內容：

金額

、

名稱

、

納稅人識別號

、

開票人

。

讀取圖片：

pic/pic1.jpg

tool = pyocr。get_available_tools（）［0］img_url = “pic/pic1。jpg”with open（img_url， ‘rb’） as f： a = f。read（）new_img = PI。open（io。BytesIO（a））

1。提取金額

需要擷取到發票中

金額

的位置

## 金額left = 741top = 420right = 850bottom = 445image_text1 = new_img。crop（（left， top， right， bottom））#展示圖片image_text1。show（）

這裡的left、top、right、bottom的數值是透過

多次修改定位而來

。大家根據自己的發票內容去定位即可。

接著將

圖片中的數字提取出來

同樣的，下面繼續提取：

名稱

2。提取名稱

left = 155top = 450right = 450bottom = 470image_obj2 = new_img。crop（（left， top， right， bottom））image_obj2。show（）

這裡的名稱是中文的，咱們不能再像提取金額（

數字

）操作。需要使用到cnocr去將圖片中的中文取出。

image_obj2。save（“tmp。jpg”）ocr = CnOcr（）res = ocr。ocr（“tmp。jpg”）print（“”。join（res［0］））

3。提取納稅人識別號

#納稅人識別號left = 155top = 470right = 450bottom = 490image_text3 = new_img。crop（（left， top， right， bottom））#展示圖片image_text3。show（）

txt3 = tool。image_to_string（image_text3）print（txt3）

將圖片中的納稅人識別號提取出來，結果如下：

4。提取開票人

left = 528top = 550right = 670bottom = 600image_obj4 = new_img。crop（（left， top， right， bottom））image_obj4。show（）

image_obj4。save（“tmp。jpg”）ocr = CnOcr（）res = ocr。ocr（“tmp。jpg”）print（“”。join（res［0］））

由於有中文，咱們這裡同樣和提取

名稱

一樣，使用cnocr將圖片中的中文取出。

ok這樣我們就將發票中的四個目標內容提取出來，接著將

資料夾pic

下的所有發票，進行識別將內容儲存到excel。

批次識別發票並儲存到excel

在讀取圖片之前，先將上面的四個操作封裝成函式，方便每一種發票物件進行呼叫。

讀取資料夾下的所有圖片。

filePath = ‘pic’pic_name = ［］for i，j，name in os。walk（filePath）： pic_name = namefor i in pic_name： print（i）

開始進行識別，並將結果寫入到excel中。

for i in pic_name： img_url = filePath+“/”+i with open（img_url， ‘rb’） as f： a = f。read（） new_img = PI。open（io。BytesIO（a）） ## 寫入csv outws。cell（row=count， column=1， value=text2（new_img）） outws。cell（row=count， column=2， value=text3（new_img）） outws。cell（row=count， column=3， value=text1（new_img）） outws。cell（row=count， column=4， value=text4（new_img）） count = count + 1outwb。save（“發票彙總-李運辰。xls”） # 儲存結果

最後儲存為：

發票彙總-李運辰。xls

，其結果如下：

發票驗證真偽

在辰哥的交流群裡，和小夥伴聊到這個內容時，小夥伴建議可以加一個功能：

發票驗證真偽

。

所以在上面的開始識別之前（

自己公司的發票可能不需要查驗這步

），先呼叫一下第三方的介面，對發票進行識別，識別透過之後再將其提取發票中目標內容。

1。申請百度AI應用

2。獲取token

# client_id 為官網獲取的AK， client_secret 為官網獲取的SKhost = ‘https：//aip。baidubce。com/oauth/2。0/token？grant_type=client_credentials&client_id=【官網獲取的AK】&client_secret=【官網獲取的SK】’response = requests。get（host）if response： print（response。json（）［‘access_token’］

這裡的client_id 為官網獲取的AK， client_secret 為官網獲取的SK，是上面申請好應用即可獲取

3。查驗