PYTHON如何调取OCR识别模块识别发票并输出到EXCLE_框架

import qqai

from os import path

from win32comclient import Dispatch

import os

from datetime import datetime

def file_path():

global path_this_file

path_this_file = pathabspath('') + "\\"

global path_excel

path_excel = path_this_file + '信息导出xlsx'

global path_pic_file

path_pic_file = path_this_file + '照片'

def get_pic_name():

pic_list = []

for pic in oslistdir(path_pic_file):

pic_path = path_pic_file + '\\' + pic

pic_listappend(pic_path)

return pic_list

def HandwritingOCRImage(filename):

robot = qqaivisionocrHandwritingOCR(app_id, app_key)

useless_list = ['登记表']

value_list = []

with open(filename, 'rb') as image_file:

result = robotrun(image_file)

item_list = result['data']['item_list']

for value in item_list:

words= value['itemstring']

if words in useless_list:

continue

else:

value_listappend(words)

return value_list

def get_useful_list(value_list):

key_list = ['姓名', '性别', '出生日期', '国家/地区', '民族', '职业', '手机号码', '固定电话', '证件类型', '证件有效期限', '证件号码', '通讯地址', '邮编']

useful_list = []

for words in value_list:

if words in key_list:

key_index = value_listindex(words)

next_index = key_index + 1

if value_list[next_index] in key_list:

useful_listappend('')

else:

if words == '证件号码':

ID_NUM = "'" + str(value_list[next_index]) #这边是为了避免科学计数法的问题

useful_listappend(ID_NUM)

else:

useful_listappend(value_list[next_index])

else:

continue

return useful_list

def put_into_excel(useful_list):

xl = Dispatch("ExcelApplication")

xlVisible = False # True是显示， False是隐藏

xlDisplayAlerts = 0

excel_input = xlWorkbooksOpen(path_excel)

sheet = excel_inputSheets('Sheet1')

max_row = sheetUsedRangeRowsCount

values = len(useful_list)

for i in range(values):

sheetCells(max_row + 1, i + 1)Value = str(useful_list[i])

excel_inputSave()

excel_inputClose()

xlquit()

starttime = datetimenow()

"""腾讯AI开放平台识别"""

app_id = '2110179251'

app_key = ''

"""app_id , app_key 可以自己去腾讯AI开放平台注册，是免费的"""

file_path()

pic_list = get_pic_name()

for filename in pic_list:

value_list =HandwritingOCRImage(filename)

useful_list = get_useful_list(value_list)

put_into_excel(useful_list)

endtime = datetimenow()

total_time = (endtime - starttime)seconds

print(">>>成功录入信息{}条，总共耗时{}秒！"format(len(pic_list),total_time))

首先，我们真的要感谢科技，科技让我们搜一切可以搜的东西。印象笔记可以提取到照片中到文字，真到好厉害。记得之前有一次去微软参观，给我们演示了搜索功能，我当时也是震惊到，例如，当时是搜一段视频。你输入关键词“女孩”，它可以把视频中文字有“女孩”、语音中“女孩”，有“女孩”的画面，都会给你标出来。而且都是用云端来计算。科技改变世界。哈哈。下面我们就讲讲印象笔记的OCR扫描。

快捷清晰扫描所有纸张，无需动手即可将名片、文件、书刊等一切纸张扫面保存，更可智能对纸张文字进行OCR识别：边拍边识别并提取中的文字存入笔记，或是对已有进行批量识别保存都能轻松搞定。

打开印象笔记，选择中间“+”，选择“OCR”即可。

OCR-选择“相册”。

扫描名片，直接保持Linkedin中。

总结：OCR功能就是减少了文字的录入及提供搜索的功能。以及提取名片上的文字自动保持。

欢迎关注：

微软TO DO使用方法（7篇文章）

时间管理|清单软件 to do 微软 1-故事

时间管理|清单软件 to do 微软 2-注册

时间管理|清单软件 to do 微软 3- *** 作介绍

时间管理|清单软件 to do 微软 4-按键心法

时间管理|清单软件 to do 微软 5-按键心法II

时间管理|清单软件 to do 微软 6-好玩的功能

时间管理|清单软件 to do 微软 7-扩展

印象笔记学习（8篇文章+持续更新）

笔记类app-印象笔记1-功能介绍

笔记类app-印象笔记2-同步功能

笔记类app-印象笔记3-剪藏功能

关于印象笔记如何搭建整个框架？

笔记类app-印象笔记4-分享协作功能

笔记类app-印象笔记5-搜索功能

笔记类app-印象笔记-用笔记的巧妙应用

笔记类app-印象笔记6-模板功能

笔记类app-印象笔记7-清单功能

Microsoft Office 2010 中已经删除了 Microsoft Office Document Imaging (MODI) 了。

如果你想在Microsoft Office 2010 中使用 Microsoft Office Document Imaging，微软提供了一些解决方案，你可以参见参考资料中的微软知识库链接

方法如下：

WIN7打开我的电脑—–windows—–fonts—-粘贴—-重启。

WIN10字体右键安装即可。

重新打开开票软件就可以正常预览和打印！

方法

第一步：将打印机连接至主机，打开打印机电源，通过主机的“控制面板”进入到“打印机和传真”文件夹，在空白处单击鼠标右键，选择“添加打印机”命令，打开添加打印机向导窗口。选择“连接到此计算机的本地打印机”，并勾选“自动检测并安装即插即用的打印机”复选框。

第二步：此时主机将会进行新打印机的检测，很快便会发现已经连接好的打印机，根据提示将打印机附带的驱动程序光盘放入光驱中，安装好打印机的驱动程序后，在“打印机和传真”文件夹内便会出现该打印机的图标了。

第三步：在新安装的打印机图标上单击鼠标右键，选择“共享”命令，打开打印机的属性对话框，切换至“共享”选项卡，选择“共享这台打印机”，并在“共享名”输入框中填入需要共享的名称，例如CompaqIJ，单击“确定”按钮即可完成共享的设定。

Enolsoft PDF Converter with OCR Mac是一款专为Mac用户所设计的PDF格式转换及OCR识别软件，PDF Converter with OCR mac能够为您批量添加PDF文件，并将其转换为各种常见格式，并且不会有任何质量的损坏哦！

PDF Converter with OCR Mac特别版安装教程

下载完成后双击安装器点击继续，继续默认安装。

PDF Converter with OCR mac软件介绍

带有OCR for Mac的Enolsoft PDF Converter可以帮助您轻松地将原生PDF和扫描PDF转换为Word，Excel，PPT，Keynote，Pages，HTML，EPUB，Text，Rtfd，Images等。无论您想分析数据，还是将工作报告给你的老板，或与你的同事开会，它可以成为你的好伙伴。

以下几个解决方法，供你参考：

1在电脑控制面板-添加和删除程序，office软件包（或单独的word），更改，看看word里有无光学字符识别OCR组件，如果有，添加进去。如果没有，说明你的office是精简版本。安装office的完整版本，就会有OCR组件。

2在网上单独下载安装Microsot office document imaging writer。这个方法不推荐，因为由于版本的关系很容易与你的office兼容出现问题。

3下载安装独立的专门OCR软件，完全可以进行OCR识别。OCR软件很多，推荐你使用汉王pdf OCR 8版本。如下，

1 怎样利用扫描仪,把书本上的文字转换成WORD文件

方法一、最简单的方法是选择一键OK的机器，直接选择带有这个快捷按键功能的机器，按一下即可转换到Word或者是Excel格式。

还有一种方法是选择汉王的软件有个文本王的版本，直接扫描进去后，选择插入WORD的图标，即可转换，明基的扫描仪最低端的机器都有配的。方法二、首先将扫描仪安装好，接下来启动“Microsoft Office/ Microsoft Office 工具/Microsoft Office Document Scanning”即可开始扫描。

提示：Office 2003默认安装中并没有这个组件，如果你第一次使用这个功能可能会要求你插入Office2003的光盘进行安装。由于是文字扫描通常我们选择“黑白模式”，点击扫描，开始调用扫描仪自带的驱动进行扫描。

这里也要设置为“黑白模式”，建议分辨率为300dpi。扫描完毕后回将自动调入Office 2003种另外一个组件“Microsoft Office Document Imaging”中。

点击工具栏中的“使用OCR识别文字”按键，就开始对刚才扫描的文件进行识别了。按下“将文本发送到Word”按键即可将识别出来的文字转换到Word中去了。

如果你要获取部分文字，只需要用鼠标框选所需文字，然后点击鼠标右键选择“将文本发送到Word”就将选中区域的文字发送到Word中就行了。建议安装Office的时候选择将其附加程序完全安装然后在XP系统下。

扫描仪连接后，双击扫描仪，会出来一个 Microsoft Office Documents Scanning 的提示选用它来扫描。待扫描完成后上方有个带word图标的按钮按一下。

就会发现你扫描的文字已经存在于word中了只不过他存出来是web格式的doc文档。再做简单的转化就行了这个微软的OCR识别效果相当好，而且对于像书一样的一次可以扫描左右两页并且它可以自动将这两页按页码顺序排布下来。

以上是在windows XP + Office 2003下运行通过方法三、用扫描仪扫描，并用OCR软件进行识别，输出成文本，粘贴到WORD就行了。OCR软件推荐尚书OCR、汉王OCR。

用扫描议扫为Adobe Acrobat Reader 简体中文版的文件，再用快照，粘出来就行了，文字还是文字，还是，也可以直接转换用扫描仪扫描，并用OCR软件进行识别，输出成文本，粘贴到WORD就行了。举个例子：以中晶扫描仪的识别软件-尚书OCR为例，将书本放到扫描仪的平板时，最好将书本夹角有文字处尽量贴向平板！以保证文字扫描时不会扭曲，可保证识别时的正确率！将文字区域扫描到尚书OCR软件以后，先确认左上角“文件”菜单下的系统配置是识别简体中文或者纯英文（注：繁体识别率会有所下降！）。

然后做下倾斜校正（在“编辑”菜单下），如果文字区域明显倾斜，有可能识别出来是乱码或错误信息！校正完成后，版面分析，工具栏上有图标，然后识别！最后点“输出”菜单输出到指定格式，选择“RTF”格式，这个保存出来就是Word文档了！方法四、安装OCR软件，在使用OCR软件识别前，可用用处理软件（例如：photoshop）处理一下，转换成黑白模式，并适当加大对比度，可以大大提高识别率。文字提取（OCR）图解教程或Microsoft Office Document Imaging(office2003中内含) OFFICE中有一个组件document image，功能一样的强大。

不仅扫描的文字，连数码相机拍的墙上的宣传告示上的字都能提取出来。第一步打开带有文字的或电子书籍等，找到你希望提取的页面，按下键盘上的"ALT+打印屏幕键（PrintScreen）"进行屏幕取图，或者用其他抓图软件。

保存成tif格式。第二步我们需要安装“Microsoft Office Document Imaging”的组件，点“开始→程序→Microsoft Office→Microsoft Office 工具 ”，在 “Microsoft Office 工具” 里点“ Microsoft Office Document Imaging” 然后打开，找到OCR识别工具（像眼睛），点击此工具，开始安装，这个时候就需要你把光盘（或虚拟光驱）的office安装文件。

第三步用 Microsoft Office Document Imaging打开，用OCR工具（图中红色筐圈部分）选取你要提取的文字，然后点右键，选择-复制到word或者记事本。或用摄像头作扫描仪输入文字：我们平时使用的摄像头大家好象只用作聊天了吧其实它的作用也是很广泛的好多的朋友在写论文，资料的时候总是要用一些书上的资料总是到打印社进行扫描打印，其实我们的摄像头就可以解决这个问题一，安装Microsoft office 2003 （仅以office 2003为例。

其它版本office均可）二，打开“开始→Microsoft office→Microsoft office工具→Microsoft office Document scannging”，如果该项未安装，系统则会自动安装。此时会d出扫描新文件对话框，单击[扫描仪]按钮，在d出的对话框中选中摄像头，并选中“在扫描前显示扫描仪驱动”复选框，再选中“黑白模式”，并选中“换页提示”和“扫描后查看文件”两项。

三，再单击[扫描]按钮即可进行扫描，在扫描过程中会d出一个对话框，选中[格式]按钮，在“输出大小”中选择600480分辨率，然后将文稿放平，反复调节摄像头的焦距和位置，使画面达到最佳效果，点击[捕获]按钮即可得到画面，该会显示在“。

以上就是关于PYTHON如何调取OCR识别模块识别发票并输出到EXCLE全部的内容，包括:PYTHON如何调取OCR识别模块识别发票并输出到EXCLE、笔记类app-印象笔记8-OCR扫描、office 2010中怎么引用那个OCR组件，组件名称是什么，还需要安装组件吗，我现在在ONENOTE中可以进行识别了等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9668594.html

PYTHON如何调取OCR识别模块识别发票并输出到EXCLE

发表评论

评论列表（0条）