链接:https://zhuanlan.zhihu.com/p/30212013
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
首先我们读取图库中所有图片的名称,保存在fileNames中。然后读取Data.csv中所有数据。
提取出Data.csv的最后一列(一共10002列,第10001列说明该数字是什么数字,第10002列是图片的名称),也就是数据库中存储的所有图片的名称,存储在item中。
将新加入图库的图片名称保存在newFileNames中。如果Data.csv为空,那么就直接令newFileNames
=
fileNames。也就是说如果数据库中什么也没有,那么图库中所有图片都是新加入的。
如果Data.csv不为空,那么就将item里面的内容与fileNames的内容比较,如果出现了fileNames里面有的名称item中没有,那么就将这些名称放进newFileNames中。如果item里有的名称fileNames中没有,那就不管。
也就是说,我令我们的数据库只进不出。
现在我们得到了新加入图库的图片的名称newFileNames。
将newFileNames中的名称的图片带入上一文中函数GetTrainPicture进行处理,得到了一个nx10001的矩阵,每一行代表一个新加入的图片,前10000列是图片向量,第10001列是该图片的数字,保存在pic中。
先看看你的Visual Studio 14 运行库(64位的系统X86/X64的最好都装上)是不是没有装,如果没有安装的话先装上;如果已经安装了的话,修复一下看看。如果还不行的话那就意味着这些库暂时还不支持Python 3.5.2,还得耐心等待或者使用其他能实现所需要功能的库。你可以试试下载EXE文件自己安装,或者下载源码自己编译。我在我的电脑(XP/Python3.4.4)上用pip安装试了一下,tesseract-ocr安装不上,其他两个没有问题,估计暂时还不支持Python3.X吧。
tesseract-ocr的EXE安装包下载地址:https://sourceforge.net/projects/tesseract-ocr-alt/files/?source=navbar
我没有尝试使用EXE安装包安装楼主可以自己尝试一下。
希望对楼主有帮助。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)