在写爬虫的时候难免会遇到验证码识别的问题,常见的验证码识别的流程为:
- 图像灰度化
- 图像去噪(如图像二值化)
- 切割
- 提取特征
- 训练
但这种方法要切割,而且破解验证码的重点和难点就在于 能否成功分割字符 。
本文要介绍的算法 不需要进行切割,也不需要进行机器训练 ,这种方法就是模板匹配:将待识别的文字切割成一个个模板,在待识别的图像中去匹配模板。
这篇文章将分为两个部分:
第一部分介绍模板匹配的基本概念以及模板匹配的一种实现算法:快速归一化互相关匹配算法;
第二部分是一个具体实例。
模板匹配是在图像中寻找目标的方法之一,目的就是在一幅图像中寻找和模板图像最相似的区域。
模板匹配的大致过程是这样的:通过在输入图像上滑动图像块对实际的图像块和输入图像进行匹配。
假设我们有一张100x100的输入图像,有一张10x10的模板图像,查找的过程是这样的:
从输入图像的左上角(0,0)开始,切割一块(0,0)至(10,10)的临时图像;
用某种方法得出临时图像与模板的相似度c,存放到相似度矩阵中(矩阵大小为91 x91);
切割输入图像从(0,1)至(10,11)的临时图像,对比,并记录到相似度矩阵;
重复上述步骤,直到输入图像的右下角。
最终得到一个相似度矩阵,找到矩阵中的最大或最小值,最大值(最小值)对应的临时图像即为与模板最相似的图像。
在步骤b中,求模板与图像的相似度有多种方法,如平均绝对差算法(MAD)、绝对误差和算法(SAD)、误差平方和算法(SSD)、归一化互相关算法(NCC),本文使用的是归一化互相关算法。
什么是归一化互相关?
从几何图形上来看,空间中的两个向量,同方向平行时,归一化互相关系数为1,表示两个向量最相似,反方向平行时归一化互相关系数为-1,垂直时为0,表示最不相似(用互相垂直的三个向量来代表整个空间也是这个道理,垂直的向量之间不包含对方的信息,相关系数为0),存在一定夹角时处于(-1,1),是不是跟余弦函数很像,cos(0)=1,cos(pi/2)=0,cos(pi)=-1。就是这个样子的,相关系数可以看作是两个向量之间夹角的cosine函数。
在数学中是这么计算cosine函数的,假设两个n维向量X,Y,对应的坐标分别为(x1,x2,…xn), (y1,y2,…yn) 则:
(如果想要了解更多,请参考文献2)
但这是一维的,在模板匹配中要再加一个维度 (具体算法请参考文献3) ,简要说一下文献3的内容:如果直接计算二维相似度的话计算复杂度会非常高,文献3利用快速傅里叶变换与积分图像快速算法来降低计算复杂度。
接下来让我们看一个具体的应用。
模板匹配识别验证码的具体步骤为:
1 找出中所有可能出现的字符,制作成模板集合
2 图像灰度化
3 去噪(二值化)
4 模板匹配
5 匹配结果优化
要识别的如下,以识别中的加字为例:
要从image中找到与模板最匹配的部分,Template图像是事先从image图像中截取的一部分。所用的为python模块skimage中的match_template方法,match_template方法使用的是快速归一化互相关算法 2 。
遍历模板图像集合,与图像匹配,如果dist大于阈值h,则认为此模板在图像中存在,否则不存在,继续匹配下一个模板,直到遍历完所有模板。
以模板‘加’为例,图像大小为40x260,模板大小27x27,result是一个大小为(14,234)的矩阵,即上文提到的相似度矩阵,矩阵中的数值属于[-1,1],找到result中最大值所处的对应位置即为与模板最匹配的图像位置:x=66,y=11,正好对应模板图像在image中所处的位置。 (更多内容请参阅参考文献4)
但这是比较好的情况,因为在匹配时遍历了所有的模板,而一张中出现的模板数量是有限的,比如数字’四’在中是没有的,这时就要根据某种规则去掉这些在中没有出现的模板:程序中使用dist变量来过滤匹配结果,如果dist变量大于某个值则认为此模板在图像中不存在。
最后的result_list中可能仍然存在一些中不存在的模板或者匹配不精确的模板,比如数字‘一’在模板中不存在,但仍然可以匹配到,因为数字‘二’中可以匹配到‘一’,需要进一步优化,优化方法有很多,比如当匹配到的两个模板距离过近时,选择较大的那个模板,其余方法留给读者自行考虑吧。
后续将会推出如何使用深度学习识别验证码,敬请期待~
参考文献:
>
方法2:自己用PIL写一个
方法3:让用户手工输入验证码。这个比较简单
方法4:让后台程序开一个后门,让你绕过验证码
方法5:直接使用cookie,这样就不用登陆了
任何一个平台都不会保证一定出票,只是vip出票的概率高而已。
提到抢票软件自动抢票行为,不少网络安全专家表示,自动抢票、自动识别在技术上不算高明,只是技术手段代替了人工手段,效率上提高了许多,但同时软件存在信息泄露、诈骗钱财的可能性。
针对大部分抢票软件都存在搭售行为,有业内人士表示,订票付款默认勾选加速包、意外险或者手续费等选项,增加用户购票成本,实际已涉嫌侵犯消费者自主选择权,“如果消费者不仔细看,就会莫名多花冤枉钱,就是趁火打劫。”
一方面软件有风险,一方面用户又觉得软件“方便管用”,其实在很大程度上是无奈的选择。
第三方软件优势
省去手动输入验证码的麻烦
记者测试后发现,通过加速包和会员充值,除了功能有所增加外,对抢票还是没什么帮助。那么抢票软件的优势到底在哪儿?记者发现,抢票软件还是有方便之处的。这5款抢票软件除了在登录12306账号时需手动输入验证码外,在抢票过程中完全不需手动输入验证码和手动刷新。
也就是说,用户只要选定列车时间、出发地、班次后,点击抢票,一直到列车出发前一天,用户可以不用管,系统会自动监控余票,并提交订单,用户只需完成付款即可,省去了手动输入验证码的麻烦。
抢票软件如何实现这一步的?网络安全专家胡瑶告诉记者,绕过安全验证码的方式有很多,业内已出现可识别验证码的程序,自动识别验证码,而普通用户 *** 作则需5~10秒,“软件每分钟能达到15次以上自动抢票,而且是24小时不间断,效率比人手动刷票高很多。”
机器人程序识别图像文字能力准确率比人类高这是事实,不过验证码不一定会没用,但是主要用验证码还是有一定的风险,如果你不喜欢用验证码,那建议可以用免密登录,这是一款不需要密码不需要验证码就能登录的产品。
以上就是关于验证码识别之模板匹配方法全部的内容,包括:验证码识别之模板匹配方法、Python 模拟登陆遇到验证码怎么办、智行抢票加速到vip了会失败吗等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)