如果当前目录在libsvm下,那么就会调用libsvm的svmtrain
自带的svmtrain的调用格式和libsvm的svmtrain的格式是不一样的,自带的格式是SVMStruct = svmtrain(‘训练矩阵’,‘训练标签’ 'Showplot',ShowplotValue, )
而libsvm的格式需要把标签写在第一个参数,若想使用自带的,那么把libsvm的路径从搜索路径中删除
即set path然后remove,并且把当前目录切换到toolbox下。
主体就是用matlab自带的plotroc实现的。就是前面加进了一些预处理。
可以绘制任何类别数目的数据的ROC,数据的类别标签可以任意。(不一定非得是 +1 和 -1 )
lssvm中有可以绘制ROC曲线的函数,但类别的标签只能是 - 1 和 +1
程序很简单。但前面的预处理挺有意思。以及后面与plotroc结合的地方我煞费了一点心思(最后是用eval实现的)。
一.下载libsvm
>
你这个配置出现中文路径不推荐,告诉你一个最有效的方法,在dos里面直通通过:
set path=C:\Program Files\Java\jdk180_05\bin
set classpath=C:\Program Files\Java\jdk180_05\lib
这样管用如果不行;set classpath=C:\Program Files\Java\jdk180_05\lib;C:\Program Files\Java\jdk180_05\lib\toolsjar;C:\Program Files\Java\jdk180_05\lib\dtjar
1 摘要
验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越来越严峻。本文介绍了一套字符验证码识别的完整流程,对于验证码安全和OCR识别技术都有一定的借鉴意义。
然后经过了一年的时间,笔者又研究和get到了一种更强大的基于CNN卷积神经网络的直接端到端的验证识别技术(文章不是我的,然后我把源码整理了下,介绍和源码在这里面):
基于python语言的tensorflow的‘端到端’的字符型验证码识别源码整理(github源码分享)
2 关键词
关键词:安全,字符,验证码识别,OCR,Python,SVM,PIL
3 免责声明
本文研究所用素材来自于某旧Web框架的网站 完全对外公开 的公共资源。
本文只做了该网站对外公开的公共资源进行了爬取, 并未越权 做任何多余 *** 作。
本文在书写相关报告的时候已经 隐去 漏洞网站的身份信息。
本文作者 已经通知 网站相关人员此系统漏洞,并积极向新系统转移。
本报告的主要目的也仅是用于 OCR交流学习 和引起大家对 验证安全的警觉 。
4 引言
关于验证码的非技术部分的介绍,可以参考以前写的一篇科普类的文章:
互联网安全防火墙(1)--网络验证码的科普
里面对验证码的种类,使用场景,作用,主要的识别技术等等进行了讲解,然而并没有涉及到任何技术内容。本章内容则作为它的 技术补充 来给出相应的识别的解决方案,让读者对验证码的功能及安全性问题有更深刻的认识。
5 基本工具
要达到本文的目的,只需要简单的编程知识即可,因为现在的机器学习领域的蓬勃发展,已经有很多封装好的开源解决方案来进行机器学习。普通程序员已经不需要了解复杂的数学原理,即可以实现对这些工具的应用了。
主要开发环境:
python35
python SDK版本
PIL
处理库
libsvm
开源的svm机器学习库
关于环境的安装,不是本文的重点,故略去。
6 基本流程
一般情况下,对于字符型验证码的识别流程如下:
准备原始素材
预处理
字符切割
尺寸归一化
字符标记
字符特征提取
生成特征和标记对应的训练数据集
训练特征标记数据生成识别模型
使用识别模型预测新的未知集
达到根据“”就能返回识别正确的字符集的目标
7 素材准备
71 素材选择
由于本文是以初级的学习研究目的为主,要求 “有代表性,但又不会太难” ,所以就直接在网上找个比较有代表性的简单的字符型验证码(感觉像在找漏洞一样)。
最后在一个比较旧的网站(估计是几十年前的网站框架)找到了这个验证码。
原始图:
放大清晰图:
此能满足要求,仔细观察其具有如下特点。
有利识别的特点 :
由纯阿拉伯数字组成
字数为4位
字符排列有规律
字体是用的统一字体
以上就是本文所说的此验证码简单的重要原因,后续代码实现中会用到
不利识别的特点 :
背景有干扰噪点
这虽然是不利特点,但是这个干扰门槛太低,只需要简单的方法就可以除去
72 素材获取
由于在做训练的时候,需要大量的素材,所以不可能用手工的方式一张张在浏览器中保存,故建议写个自动化下载的程序。
主要步骤如下:
通过浏览器的抓包功能获取随机验证码生成接口
批量请求接口以获取
将保存到本地磁盘目录中
这些都是一些IT基本技能,本文就不再详细展开了。
关于网络请求和文件保存的代码,如下:
def downloads_pic(kwargs):pic_name = kwargsget('pic_name', None)
url = 'httand_code_captcha/'
res = requestsget(url, stream=True)
with open(pic_path + pic_name+'bmp', 'wb') as f: for chunk in resiter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks fwrite(chunk)
fflush()
fclose()
循环执行N次,即可保存N张验证素材了。
下面是收集的几十张素材库保存到本地文件的效果图:
8 预处理
虽然目前的机器学习算法已经相当先进了,但是为了减少后面训练时的复杂度,同时增加识别率,很有必要对进行预处理,使其对机器识别更友好。
针对以上原始素材的处理步骤如下:
读取原始素材
将彩色二值化为黑白
去除背景噪点
81 二值化
主要步骤如下:
将RGB彩图转为灰度图
将灰度图按照设定阈值转化为二值图
image = Imageopen(img_path)imgry = imageconvert('L') # 转化为灰度图table = get_bin_table()
out = imgrypoint(table, '1')
上面引用到的二值函数的定义如下:
1234567891011121314 def get_bin_table(threshold=140): """ 获取灰度转二值的映射table :param threshold: :return: """ table = [] for i in range(256): if i < threshold: tableappend(0) else: tableappend(1) return table由PIL转化后变成二值:0表示黑色,1表示白色。二值化后带噪点的 6937 的像素点输出后如下图:
11110001111110001111111000011111000000111110111011110111011111011110111100110111
1001110011110111101011011010101101110111
1101111111110110101111110101111111101111
1101000111110111001111110011111111101111
1100111011111000001111111001011111011111
1101110001111111101011010110111111011111
1101111011111111101111011110111111011111
1101111011110111001111011110111111011100
1110000111111000011101100001110111011111
如果你是近视眼,然后离屏幕远一点,可以隐约看到 6937 的骨架了。
82 去除噪点
在转化为二值后,就需要清除噪点。本文选择的素材比较简单,大部分噪点也是最简单的那种 孤立点,所以可以通过检测这些孤立点就能移除大量的噪点。
关于如何去除更复杂的噪点甚至干扰线和色块,有比较成熟的算法: 洪水填充法 Flood Fill ,后面有兴趣的时间可以继续研究一下。
本文为了问题简单化,干脆就用一种简单的自己想的 简单办法 来解决掉这个问题:
对某个 黑点 周边的九宫格里面的黑色点计数
如果黑色点少于2个则证明此点为孤立点,然后得到所有的孤立点
对所有孤立点一次批量移除。
下面将详细介绍关于具体的算法原理。
将所有的像素点如下图分成三大类
顶点A
非顶点的边界点B
内部点C
种类点示意图如下:
其中:
A类点计算周边相邻的3个点(如上图红框所示)
B类点计算周边相邻的5个点(如上图红框所示)
C类点计算周边相邻的8个点(如上图红框所示)
当然,由于基准点在计算区域的方向不同,A类点和B类点还会有细分:
A类点继续细分为:左上,左下,右上,右下
B类点继续细分为:上,下,左,右
C类点不用细分
然后这些细分点将成为后续坐标获取的准则。
主要算法的python实现如下:
def sum_9_region(img, x, y): """9邻域框,以当前点为中心的田字框,黑点个数
:param x:
:param y:
:return: """
# todo 判断的长宽度下限
cur_pixel = imggetpixel((x, y)) # 当前像素点的值
width = imgwidth
height = imgheight if cur_pixel == 1: # 如果当前点为白色区域,则不统计邻域值
return 0 if y == 0: # 第一行
if x == 0: # 左上顶点,4邻域
# 中心点旁边3个点
sum = cur_pixel \ + imggetpixel((x, y + 1)) \ + imggetpixel((x + 1, y)) \ + imggetpixel((x + 1, y + 1)) return 4 - sum elif x == width - 1: # 右上顶点
sum = cur_pixel \ + imggetpixel((x, y + 1)) \ + imggetpixel((x - 1, y)) \ + imggetpixel((x - 1, y + 1)) return 4 - sum else: # 最上非顶点,6邻域
sum = imggetpixel((x - 1, y)) \ + imggetpixel((x - 1, y + 1)) \ + cur_pixel \ + imggetpixel((x, y + 1)) \ + imggetpixel((x + 1, y)) \ + imggetpixel((x + 1, y + 1)) return 6 - sum elif y == height - 1: # 最下面一行
if x == 0: # 左下顶点
# 中心点旁边3个点
sum = cur_pixel \ + imggetpixel((x + 1, y)) \ + imggetpixel((x + 1, y - 1)) \ + imggetpixel((x, y - 1)) return 4 - sum elif x == width - 1: # 右下顶点
sum = cur_pixel \ + imggetpixel((x, y - 1)) \ + imggetpixel((x - 1, y)) \ + imggetpixel((x - 1, y - 1)) return 4 - sum else: # 最下非顶点,6邻域
sum = cur_pixel \ + imggetpixel((x - 1, y)) \ + imggetpixel((x + 1, y)) \ + imggetpixel((x, y - 1)) \ + imggetpixel((x - 1, y - 1)) \ + imggetpixel((x + 1, y - 1)) return 6 - sum else: # y不在边界
if x == 0: # 左边非顶点
sum = imggetpixel((x, y - 1)) \ + cur_pixel \ + imggetpixel((x, y + 1)) \ + imggetpixel((x + 1, y - 1)) \ + imggetpixel((x + 1, y)) \ + imggetpixel((x + 1, y + 1)) return 6 - sum elif x == width - 1: # 右边非顶点
# print('%s,%s' % (x, y))
sum = imggetpixel((x, y - 1)) \ + cur_pixel \ + imggetpixel((x, y + 1)) \ + imggetpixel((x - 1, y - 1)) \ + imggetpixel((x - 1, y)) \ + imggetpixel((x - 1, y + 1)) return 6 - sum else: # 具备9领域条件的
sum = imggetpixel((x - 1, y - 1)) \ + imggetpixel((x - 1, y)) \ + imggetpixel((x - 1, y + 1)) \ + imggetpixel((x, y - 1)) \ + cur_pixel \ + imggetpixel((x, y + 1)) \ + imggetpixel((x + 1, y - 1)) \ + imggetpixel((x + 1, y)) \ + imggetpixel((x + 1, y + 1)) return 9 - sum
Tips:这个地方是相当考验人的细心和耐心程度了,这个地方的工作量还是蛮大的,花了半个晚上的时间才完成的。
计算好每个像素点的周边像素黑点(注意:PIL转化的黑点的值为0)个数后,只需要筛选出个数为 1或者2 的点的坐标即为 孤立点 。这个判断方法可能不太准确,但是基本上能够满足本文的需求了。
经过预处理后的如下所示:
对比文章开头的原始,那些 孤立点 都被移除掉,相对比较 干净 的验证码已经生成。
9 字符切割
由于字符型 验证码 本质就可以看着是由一系列的 单个字符 拼接而成,为了简化研究对象,我们也可以将这些分解到 原子级 ,即: 只包含单个字符的。
于是,我们的研究对象由 “N种字串的组合对象” 变成 “10种阿拉伯数字” 的处理,极大的简化和减少了处理对象。
91 分割算法
现实生活中的字符验证码的产生千奇百怪,有各种扭曲和变形。关于字符分割的算法,也没有很通用的方式。这个算法也是需要开发人员仔细研究所要识别的字符的特点来制定的。
当然,本文所选的研究对象尽量简化了这个步骤的难度,下文将慢慢进行介绍。
使用图像编辑软件(PhoneShop或者其它)打开验证码,放大到像素级别,观察其它一些参数特点:
可以得到如下参数:
整个尺寸是 4010
单个字符尺寸是 610
左右字符和左右边缘相距2个像素
字符上下紧挨边缘(即相距0个像素)
这样就可以很容易就定位到每个字符在整个中占据的像素区域,然后就可以进行分割了,具体代码如下:
def get_crop_imgs(img): """按照的特点,进行切割,这个要根据具体的验证码来进行工作 # 见原理图
:param img:
:return: """
child_img_list = [] for i in range(4):
x = 2 + i (6 + 4) # 见原理图
y = 0
child_img = imgcrop((x, y, x + 6, y + 10))
child_img_listappend(child_img) return child_img_list
然后就能得到被切割的 原子级 的元素了:
92 内容小结
基于本部分的内容的讨论,相信大家已经了解到了,如果验证码的干扰(扭曲,噪点,干扰色块,干扰线……)做得不够强的话,可以得到如下两个结论:
4位字符和40000位字符的验证码区别不大
纯字母
不区分大小写。分类数为26
区分大小写。分类数为52
纯数字。分类数为10
数字和区分大小写的字母组合。分类数为62
纯数字 和 数字及字母组合 的验证码区别不大
在没有形成 指数级或者几何级 的难度增加,而只是 线性有限级 增加计算量时,意义不太大。
10 尺寸归一
本文所选择的研究对象本身尺寸就是统一状态:610的规格,所以此部分不需要额外处理。但是一些进行了扭曲和缩放的验证码,则此部分也会是一个图像处理的难点。
11 模型训练步骤
在前面的环节,已经完成了对单个的处理和分割了。后面就开始进行 识别模型 的训练了。
整个训练过程如下:
大量完成预处理并切割到原子级的素材准备
对素材进行人为分类,即:打标签
定义单张的识别特征
使用SVM训练模型对打了标签的特征文件进行训练,得到模型文件
12 素材准备
本文在训练阶段重新下载了同一模式的4数字的验证总计:3000张。然后对这3000张进行处理和切割,得到12000张原子级。
在这12000张中删除一些会影响训练和识别的强干扰的干扰素材,切割后的效果图如下:
13 素材标记
由于本文使用的这种识别方法中,机器在最开始是不具备任何 数字的观念的。所以需要人为的对素材进行标识,告诉 机器什么样的的内容是 1……。
这个过程叫做 “标记”。
具体打标签的方法是:
为0~9每个数字建立一个目录,目录名称为相应数字(相当于标签)
人为判定 内容,并将拖到指定数字目录中
每个目录中存放100张左右的素材
一般情况下,标记的素材越多,那么训练出的模型的分辨能力和预测能力越强。例如本文中,标记素材为十多张的时候,对新的测试识别率基本为零,但是到达100张时,则可以达到近乎100%的识别率
14 特征选择
对于切割后的单个字符,像素级放大图如下:
从宏观上看,不同的数字的本质就是将黑色按照一定规则填充在相应的像素点上,所以这些特征都是最后围绕像素点进行。
字符 宽6个像素,高10个像素 ,理论上可以最简单粗暴地可以定义出60个特征:60个像素点上面的像素值。但是显然这样高维度必然会造成过大的计算量,可以适当的降维。
通过查阅相应的文献 [2],给出另外一种简单粗暴的特征定义:
每行上黑色像素的个数,可以得到10个特征
每列上黑色像素的个数,可以得到6个特征
最后得到16维的一组特征,实现代码如下:
def get_feature(img): """获取指定的特征值,
1 按照每排的像素点,高度为10,则有10个维度,然后为6列,总共16个维度
:param img_path:
:return:一个维度为10(高度)的列表 """
width, height = imgsize
pixel_cnt_list = []
height = 10 for y in range(height):
pix_cnt_x = 0 for x in range(width): if imggetpixel((x, y)) == 0: # 黑色点
pix_cnt_x += 1
pixel_cnt_listappend(pix_cnt_x) for x in range(width):
pix_cnt_y = 0 for y in range(height): if imggetpixel((x, y)) == 0: # 黑色点
pix_cnt_y += 1
pixel_cnt_listappend(pix_cnt_y) return pixel_cnt_list
然后就将素材特征化,按照 libSVM 指定的格式生成一组带特征值和标记值的向量文
3天
svm模型训练后的参数说明
现简单对屏幕回显信息进⾏说明:
#iter 为迭代次数,
nu 与前⾯的 *** 作参数 -n nu 相同,
obj 为 SVM ⽂件转换为的⼆次规划求解得到的最⼩值,
rho 为判决函数的常数项 b ,
nSV 为⽀持向量个数,
nBSV 为边界上的⽀持向量个数,
Total nSV 为⽀持向量总个数。
训练后的模型保存为⽂件 model ,⽤记事本打开其内容如下:
svm_type c_svc % 训练所采⽤的 svm 类型,此处为 C- SVC
kernel_type rbf % 训练采⽤的核函数类型,此处为 RBF 核
gamma 00769231 % 设置核函数中的 g ,默认值为 1/ k
nr_class 2 % 分类时的类别数,此处为两分类问题
total_sv 132 % 总共的⽀持向量个数
rho 0424462 % 决策函数中的常数项 b
label 1 -1% 类别标签
@微生豪资料集合分享
nr_sv 64 68 % 各类别标签对应的⽀持向量个数
SV % 以下为⽀持向量
1 1:0166667 2:1 3:-0333333 4:-043396
2 5:-0383562 6:-1 7:-1 8:0068702
3 9:-1 10:-0903226 11:-1 12:-1 13:1
05104832128985164 1:0125 2:1 3:0333333 4:-0320755 5:-0406393 6:1 7:1 8:00839695 9:1 10:-0806452 12:-0333333 13:05
1 1:0333333 2:1 3:-1 4:-0245283 5:-0506849 6:-1 7:-1 8:0129771 9:-1 10:-016129 12:0333333 13:-1
1 1:0208333 2:1 3:0333333 4:-0660377 5:-0525114 6:-1 7:1 8:0435115 9:-1 10:-0193548 12:-0333333 13:1
4 )采⽤交叉验证选择最佳参数 C 与 g
通常⽽⾔,⽐较重要的参数是 gamma (-g) 跟 cost (-c) 。⽽ cross validation (-v)
的参数常⽤ 5 。那么如何去选取最优的参数 c 和 g 呢? libsvm 的 python ⼦⽬录下⾯的 gridpy 可以帮助我们。 此时。其中安
装 python25 需要(⼀般默认安装到 c:/python25
下),将 gnuplot 解压。安装解压完毕后,进⼊ /libsvm/tools ⽬录下,⽤⽂本编辑器(记事
本, edit 都可以)修改 gridpy ⽂件,找到其中关于 gnuplot 路径的那项(其默认路径为
gnuplot_exe=r"c:/tmp/gnuplot/bin/pgnuplotexe" ),根据实际路径进⾏修改,并保存。然
后,将 gridpy 和 C:/Python25 ⽬录下的 pythonexe ⽂件拷贝到 libsvm/windows ⽬录下,键⼊以下命令: $ python gridpy
train1scale 执⾏后,即可得到最优参数 c 和 g 。
另外,⾄于下 libsvm 和 python 的接⼝的问题,在 libsvm286 中林⽼师已经帮助我们解决,在/libsvm/windows/python ⽬录下⾃带了 svmcpyd 这个⽂件,将该⽂件⽂件复制到
@微生豪资料集合分享
libsvm/python ⽬录下,同时,也将 pythonexe ⽂件复制到该⽬录下,键⼊以下命令以检验效
果(注意: Py ⽂件中关于 gnuplot 路径的那项路径⼀定要根据实际路径修改):
python svm_testpy
如果能看到程序执⾏结果,说明 libsvm 和 python 之间的接⼝已经配置完成,以后就可以直接在python 程序⾥调⽤ libsvm 的函数了!
5 ) 采⽤最佳参数 C 与 g 对整个训练集进⾏训练获取⽀持向量机模型
$ svmtrain –c x –g x –v x training_set_file [model_file]
x 为上述得到的最优参数 c 和 g 的值, v 的值⼀般取 5 。
6 )利⽤获取的模型进⾏测试与预测
使⽤ Svmtrain 训练好的模型进⾏测试。输⼊新的 X 值,给出 SVM 预测出的 Y 值
$ Svmpredict test_file model_file output_file
如: /svm-predict heart_scale heart_scalemodel heart_scaleout
Accuracy = 866667% (234/270) (classification)
这⾥显⽰的是结果
⼀个具体使⽤的例⼦。
以 libsvm 中的 heart_scale 作为训练数据和测试数据,同时已经将 python 安装⾄ c 盘,并将gridpy ⽂件中关于 gnuplot 路径的默认值修改为实际解压缩后的路径,将
heart_scale 、 gridpy 和 pythonexe 拷贝⾄ /libsvm/windows ⽂件夹下。
/svm-train heart_scale
optimization finished, #iter = 162
nu = 0431029
obj = -100877288, rho = 0424462
nSV = 132, nBSV = 107
Total nSV = 132
此时,已经得到 heart_scalemodel ,进⾏预测:
/svm-predict heart_scale heart_scalemodel heart_scaleout
Accuracy = 866667% (234/270) (classification)
正确率为 Accuracy = 866667% 。
/python gridpy heart_scale
得到最优参数 c=2048 , g=00001220703125
/svm-train -c 2048 -g 00001220703125 heart_scale 得到 model 后,由 /svm-predict heart_scale heart_scalemodel
heart_scaleout 得到的正确
率为 Accuracy = 851852%这块还有点迷惑?为什么正确率降低了?
当然也可以结合subsetpy 和 easypy 实现⾃动化过程。
@微生豪资料集合分享
如果要训练多次,可以写个批处理程序省好多事。
这⾥举个例⼦:
::@ echo off
cls
:: split the data and output the results
for /L %%i in (1,1,1000) do python subsetpy b59txt 546 b59(%%i)in8 b59(%%i)out2
for /L %%i in (1,1,1000) do python easypy b59(%%i)in8 b59(%%i)out2 >> result89txt
这段批处理代码⾸先调⽤subsetpy对⽂件b59txt执⾏1000次分层随机抽样(对数据进⾏80-20%分割)然后调⽤easypy 进⾏1000次参数寻优,把记录结果写到result89txt中
(包括1000次训练的分类准确率和参数对)。
还可以调⽤fselectpy进⾏特征选择,调⽤plotrocpy进⾏roc曲线绘制。
先写到这⾥吧,希望能和⼤家⼀起学习libsvm,进⼀步学好svm。
打开APP获取全文

已精选svm模型训练后会员文档796篇

MATLAB中SVM(支持向量机)的用法
31人阅读

OpencvSVM支持向量机参数与优化:
8人阅读

SVM参数设置及各种参数意义
32人阅读

sklearnsvm调参_SVM调优详解·7125messi的博客
以上就是关于matlab svmtrain如何使用的急求!!!全部的内容,包括:matlab svmtrain如何使用的急求!!!、libsvm怎么绘制roc曲线的、怎么确定matlab中安装了libsvm等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)