python爬验证码

python爬验证码,第1张

1.找地址

首先,我们要找到这个网站生成验证码的地址,这个地址我们可以通过查看他的源代码来实现。

1.找地址

首先,我们要找到这个网站生成验证码的地址,这个地址我们可以通过查看他的源代码来实现。

就以某大学教务网为例,这个教务网的模板很多学校都在采用:

我就截取表单的验证码部分即可。

<td align="center" rowspan="3" >

<img  id="imgCode" src="../sys/ValidateCode.aspx" 

onclick="changeValidateCode(this)" alt="单击可更换图片!" 

style="CURSOR: pointer">

<br>看不清,则单击图片!                                 

</td>123456123456

这里就可以知道,地址就是../sys/ValidateCode.aspx

组合一下地址就是http://jwmis.lmu.cn/sys/ValidateCode.aspx

也就是我们等一下要用到的地址了。

我们可以查看一下那个网页。

2.处理图片

去查看了一下那个地址

果不其然,都是乱码,因为验证码分为两种。

1)直接处理成JPG/GIF/PNG或者其他格式,然后直接读取到一个图片地址。

2)接收用户触发,然后生成,再直接处理成图像,不读取到一个图片地址。

我们这里是第二种,我们要自己来读取他,到本地,再手动输入验证码。

# -*- coding: utf-8 -*-

import urllib2

#验证码的处理#

#验证码生成页面的地址#

im_url = 'http://jwmis.lmu.cn/sys/ValidateCode.aspx'

#读取验证码图片#

im_data = urllib2.urlopen(im_url).read()

#打开一个Code.PNG文件在D盘,没有的话自动生成#

f=open('d:\\Code.png','wb')

#写入图片内容#

f.write(im_data)

#关闭文件#

f.close()1234567891011121312345678910111213

这里包括两个部分:

1)打开那个生成验证码图片的页面,读取

2)将读取到的内容,保存成图片,下载到本地

我们这里的地址是可以随便写的,保存在你想保存的地方。

到这里我们就完成了验证码的一小部分。

by–LoDog

希望能帮到你!

最简单的是这个:

#!/usr/bin/python3.4

# -*- coding: utf-8 -*-

 

# 1、pip3 install pyocr

# 2、pip3 install pillow or easy_install Pillow

# 3、

安装tesseract-ocr:http://jaist.dl.sourceforge.net/project/tesseract-ocr-

alt/tesseract-ocr-setup-3.02.02.exe,安装在C:\Program Files\下

# 4、要求python默认安装在C盘

# http://www.cnblogs.com/TTyb/p/5996847.html

# 代码:

# !/usr/bin/python3.4

# -*- coding: utf-8 -*-

 

import pytesseract

from PIL import Image

 

image = Image.open('../jpg/code.png')

code = pytesseract.image_to_string(image)

print(code)


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/bake/11904982.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-19
下一篇 2023-05-19

发表评论

登录后才能评论

评论列表(0条)

保存