Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别

Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别,第1张

概述第一步。首先下载,大神者也的倒立文字验证码识别程序 下载地址:https://github.com/muchrooms/... 注意:此程序依赖以下模块包   Keras==2.0.1   Pillow==3.4.2   jupyter==1.0.0   matplotlib==1.5.3   numpy==1.12.1   scikit-learn==0.18.1   tensorflow==1 第一步。首先下载,大神者也的倒立文字验证码识别程序

下载地址:https://github.com/muchrooms/...

注意:此程序依赖以下模块包

  Keras==2.0.1
  Pillow==3.4.2
  jupyter==1.0.0
  matplotlib==1.5.3
  numpy==1.12.1
  scikit-learn==0.18.1
  tensorflow==1.0.1
  h5py==2.6.0

numpy-1.13.1+mkl

我们用豆瓣园来加速安以上依赖装如:

pip install -i https://pypi.douban.com/simple h5py==2.6.0

如果是win系统,可能存在安装失败的可能,如果那个包安装失败,就到 http://www.lfd.uci.edu/~gohlk... 找到win对应的版本下载到本地安装,如:

pip install h5py-2.7.0-cp35-cp35m-win_amd64.whl

第二步,将者也的,验证码识别程序的zheye文件夹放到工程目录里

如果你依然在编程的世界里迷茫,可以加入我们的Python学习扣qun:784758214,看看前辈们是如何学习的。交流经验。从基础的python脚本到web开发、爬虫、django、数据挖掘等,零基础到项目实战的资料都有整理。送给每一位python的小伙伴!分享一些学习的方法和需要注意的小细节,点击加入我们的 python学习者聚集地

第三步,爬虫实现

start_requests()方法,起始url函数,会替换start_urls

Request()方法,get方式请求网页
  url=字符串类型url
  headers=字典类型浏览器代理
  Meta=字典类型的数据,会传递给回调函数
  callback=回调函数名称

scrapy.FormRequest()post方式提交数据
  url=字符串类型url
  headers=字典类型浏览器代理
  Meta=字典类型的数据,会传递给回调函数
  callback=回调函数名称
  formdata=字典类型,要提交的数据字段

response.headers.getList(‘Set-cookie‘) 获取响应cookies
response.request.headers.getList(‘cookie‘) 获取请求cookies

# -*- Coding: utf-8 -*-import scrapyfrom scrapy.http import Request,FormRequestimport reclass PachSpIDer(scrapy.SpIDer):                            #定义爬虫类,必须继承scrapy.SpIDer    name = ‘pach‘                                           #设置爬虫名称    allowed_domains = [‘zhihu.com‘]                    #爬取域名    # start_urls = [‘‘]                                     #爬取网址,只适于不需要登录的请求,因为没法设置cookie等信息    header = {‘User-Agent‘:‘Mozilla/5.0 (windows NT 10.0; WOW64; rv:54.0) Gecko/20100101 firefox/54.0‘}  #设置浏览器用户代理    def start_requests(self):    #起始url函数,会替换start_urls        """第一次请求一下登录页面,设置开启cookie使其得到cookie,设置回调函数"""        return [Request(            url=‘https://www.zhihu.com/#signin‘,headers=self.header,Meta={‘cookiejar‘:1},#开启cookies记录,将cookies传给回调函数            callback=self.parse        )]    def parse(self,response):        # 响应cookies        cookie1 = response.headers.getList(‘Set-cookie‘)                            #查看一下响应cookie,也就是第一次访问注册页面时后台写入浏览器的cookie        print(‘后台首次写入的响应cookies:‘,cookie1)        #获取xsrf密串        xsrf = response.xpath(‘//input[@name="_xsrf"]/@value‘).extract()[0]        print(‘获取xsrf密串:‘ + xsrf)        #获取验证码                 import time                 t = str(int(time.time()*1000))                 captcha_url = ‘https://www.zhihu.com/captcha.gif?r={0}&type=login&lang=cn‘.format(t)   #构造验证码请求地址        yIEld Request(url=captcha_url,#请求验证码图片                      headers=self.header,Meta={‘cookiejar‘:response.Meta[‘cookiejar‘],‘xsrf‘:xsrf},#将cookies和xsrf密串传给回调函数                      callback=self.post_tj                      )    def post_tj(self,response):        with open(‘yzhm.jpg‘,‘wb‘) as f:        #打开图片句柄            f.write(response.body)              #将验证码图片写入本地            f.close()                           #关闭句柄#---------------------------者也验证码识别-----------------------        from zheye import zheye                 #导入者也倒立文字验证码识别模块对象        z = zheye()                             #实例化对象        positions = z.Recognize(‘yzhm.jpg‘)     #将验证码本地路径传入Recognize方法识别,返回倒立图片的坐标        # print(positions)                      #默认倒立文字的y坐标在前,x坐标在后        #知乎网要求的倒立文字坐标是x轴在前,y轴在后,所以我们需要定义一个列表来改变默认的,倒立文字坐标位置        pos_arr = []        if len(positions) == 2:            if positions[0][1] > positions[1][1]:                      #判断列表里第一个元祖里的第二个元素如果大于,第二个元祖里的第二个元素                pos_arr.append([positions[1][1],positions[1][0]])                pos_arr.append([positions[0][1],positions[0][0]])            else:                pos_arr.append([positions[0][1],positions[0][0]])                pos_arr.append([positions[1][1],positions[1][0]])        else:            pos_arr.append([positions[0][1],positions[0][0]])        print(‘处理后的验证码坐标‘,pos_arr)# -------------者也验证码识别结束--------        if len(pos_arr) == 2:            data = {                                                                    # 设置用户登录信息,对应抓包得到字段                ‘_xsrf‘: response.Meta[‘xsrf‘],‘password‘: ‘279819‘,‘captcha‘: ‘{"img_size":[200,44],"input_points":[[%.2f,%f],[%.2f,%f]]}‘ %(                    pos_arr[0][0] / 2,pos_arr[0][1] / 2,pos_arr[1][0] / 2,pos_arr[1][1] / 2),#因为验证码识别默认是400X88的尺寸所以要除以2                ‘captcha_type‘: ‘cn‘,‘phone_num‘: ‘15284816568‘            }        else:            data = {                                                                    # 设置用户登录信息,对应抓包得到字段                ‘_xsrf‘: response.Meta[‘xsrf‘],pos_arr[0][1] / 2),‘captcha_type‘: ‘cn‘,‘phone_num‘: ‘15284816568‘            }        print(‘登录提交数据‘,data)        print(‘登录中....!‘)        """第二次用表单post请求,携带cookie、浏览器代理、用户登录信息,进行登录给cookie授权"""        return [scrapy.FormRequest(            url=‘https://www.zhihu.com/login/phone_num‘,#真实post地址            Meta={‘cookiejar‘:response.Meta[‘cookiejar‘]},#接收第传过来的cookies            headers=self.header,formdata=data,callback=self.next        )]    def next(self,response):        # 请求cookie        cookie2 = response.request.headers.getList(‘cookie‘)        print(‘登录时携带请求的cookies:‘,cookie2)        jIEg = response.body.decode("utf-8")   #登录后可以查看一下登录响应信息        print(‘登录响应结果:‘,jIEg)        print(‘正在请需要登录才可以访问的页面....!‘)        """登录后请求需要登录才能查看的页面,如个人中心,携带授权后的cookie请求"""        yIEld Request(            url=‘https://www.zhihu.com/people/lin-gui-xiu-41/activitIEs‘,Meta={‘cookiejar‘:True},callback=self.next2        )    def next2(self,response):        # 请求cookie        cookie3 = response.request.headers.getList(‘cookie‘)        print(‘查看需要登录才可以访问的页面携带cookies:‘,cookie3)        leir = response.xpath(‘/HTML/head/Title/text()‘).extract()  #得到个人中心页面        print(‘最终内容‘,leir)        # print(response.body.decode("utf-8"))

总结

以上是内存溢出为你收集整理的Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别全部内容,希望文章能够帮你解决Python快速开发分布式搜索引擎Scrapy精讲—scrapy模拟登陆和知乎倒立文字验证码识别所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1191540.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-03
下一篇 2022-06-03

发表评论

登录后才能评论

评论列表(0条)

保存