验证码不好处理吗?很难识别?那我教你绕过它好了啊!爬虫必会!

验证码不好处理吗?很难识别?那我教你绕过它好了啊!爬虫必会!,第1张

概述    工具准备 Fiddler.exeIDEA/Eclipseselenium的cookie *** 作如何 *** 作?看完之后,记得收藏+转发。

工具准备

fiddler.exe IDEA/Eclipse selenium的cookie *** 作

如何 *** 作?

看完之后,记得收藏+转发。

---正经分割线---

进群:548377875  小编即可获取哦!还是非常实用的呢!

一、使用fiddler抓包

1.一般登陆网站成功后,会生成一个已登录状态的cookie,那么只需要直接把这个值拿到,用selenium进行addcookie *** 作即可。

2.可以先手动登录一次,然后抓取这个cookie,这里我们就需要用抓包工具fiddler了

3.先打开博客园登录界面,手动输入账号和密码(不要点登录按钮)

4.打开fiddler抓包工具,此时再点博客园登录按钮

5.登录成功后,再查看cookie变化,发现多了两组参数,多的这两组参数就是我们想要的,copy出来,一会有用

二、cookie *** 作

driver.add_cookie()

1.add_cookie(cookie_dict)方法里面参数是cookie_dict,说明里面参数是字典类型。

2.源码官方文档介绍:

add_cookie(self,cookie_dict)

Adds a cookie to your current session.

Args:

- cookie_dict: A dictionary object,with required keys - "name" and "value";

optional keys - "path","domain","secure","expiry"

Usage:

driver.add_cookie({'name' : 'foo','value' : 'bar'})

driver.add_cookie({'name' : 'foo','value' : 'bar','path' : '/'})

driver.add_cookie({'name' : 'foo','path' : '/','secure':True})

3.从官方的文档里面可以看出,添加cookie时候传入字典类型就可以了,等号左边的是name,等号左边的是value。

4.把前面抓到的两组数据(参数不仅仅只有name和value),写成字典类型:

{'name':'.CNBlogscookie','value':'2C3AE01E461B2D2F1572D02CB936D77A053089AA2xxxx...'}

{'name':'.Cnblogs.AspNetCore.cookies','value':'CfDJ8Mmb5OBERd5FqtiQlKZZIG4HKz_Zxxx...'}

三、参考代码

# Coding:utf-8from selenium import webdriverimport timedriver = webdriver.Chrome()driver.maximize_window()driver.get("https://www.cnblogs.com/longronglang/")# # 添加cookiec1 = {u'domain': u'.cnblogs.com',u'name': u'.CNBlogscookie',u'value': u'xxxx',u'expiry': 15412950521,u'path': u'/',u'httpOnly': True,u'secure': False}c2 = {u'domain': u'.cnblogs.com',u'name': u'.Cnblogs.AspNetCore.cookies',u'secure': False}# 添加2个值driver.add_cookie(c1) driver.add_cookie(c2)time.sleep(3)# 刷新下页面就见证奇迹了driver.refresh()# 再来个登录后 *** 作driver.find_element_by_link_text(u"博客园").click()driver.find_element_by_link_text("Refain").click()

效果图

有几点需要注意:

1.登录时候要勾选下次自动登录按钮。

2.addcookie()只添加name和value,对于博客园的登录是不成功。

3.本方法并不适合所有的网站,一般像博客园这种记住登录状态的才会适合。

总结

以上是内存溢出为你收集整理的验证码不好处理吗?很难识别?那我教你绕过它好了啊!爬虫必会!全部内容,希望文章能够帮你解决验证码不好处理吗?很难识别?那我教你绕过它好了啊!爬虫必会!所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/1208622.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-06-04
下一篇 2022-06-04

发表评论

登录后才能评论

评论列表(0条)

保存