爬虫当中的cookie的作用
1 模拟登录 (有的网站你加上cookie也登录不了)
2 反反爬(检查cookie),可以定期自动更新cookies,躲避反爬机制
先登陆qzoneqqcom, 然后右键检查,找到登陆面板 iframe 并且获取 src属性内的 URL
# -- coding: utf-8 --
# !/usr/bin/python
import os
import urllib2
import urllib
import cookielib
import re
import sys
from bs4 import BeautifulSoup
‘‘‘
编码方式的设置,在中文使用时用到中文时的处理方式
‘‘‘
default_encoding = "utf-8"
if sysgetdefaultencoding() != default_encoding:
reload(sys)
syssetdefaultencoding("utf-8")
def getHtml(url,data={}):
if(data=={}):
req=urllib2Request(url)
else:
req=urllib2Request(url,urlliburlencode(data))
html=urllib2urlopen(req)read()
return html
try:
cookie = cookielibCookieJar()
cookieProc = urllib2>
java 用>
这个网页取cookie()命令 是取得临时文件的cookie,有时是无效的,你用 网页_访问_对象()试试,你可以模拟登录模式取到相应的cookie,如果实在不行,你可以网截拦截cookie。
网上已有解决方案,希望能帮到你。。 首先,cookie是保存在本地的浏览器临时文件目录中的。所以,你要实现自动登录,就首先要在登录时,将用户名和密码写入cookie,然后,再次访问时,自动读取
以上就是关于爬虫思路——Selenium获取Cookies全部的内容,包括:爬虫思路——Selenium获取Cookies、使用python怎么获取京东网站cookie进行登录、zhihu登陆后怎么查询cookie等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)