python爬虫在客户端访问Web服务器时,服务器可以根据cookie来跟踪客户状态,这对于需要区别客户的场合(如电子商务)特别有用。cookie存在与缓存中或者硬盘中,在硬盘中的是一些文本文件,当你访问该网站时,就会读取对应的网站的cookie信息,本文介绍python爬虫中cookie *** 作原理。
1、cookie的格式:
Set-cookie: NAME=VALUE;Expires/Max-age=DATE;Path=PATH;Domain=DOMAIN_NAME;SECURE
参数意义:
NAME:cookie的名字。
VALUE:cookie的值。
Expires:cookie的过期时间。
Path:cookie作用的路径。该 cookie 是在当前的哪个路径下生成的,如 path=/wp-admin/。
Domain:cookie作用的域名。
SECURE:是否只在https协议下起作用。如果设置了这个属性,那么只会在 SSH 连接时才会回传该 cookie
2、cookie机制
当用户第一次访问并登陆一个网站的时候,cookie的设置以及发送会经历以下4个步骤:
客户端发送一个请求到服务器 --》 服务器发送一个HttpResponse响应到客户端,其中包含Set-cookie的头部 --》 客户端保存cookie,之后向服务器发送请求时,HttpRequest请求中会包含一个cookie的头部 --》服务器返回响应数据。
3、cookie实例:从本地加载cookie
从本地加载cookie,需要使用cookiejar的load方法,并且也需要指定方法:
from urllib import request,parse from http.cookiejar import MozillacookieJar #加载本地cookie #保存cookie到本地文件 cookiejar1=MozillacookieJar('cookie.txt') cookiejar1.load(ignore_discard=True) handler=request.HTTPcookieProcessor(cookiejar) opener=request.build_opener(handler) resp=opener.open('http://httpbin.org/cookies') for cookie in cookiejar1: #将cookie打印到控制台 print(cookie)
以上就是python爬虫中cookie *** 作原理及实例,cookie有效地提升了用户体验,一般来说,一旦将cookie保存在计算机上,则只有创建该cookie的网站才能读取它哦~
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)