客户端软件-->客户端网卡-->路由-->(网络)-->服务器网卡-->http server-->解析程序-->
在最后一个箭头后是最简单的,相当于一个API接口
在网卡相邻位置应该是最难的
一个现象:很多情况下,我们需要登陆账号,才能爬取更多的信息。
而我们想要登陆的话,则需要带上 cookies。
以 https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php](https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php) 作为爬虫范例吧。
账号:spiderman,密码:crawler334566
这里又来了一个post请求?
(1)post和get都可以带着参数请求,不过get请求的参数会在url上显示出来。
(2)post请求的参数就不会直接显示,而是隐藏起来。像账号密码这种私密的信息,就应该用post的请求。
(3)get请求会应用于获取网页数据,比如我们之前学的requests.get()。post请求则应用于向网页提交数据,比如提交表单类型数据(像账号密码就是网页表单的数据)。
【requests headers】存储的是浏览器的请求信息,【response headers】存储的是服务器的响应信息。我们要找的cookies就在其中。
【response headers】里有set cookies的参数。set cookies是什么意思?就是服务器往浏览器写入了cookies。
明天接着写cookies吧,难的地方分多步完成!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)