Python爬取知乎与我所理解的爬虫与反爬虫_框架

关于知乎验证码登陆的问题，用到了Python上一个重要的处理库PIL,如果不行，就把存到本地，手动输入。

通过对知乎登陆是的抓包，可以发现登陆知乎，需要post三个参数，一个是账号，一个是密码，一个是xrsf。

这个xrsf隐藏在表单里面，每次登陆的时候，应该是服务器随机产生一个字符串。所有，要模拟登陆的时候，必须要拿到xrsf。

用chrome （或者火狐 >

模拟登录

很多网站，比如知乎、微博、豆瓣，都需要登录之后，才能浏览某些内容。所以想要爬取这类网站，必须先模拟登录。比较简单的方式是利用这个网站的 cookie。cookie 相当于是一个密码箱，里面储存了用户在该网站的基本信息。在一次登录之后，网站会记住你的信息，把它放到cookie里，方便下次自动登录。所以，要爬取这类网站的策略是：先进行一次手动登录，获取cookie，然后再次登录时，调用上一次登录得到的cookie，实现自动登录。

动态爬取

在爬取知乎某个问题的时候，需要将滑动鼠标滚轮到底部，以显示新的回答。静态的爬取方法无法做到这一点，可以引入selenium库来解决这一问题。selenium库模拟人浏览网站、进行 *** 作，简单易懂。

Cookie就是服务器暂存放在你电脑里的资料，好让服务器辨认计算机，当浏览网站的时候，web服务器会先送一个小资料放在你的计算机上，Cookie会帮你在网站上所打的文字或是一些选择都纪录下来，当下次再访问同一个网站，Web服务器会先看看有没有它上次留下的Cookie资料。里面主要是登陆网站时的用户名密码，以及浏览历史纪录等信息，建议定期清理，安全为主。

Cookie，有时也用其复数形式Cookies，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）。定义于RFC2109和2965都已废弃，最新取代的规范是RFC6265

cookie主要应用于：

一、服务器

可以利用Cookies包含信息的任意性来筛选并经常性维护这些信息，以判断在>

方法如下：

1、cookie在浏览器请求中如何看查看：打开浏览器随便访问一个网站，打开F12，可以查看请求；

2、用程序获取需要代理的地址以及参数和请求方式；

3、程序获取保存在Session中的Cookie信息写入>

获取Cookie需要通过网络请求来获取，具体步骤如下：

1 打开手机浏览器，访问你要获取Cookie的网站。

2 在网站上输入正确的用户名和密码，登录成功后，浏览器会自动保存Cookie。

3 如果你想查看这个网站的Cookie，可以在浏览器中打开开发者工具（通常是按下F12键），找到“Network”选项卡，刷新页面后，可以看到浏览器发送的网络请求和收到的响应。

4 找到你要获取Cookie的网站的请求，点击这个请求，在右侧的“Headers”选项卡中可以找到Cookie的内容。

需要注意的是，获取Cookie需要登录该网站，因此请确保你已经获得了网站的授权，并且不要将Cookie泄露给其他人，以确保账户的安全性。

以上就是关于Python爬取知乎与我所理解的爬虫与反爬虫全部的内容，包括:Python爬取知乎与我所理解的爬虫与反爬虫、怎么获取百度首页的COOKIE、python爬虫登录知乎后怎样爬取数据等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/web/9624830.html

Python爬取知乎与我所理解的爬虫与反爬虫

发表评论

评论列表（0条）