scrapy 怎么结合selenium_IT百科

你可以使用scrapy， python的爬虫框架，或者如果你只是抓取比较简单的页面，可以使用requests这个python库，功能也足够用了。如果解决了您的问题！如果未解决请继续追问

支持！哪个说的不支持？！我的环境win7 + python3，可以安装scrapy。不过直接：pip install scrapy 是不会安装成功的。我是先安装了numpy之后再安装才成功！！

用Python开发爬虫很方便。

本质：抓取---分析---存储

要点：

（1）get请求：最基本抓取。用到 urllib urllib2 requests httplib2 。

（2）表单登陆：向服务器发送post请求，服务器再将返回的cookie存入本地

（3）使用cookie登陆：

（4）对于反爬虫机制的处理：

(5)对于断线重连：使用multi_session和multi_open对爬虫抓取的session或opener进行保持

（6）多线程抓取

（7）对于Ajax请求

（8）自动化测试工具Selenium

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ，可以分别输入

出现下面的提示这证明已经安装成功

如果想验证 open ssl，则直接输入openssl 即可，如果跳转到 OPENSSL 命令行，则安装成功。

接下来直接安装 Scrapy 即可

安装完毕之后，输入 scrapy

注意，这里linux下不要输入Scrapy，linux依然严格区分大小写的，感谢kamen童鞋提醒。

如果出现如下提示，这证明安装成功

下面是stackoverflow上的高票解决办法：

I've just fixed this issue on my OS X.

Please backup your files first.

Scrapy 1.0.0 is ready to go.

欢迎分享，转载请注明来源：内存溢出

scrapy 怎么结合selenium