Python爬虫与mac下Scrapy配置_教程

用Python开发爬虫很方便。

本质：抓取---分析---存储

要点：

（1）get请求：最基本抓取。用到 urllib urllib2 requests httplib2 。

（2）表单登陆：向服务器发送post请求，服务器再将返回的cookie存入本地

（3）使用cookie登陆：

（4）对于反爬虫机制的处理：

(5)对于断线重连：使用multi_session和multi_open对爬虫抓取的session或opener进行保持

（6）多线程抓取

（7）对于Ajax请求

（8）自动化测试工具Selenium

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ，可以分别输入

出现下面的提示这证明已经安装成功

如果想验证 open ssl，则直接输入openssl 即可，如果跳转到 OPENSSL 命令行，则安装成功。

接下来直接安装 Scrapy 即可

安装完毕之后，输入 scrapy

注意，这里linux下不要输入Scrapy，linux依然严格区分大小写的，感谢kamen童鞋提醒。

如果出现如下提示，这证明安装成功

下面是stackoverflow上的高票解决办法：

I've just fixed this issue on my OS X.

Please backup your files first.

Scrapy 1.0.0 is ready to go.

工具：

浏览器

方法如下：

1、打开浏览器，点击右上角【工具】选项，然后点击【选项】

2、进入”选项“界面，点击左方菜单栏中【高级设置】

3、在”网页设置选项下“点击【网页内容高级设置】

4、进入Cookie界面，点击【所有Cookie和网站数据】

5、此时可以看到浏览过的网页，以及网友的Cookie和数据信息

6、如果数据较多，可以在右方的搜索栏输入要查找的信息，点击搜索

7、点击后方的Cookie或本地存储可以看到具体的网站缓存信息

欢迎分享，转载请注明来源：内存溢出

Python爬虫与mac下Scrapy配置