Python爬虫与mac下Scrapy配置

Python爬虫与mac下Scrapy配置,第1张

用Python开发爬虫很方便。

本质:抓取---分析---存储

要点:

(1)get请求:最基本抓取。用到 urllib  urllib2  requests  httplib2 。

(2)表单登陆:向服务器发送post请求,服务器再将返回的cookie存入本地

(3)使用cookie登陆:

(4)对于反爬虫机制的处理:

(5)对于断线重连:使用multi_session和multi_open对爬虫抓取的session或opener进行保持

(6)多线程抓取

(7)对于Ajax请求

(8)自动化测试工具Selenium

由于 Linux下已经预装了 lxml 和 OPENSSL

如果想验证 lxml ,可以分别输入

出现下面的提示这证明已经安装成功

如果想验证 open ssl,则直接输入openssl 即可,如果跳转到 OPENSSL 命令行,则安装成功。

接下来直接安装 Scrapy 即可

安装完毕之后,输入 scrapy

注意,这里linux下不要输入Scrapy,linux依然严格区分大小写的,感谢kamen童鞋提醒。

如果出现如下提示,这证明安装成功

下面是stackoverflow上的高票解决办法:

I've just fixed this issue on my OS X.

Please backup your files first.

Scrapy 1.0.0 is ready to go.

工具:

浏览器

方法如下:

1、打开浏览器,点击右上角【工具】选项,然后点击【选项】

2、进入”选项“界面,点击左方菜单栏中【高级设置】

3、在”网页设置选项下“点击【网页内容高级设置】

4、进入Cookie界面,点击【所有Cookie和网站数据】

5、此时可以看到浏览过的网页,以及网友的Cookie和数据信息

6、如果数据较多,可以在右方的搜索栏输入要查找的信息,点击搜索

7、点击后方的Cookie或本地存储可以看到具体的网站缓存信息


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/12002842.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-20
下一篇 2023-05-20

发表评论

登录后才能评论

评论列表(0条)

保存