安装步骤:
安装相关依赖
进入githup 中 setup.py查看相关依赖:
在终端中查看是否安装:
没有安装的直接pip install 直接安装就好了
最后安装Scrapy: pip3 install Scrapy(我的Mac有2.7 和3.5两个版本)
检验是否安装成功
scrapy -h
我已经安装成功但是提示老蠢 scrapy:command not found
为某一个文件在另外侍郑陪一个位置建立一个同不的链接,这个命令最常用的参数丛迅是-s,具体用法是:ln -s 源文件 目标文件
1、伍段安装scrapy:在pycharm中使用pip命令安装scrapy;2、配置pycarm:在pycharm中配置scrapy,新建scrapy项目,设置scrapy框架;
3、添加scrapy库饥橘灶:在pycharm中添加scrapy库,使pycharm可以识别scrapy;
4、设置python解释器:烂扮设置pycharm使用python3解释器;
5、设置scrapy脚本:在pycharm中添加scrapy脚本,将scrapy脚本添加到pycharm中,使pycharm可以运行scrapy脚本。
用Python开发爬虫很方便。
本质:抓取---分析---存储
要点:
(1)get请求:最基本抓取。用到 urllib urllib2 requests httplib2 。
(2)表单登陆:向服务器发送post请求,服务器再将返回的cookie存入本地
(3)使用cookie登陆:
(4)对于反爬虫机制的处理:
(5)对于断线重连:使用multi_session和裤竖段multi_open对爬虫抓取的session或opener进行保持
(6)多线程抓取
(7)对于Ajax请求
(纤正8)自动化测试工具Selenium
由于 Linux下已经预装了 lxml 和 OPENSSL
如果想验证 lxml ,可以分别输入
出现下面的提示这证明已经安装成功
如果想验证 open ssl,则直接输入openssl 即可,如果跳转到 OPENSSL 命令行,则安装成功。
接下来直接安装 Scrapy 即可
安装完毕之后,输入 scrapy
注意,这里linux下不要输入Scrapy,linux依然严格区分大小写的,感谢kamen童鞋提醒。
如果出现如下提示,这证明安装成功
下面是stackoverflow上的高票解决办法:
I'胡誉ve just fixed this issue on my OS X.
Please backup your files first.
Scrapy 1.0.0 is ready to go.
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)