Scrapy框架（一. 快速入门）_随笔

Scrapy框架（一. 快速入门） Scrapy框架（一. 快速入门）

目录：

一. Scrapy初识：

1.官网：https://scrapy.org/

2. Scrapy是什么？

3. Scrapy可以用来干什么？

二. 下载Scrapy库

三. 使用Scrapy框架，步骤（这里以 www.baidu.com 为例）

1. 新建项目

2. 明确目标（编写items.py文件） target_name = scrapy.Field()

3. 制作爬虫文件（spiders/xxx.py）

a. 创建爬虫文件 scrapy genspider baidu 'baidu.com'

b. 编写爬虫代码

4. 持久化存储爬取的数据

这里将单独编写一篇博客讲解，如何使用Scrapy框架进行持久化存储数据 :

点击跳转至该博客

5.执行Scrapy程序、获取数据

输入命令： scrapy crawl baidu

一. Scrapy初识 :

Scrapy是适用于Python网络爬虫的应用框架

框架内的各个部分相互协调，最终实现爬取目标数据

Scrapy 功能 :

通常 Scrapy 框架用于爬取指定网站的内容或图片，并进行持久化存储
数据挖掘
信息处理
存储历史数据
监测
自动化测试

二. 下载Scrapy库：（cmd 打开命令提示符窗口，分别输入）

升级pip :

python -m pip install --upgrade pip

安装scrapy库：

pip install scrapy

也可在pyCharm中分别对pip进行升级、对scrapy库进行下载

三. Scrapy项目

1. 新建项目：（这里以创建一个名为MyspiderName的项目为例）

通过PyCharm 中的Terminal窗口，输入命令：
scrapy start MyspiderName

创建完成，则自动生成一系列文件：

2. 明确目标（编写items.py文件）：

以 TargetName = scrapy.Field() 格式编写（TargetName: 目标名称）

3. 制作爬虫文件

a. 创建爬虫文件:

b. 编写爬虫代码

i. 简单粗暴，直接输出响应的文本形式、将自动生成的pass注释掉

ii. 由于Scrapy默认服从robots.txt协议（取消注释、将True改为False）

5. 执行程序、获取数据

在PyCharm中Terminal窗口中输入 scrapy crawl baidu命令

等待，则输出响应的文本格式

欢迎分享，转载请注明来源：内存溢出

Scrapy框架（一. 快速入门）