days7 scrapy的使用

code • 2022-4-25 • python • 阅读 45

scrapy

- @[TOC](scrapy)
days7 scrapy的使用
- 概念
- 入门
- - 安装
  - 项目创建

days7 scrapy的使用概念

Scrapy http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html 是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。

其流程可以描述如下：

爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送请求，获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request对象---->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据

入门安装

pip/pip3 install scrapy (window)
sudo apt-get install scrapy(linux)

项目创建

爬取百度
scrapy crawl baidu

创建项目:
scrapy startproject test
生成一个爬虫:
scrapy genspider baidu www.baidu.com
提取数据:
根据网站结构在spider中实现数据采集相关内容
保存数据:
使用pipeline进行数据后续处理和保存

—2022.04.20

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/718793.html

打赏

微信扫一扫

支付宝扫一扫

code 管理员组

上一篇 2022-04-25

2022年4月20日Python课堂考试复盘及课堂笔记之程序控制结构

下一篇 2022-04-25

发表评论

登录后才能评论

评论列表（0条）