days7 scrapy的使用

days7 scrapy的使用,第1张

scrapy
    • @[TOC](scrapy)
  • days7 scrapy的使用
    • 概念
    • 入门
      • 安装
      • 项目创建
days7 scrapy的使用 概念

Scrapy http://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/overview.html 是一个Python编写的开源网络爬虫框架。它是一个被设计用于爬取网络数据、提取结构性数据的框架。


其流程可以描述如下:

  1. 爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
  2. 调度器把request–>引擎–>下载中间件—>下载器
  3. 下载器发送请求,获取response响应---->下载中间件---->引擎—>爬虫中间件—>爬虫
  4. 爬虫提取url地址,组装成request对象---->爬虫中间件—>引擎—>调度器,重复步骤2
  5. 爬虫提取数据—>引擎—>管道处理和保存数据

入门 安装

pip/pip3 install scrapy (window)
sudo apt-get install scrapy(linux)

项目创建

爬取百度
scrapy crawl baidu

  1. 创建项目:
    scrapy startproject test
  2. 生成一个爬虫:
    scrapy genspider baidu www.baidu.com
  3. 提取数据:
    根据网站结构在spider中实现数据采集相关内容
  4. 保存数据:
    使用pipeline进行数据后续处理和保存


—2022.04.20

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/718793.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存