Scrapy学习

Scrapy学习,第1张

Scrapy学习 scrapy入门 1.scrapy简介

Scrapy是一个基于Twisted的异步处理框架,是纯python实现的爬虫框架。使用少量代码就能快速抓取数据。
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如baseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

2.Scrapy框架及功能 2.1 框架图

2.2 各部分功能 名称功能Scrapy Engine(Scrapy引擎)Scrapy引擎是框架的核心,负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等Spiders(爬虫)负责处理引擎发来的所有Response,从中提取数据,提取URl,并提交给引擎Scheduler(调度器)负责接受引擎发送过来的Request请求Downloader(下载器)负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理。Item Pipeline(项目管道)负责引擎传来的数据,并进行后期处理(数据分析,数据存储等) 3.Scrapy安装 3.1安装命令

windows下:

	pip install Scrapy


检测是否安装成功:

scrapy startProject 项目名



You can start your first spider with:
第一步: cd myspider
第二步:scrapy genspider example(爬虫名) example.com(你要爬取的网站)


网站用xxxx代替

编写完代码后:执行爬虫

scrapy crawl 爬虫名

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5700562.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存