Scrapy学习_随笔_内存溢出

Scrapy学习 scrapy入门 1.scrapy简介

Scrapy是一个基于Twisted的异步处理框架，是纯python实现的爬虫框架。使用少量代码就能快速抓取数据。
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如baseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

2.Scrapy框架及功能 2.1 框架图

2.2 各部分功能名称功能Scrapy Engine（Scrapy引擎）Scrapy引擎是框架的核心，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等Spiders(爬虫)负责处理引擎发来的所有Response，从中提取数据，提取URl,并提交给引擎Scheduler(调度器)负责接受引擎发送过来的Request请求Downloader(下载器)负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理。Item Pipeline(项目管道)负责引擎传来的数据，并进行后期处理（数据分析，数据存储等） 3.Scrapy安装 3.1安装命令

windows下：

	pip install Scrapy

检测是否安装成功：

scrapy startProject 项目名

You can start your first spider with:
第一步： cd myspider
第二步：scrapy genspider example（爬虫名） example.com（你要爬取的网站）

网站用xxxx代替

编写完代码后：执行爬虫

scrapy crawl 爬虫名

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5700562.html

Scrapy学习

发表评论

评论列表（0条）