Scrapy是一个基于Twisted的异步处理框架,是纯python实现的爬虫框架。使用少量代码就能快速抓取数据。
Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如baseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
windows下:
pip install Scrapy
检测是否安装成功:
scrapy startProject 项目名
You can start your first spider with:
第一步: cd myspider
第二步:scrapy genspider example(爬虫名) example.com(你要爬取的网站)
网站用xxxx代替
编写完代码后:执行爬虫
scrapy crawl 爬虫名
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)