【Scrapy框架二】爬虫settings.py中各配置参数含义_python

系列文章目录

上一篇：【Scrapy框架一】初步认识爬虫框架

文章目录

系列文章目录
前言
一、settings参数介绍
二、部分参数验证
- 2.1 ROBOTSTXT_OBEY验证
- 2.2 待补充...
总结

前言

了解爬虫的配置文件settings.py各个字段的含义，对使用scrapy框架会有很大帮助，比如如何设置并发量，如何设置请求延时，如何设置遵守robots协议等等。所以在学习过程中，对接触到的爬虫参数做了归纳。

一、settings参数介绍

查看下默认的settings.py文件

参数名称	参数含义	备注
BOT_NAME
SPIDER_MODULES
NEWSPIDER_MODULE
USER_AGENT
ROBOTSTXT_OBEY	True:表示遵守robots协议 False：表示不遵守
CONCURRENT_REQUESTS	爬虫并发请求数量，默认是16
CONCURRENT_REQUESTS_PER_DOMAIN
CONCURRENT_REQUESTS_PER_IP
DOWNLOAD_DELAY	下载延时，默认是0，请求之间不等待
COOKIES_ENABLED	是否启用cookie，默认启用
TELNETCONSOLE_ENABLED
DEFAULT_REQUEST_HEADERS	默认请求报头
SPIDER_MIDDLEWARES	爬虫中间件
DOWNLOADER_MIDDLEWARES	下载中间件，指定的值越小优先级越高，启动顺序按照优先级从高到低
EXTENSIONS
ITEM_PIPELINES	管道文件，值越小优先级越高，启动顺序按照优先级从高到低
AUTOTHROTTLE_ENABLED
AUTOTHROTTLE_START_DELAY
AUTOTHROTTLE_MAX_DELAY
AUTOTHROTTLE_TARGET_CONCURRENCY
AUTOTHROTTLE_DEBUG
HTTPCACHE_ENABLED
HTTPCACHE_EXPIRATION_SECS
HTTPCACHE_DIR
HTTPCACHE_IGNORE_HTTP_CODES
HTTPCACHE_STORAGE

二、部分参数验证 2.1 ROBOTSTXT_OBEY验证

当ROBOTSTXT_OBEY=True时，爬虫会遵守robots协议，如果爬取到robots.txt不允许爬的内容，就会出现下图中的提示：

查看下robots.txt中的内容，发现/目录下的内容都不让爬取。

如果设置ROBOTSTXT_OBEY=False，会不会真的能爬取下数据，看下图确实是爬取下来了：

上面的网站是B站UP主‘程序员鱼皮’给粉丝做的一个关于学习网络安全的网站，很有趣，这个UP主实力也很强，能了解到不少知识。

2.2 待补充…

总结

除了以上默认的参数外，还有其他参数，遇到再进行补充。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/718489.html