上一篇:【Scrapy框架一】初步认识爬虫框架
文章目录
- 系列文章目录
- 前言
- 一、settings参数介绍
- 二、部分参数验证
- 2.1 ROBOTSTXT_OBEY验证
- 2.2 待补充...
- 总结
前言
了解爬虫的配置文件settings.py各个字段的含义,对使用scrapy框架会有很大帮助,比如如何设置并发量,如何设置请求延时,如何设置遵守robots协议等等。所以在学习过程中,对接触到的爬虫参数做了归纳。
一、settings参数介绍
查看下默认的settings.py文件
参数名称 | 参数含义 | 备注 |
---|---|---|
BOT_NAME | ||
SPIDER_MODULES | ||
NEWSPIDER_MODULE | ||
USER_AGENT | ||
ROBOTSTXT_OBEY | True:表示遵守robots协议 False:表示不遵守 | |
CONCURRENT_REQUESTS | 爬虫并发请求数量,默认是16 | |
CONCURRENT_REQUESTS_PER_DOMAIN | ||
CONCURRENT_REQUESTS_PER_IP | ||
DOWNLOAD_DELAY | 下载延时,默认是0,请求之间不等待 | |
COOKIES_ENABLED | 是否启用cookie,默认启用 | |
TELNETCONSOLE_ENABLED | ||
DEFAULT_REQUEST_HEADERS | 默认请求报头 | |
SPIDER_MIDDLEWARES | 爬虫中间件 | |
DOWNLOADER_MIDDLEWARES | 下载中间件,指定的值越小优先级越高,启动顺序按照优先级从高到低 | |
EXTENSIONS | ||
ITEM_PIPELINES | 管道文件,值越小优先级越高,启动顺序按照优先级从高到低 | |
AUTOTHROTTLE_ENABLED | ||
AUTOTHROTTLE_START_DELAY | ||
AUTOTHROTTLE_MAX_DELAY | ||
AUTOTHROTTLE_TARGET_CONCURRENCY | ||
AUTOTHROTTLE_DEBUG | ||
HTTPCACHE_ENABLED | ||
HTTPCACHE_EXPIRATION_SECS | ||
HTTPCACHE_DIR | ||
HTTPCACHE_IGNORE_HTTP_CODES | ||
HTTPCACHE_STORAGE |
当ROBOTSTXT_OBEY=True
时,爬虫会遵守robots协议,如果爬取到robots.txt不允许爬的内容,就会出现下图中的提示:
查看下robots.txt中的内容,发现/目录下的内容都不让爬取。
如果设置ROBOTSTXT_OBEY=False
,会不会真的能爬取下数据,看下图确实是爬取下来了:
上面的网站是B站UP主‘程序员鱼皮’给粉丝做的一个关于学习网络安全的网站,很有趣,这个UP主实力也很强,能了解到不少知识。
总结
除了以上默认的参数外,还有其他参数,遇到再进行补充。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)