【Scrapy框架二】爬虫settings.py中各配置参数含义

【Scrapy框架二】爬虫settings.py中各配置参数含义,第1张

系列文章目录

上一篇:【Scrapy框架一】初步认识爬虫框架


文章目录
  • 系列文章目录
  • 前言
  • 一、settings参数介绍
  • 二、部分参数验证
    • 2.1 ROBOTSTXT_OBEY验证
    • 2.2 待补充...
  • 总结


前言

了解爬虫的配置文件settings.py各个字段的含义,对使用scrapy框架会有很大帮助,比如如何设置并发量,如何设置请求延时,如何设置遵守robots协议等等。所以在学习过程中,对接触到的爬虫参数做了归纳。


一、settings参数介绍

查看下默认的settings.py文件

参数名称参数含义备注
BOT_NAME
SPIDER_MODULES
NEWSPIDER_MODULE
USER_AGENT
ROBOTSTXT_OBEYTrue:表示遵守robots协议
False:表示不遵守
CONCURRENT_REQUESTS爬虫并发请求数量,默认是16
CONCURRENT_REQUESTS_PER_DOMAIN
CONCURRENT_REQUESTS_PER_IP
DOWNLOAD_DELAY下载延时,默认是0,请求之间不等待
COOKIES_ENABLED是否启用cookie,默认启用
TELNETCONSOLE_ENABLED
DEFAULT_REQUEST_HEADERS默认请求报头
SPIDER_MIDDLEWARES爬虫中间件
DOWNLOADER_MIDDLEWARES下载中间件,指定的值越小优先级越高,启动顺序按照优先级从高到低
EXTENSIONS
ITEM_PIPELINES管道文件,值越小优先级越高,启动顺序按照优先级从高到低
AUTOTHROTTLE_ENABLED
AUTOTHROTTLE_START_DELAY
AUTOTHROTTLE_MAX_DELAY
AUTOTHROTTLE_TARGET_CONCURRENCY
AUTOTHROTTLE_DEBUG
HTTPCACHE_ENABLED
HTTPCACHE_EXPIRATION_SECS
HTTPCACHE_DIR
HTTPCACHE_IGNORE_HTTP_CODES
HTTPCACHE_STORAGE
二、部分参数验证 2.1 ROBOTSTXT_OBEY验证

ROBOTSTXT_OBEY=True时,爬虫会遵守robots协议,如果爬取到robots.txt不允许爬的内容,就会出现下图中的提示:

查看下robots.txt中的内容,发现/目录下的内容都不让爬取。

如果设置ROBOTSTXT_OBEY=False,会不会真的能爬取下数据,看下图确实是爬取下来了:

上面的网站是B站UP主‘程序员鱼皮’给粉丝做的一个关于学习网络安全的网站,很有趣,这个UP主实力也很强,能了解到不少知识。

2.2 待补充…
总结

除了以上默认的参数外,还有其他参数,遇到再进行补充。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/718489.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存