Nginx反爬虫策略,防止UA抓取网站

Nginx反爬虫策略,防止UA抓取网站,第1张

Nginx反爬虫策略,防止UA抓取网站

目前网上有很多爬虫,有些是有利于百度收录的,比如百度爬虫,但也有无用的爬虫,不仅不遵循robots标准,而且不能为网站产生总流量。为了防止网站被别人抓取,我们可以根据Nginx屏蔽大部分爬虫。

添加反爬虫对策文档:

vim/usr/www/server/nginx/conf/anti_spider.conf

文档内容

#严禁Scrapy等专用工具的爬取 if($http_user_agent~*(Scrapy|Curl|HttpClient)){ return403; } #严禁特定UA及UA为空的浏览 if($http_user_agent~"WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|IndyLibrary|AlexaToolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|MicrosoftURLControl|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReportsBot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|LingueeBot|^$"){ return403; } #严禁非GET|HEAD|POST方法的爬取 if($request_method!~^(GET|HEAD|POST)$){ return403; } #屏蔽掉单独IP的指令是 #deny123.45.6.7 #封全部段即从123.0.0.1到123.255.255.254的指令 #deny123.0.0.0/8 #封IP段即从123.45.0.1到123.45.255.254的指令 #deny124.45.0.0/16 #封IP段即从123.45.6.1到123.45.6.254的指令是 #deny123.45.6.0/24 #下列IP皆为无赖 #deny58.95.66.0/24;

配备应用程序

在网站的服务器中导入

#反爬虫 include/usr/www/server/nginx/conf/anti_spider.conf

最终重启nginx。

检查是否合理?

模拟YYSpider

λcurl-XGET-I-A'YYSpider'https://www.myong.top HTTP/1.1200Connectionestablished HTTP/2403 server:marco/2.11 date:Fri,20Mar202008:48:50GMT content-type:text/html content-length:146 x-source:C/403 x-request-id:3ed800d296a12ebcddc4d61c57500aa2

模拟百度搜索Baiduspider

λcurl-XGET-I-A'BaiduSpider'https://www.myong.top HTTP/1.1200Connectionestablished HTTP/2200 server:marco/2.11 date:Fri,20Mar202008:49:47GMT content-type:text/html vary:Accept-Encoding x-source:C/200 last-modified:Wed,18Mar202013:16:50GMT etag:"5e721f42-150ce" x-request-id:e82999a79a7d7ea2e9ff18b6f1f4cc84

爬虫的通用用户代理

FeedDemon內容采集 BOT/0.1(BOTforJCE)sql注入 CrawlDaddysql注入 Java內容采集 Jullo內容采集 Feedly內容采集 UniversalFeedParser內容采集 ApacheBenchcc攻击器 Swiftbot无用爬虫 YandexBot无用爬虫 AhrefsBot无用爬虫 YisouSpider无用爬虫(已被UC神马搜索回收,此搜索引擎蜘蛛能够放宽!) jikeSpider无用爬虫 MJ12bot无用爬虫 ZmEuphpmyadmin漏洞扫描系统 WinHttp采集cc攻击 EasouSpider无用爬虫 HttpClienttcp进攻 MicrosoftURLControl扫描仪 YYSpider无用爬虫 jauntywordpress工程爆破扫描q oBot无用爬虫 Python-urllib內容采集 IndyLibrary扫描仪 FlightDeckReportsBot无用爬虫 LingueeBot无用爬虫

以上是Nginx反爬虫的对策,避免UA抓取网站的详细内容。关于Nginx反爬虫的大量资料,请关注其他相关文章!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/774358.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-03
下一篇 2022-05-03

发表评论

登录后才能评论

评论列表(0条)

保存