目前网上有很多爬虫,有些是有利于百度收录的,比如百度爬虫,但也有无用的爬虫,不仅不遵循robots标准,而且不能为网站产生总流量。为了防止网站被别人抓取,我们可以根据Nginx屏蔽大部分爬虫。
添加反爬虫对策文档:
vim/usr/www/server/nginx/conf/anti_spider.conf文档内容
#严禁Scrapy等专用工具的爬取 if($http_user_agent~*(Scrapy|Curl|HttpClient)){ return403; } #严禁特定UA及UA为空的浏览 if($http_user_agent~"WinHttp|WebZIP|FetchURL|node-superagent|java/|FeedDemon|Jullo|JikeSpider|IndyLibrary|AlexaToolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|Java|Feedly|Apache-HttpAsyncClient|UniversalFeedParser|ApacheBench|MicrosoftURLControl|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|lightDeckReportsBot|YYSpider|DigExt|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|BOT/0.1|YandexBot|FlightDeckReports|LingueeBot|^$"){ return403; } #严禁非GET|HEAD|POST方法的爬取 if($request_method!~^(GET|HEAD|POST)$){ return403; } #屏蔽掉单独IP的指令是 #deny123.45.6.7 #封全部段即从123.0.0.1到123.255.255.254的指令 #deny123.0.0.0/8 #封IP段即从123.45.0.1到123.45.255.254的指令 #deny124.45.0.0/16 #封IP段即从123.45.6.1到123.45.6.254的指令是 #deny123.45.6.0/24 #下列IP皆为无赖 #deny58.95.66.0/24;配备应用程序
在网站的服务器中导入
#反爬虫 include/usr/www/server/nginx/conf/anti_spider.conf最终重启nginx。
检查是否合理?
模拟YYSpider
λcurl-XGET-I-A'YYSpider'https://www.myong.top HTTP/1.1200Connectionestablished HTTP/2403 server:marco/2.11 date:Fri,20Mar202008:48:50GMT content-type:text/html content-length:146 x-source:C/403 x-request-id:3ed800d296a12ebcddc4d61c57500aa2模拟百度搜索Baiduspider
λcurl-XGET-I-A'BaiduSpider'https://www.myong.top HTTP/1.1200Connectionestablished HTTP/2200 server:marco/2.11 date:Fri,20Mar202008:49:47GMT content-type:text/html vary:Accept-Encoding x-source:C/200 last-modified:Wed,18Mar202013:16:50GMT etag:"5e721f42-150ce" x-request-id:e82999a79a7d7ea2e9ff18b6f1f4cc84爬虫的通用用户代理
FeedDemon內容采集 BOT/0.1(BOTforJCE)sql注入 CrawlDaddysql注入 Java內容采集 Jullo內容采集 Feedly內容采集 UniversalFeedParser內容采集 ApacheBenchcc攻击器 Swiftbot无用爬虫 YandexBot无用爬虫 AhrefsBot无用爬虫 YisouSpider无用爬虫(已被UC神马搜索回收,此搜索引擎蜘蛛能够放宽!) jikeSpider无用爬虫 MJ12bot无用爬虫 ZmEuphpmyadmin漏洞扫描系统 WinHttp采集cc攻击 EasouSpider无用爬虫 HttpClienttcp进攻 MicrosoftURLControl扫描仪 YYSpider无用爬虫 jauntywordpress工程爆破扫描q oBot无用爬虫 Python-urllib內容采集 IndyLibrary扫描仪 FlightDeckReportsBot无用爬虫 LingueeBot无用爬虫以上是Nginx反爬虫的对策,避免UA抓取网站的详细内容。关于Nginx反爬虫的大量资料,请关注其他相关文章!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)