?我在网站日志里发现了一个不太常见的CC蜘蛛,它的访问名是:CCbot/2.0(https://commoncrawl.org/FAQ/)。让我们实际了解一下CCbot是一种什么样的蜘蛛。
? 一.CCbot是什么蜘蛛? ? CCbot,全称之为CommonCrawlBot,是一个非盈利性慈善基金会着眼于出示能够被任何人访问和剖析的Web爬网数据信息的对外开放储存库。 ? 二.你如何处理CCbot蜘蛛? ? 方式1.应用robots.txt ? 应用robots.txt文件来容许或严禁蜘蛛访问网页页面的管理权限。robots.txt是放到网站网站根目录中,蜘蛛来访问的时候会先搜索并查询robots.txt文件,并遵循robots协议书来访问网站上的內容,容许访问则访问,不允许访问蜘蛛则离去。 ? ①.不允许一切蜘蛛访问您站点的一切一部分 ? User-agent:* ? Disallow:/ ? ②.容许一切蜘蛛访问您站点的一切一部分 ? User-agent:* ? Disallow: ? ③.不允许CCbot蜘蛛访问网站的一切一部分 ? User-agent:ccbot ? Disallow:/ ? ④.容许CCbot蜘蛛访问您站点的一切一部分 ? User-agent:ccbot ? Disallow: ? ⑤.容许CCbot蜘蛛访问您站点,但不允许CCbot访问“wp-admin”文件夹名称 ? User-agent:ccbot ? Disallow:/wp-admin ? 方式2.应用元标识 ? 能够在网页页面中应用元标识来协助 *** 纵百度搜索引擎蜘蛛对您网站的访问管理权限。假如您为全部网页页面应用模版,则能够在<head>和</head>中间加上元标识,它将适用应用该模版的全部网页页面。假如要 *** 纵特殊网页页面,能够在<head>和</head>中间的每个网页页面上加上元标识。 ? ①.容许全部蜘蛛访问您的网页页面 ? metaname=“robots”content=“index”/ ? ②.容许全部蜘蛛访问您的网页页面并追踪网页页面上的连接 ? metaname=“robots”content=“index,follow”/ ? ③.容许全部蜘蛛访问您的网页页面,但不允许她们追踪连接 ? metaname=“robots”content=“index,nofollow”/ ? ④.不允许一切蜘蛛访问您的网页页面 ? metaname=“robots”content=“noindex”/ ? ⑤.容许CCbot访问您的网页页面 ? metaname=“ccbot”content=“index” ? ⑥.不允许CCbot访问您的网页页面 ? metaname=“ccbot”content=“noindex” ? ⑦.容许CCbot访问您的网页页面并追踪大量网页页面的连接 ? metaname=“ccbot”content=“index,follow” ? 假如你一直在网站日志中也发觉了CCbot,不必慌乱,你接下去必须做的便是是容许它再次爬取還是严禁爬取?May本人感觉这类蜘蛛沒有多少的实际意义,一旦发觉这类蜘蛛爬取较为经常,最好是的方法便是严禁这种蜘蛛再次访问大家的网站。有关阅读文章什么是WordPressslug?如何推广?
在SEO中,人们经常谈论为网页构建一个合适的slug。什么是鼻涕虫?以及如何改善?在这篇文章中,我们将向你展示所有你必须知道的信息。鼻涕虫
什么是SEO关键词优化?关键词优化的方法有哪些?
现在很多公司为了自己的营销推广会做一个网站推广来达到更好的实际效果,但是一些中小企业的新朋友可能不知道什么是关键词优化。比不上
网站的关键词搜索量是多少?
对于做seo优化的人来说,关键词搜索量是一个网站合理布局被百度收录的关键指标值。网站真的很重要,但是有多关键呢?一定要保持在一定水平吗?
SEO推广的必需品有哪些?
传统公司在网站基础建设和发布后很快进入it行业。一些传统公司发现为什么他们的网站排名如此之低,以至于他们无法通过搜索找到它们。
推广中的主播环节有哪些作用?
在网站推广的情况下,锚链接是常见的推广方式之一。那么,主播链接对网站推广有什么作用呢?接下来我们就来看看吧!锚文本
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)