点击查看链接打开原始网页,会出现每个页面:
http://www.STcash.com/5273/comment-page-1
http://www.STcash.com/5273?replytocom=1989
前一篇出现了三级文件目录,后一篇类似于ss="superseo">ss="superseo">动态网址。在我的文章中没有这两种联系的详细地址。我通过查询网页的源代码可以看出一些端倪。
根本原因:
我发现这两个?Replytocom=1989网址来源为:文章内容评论链接。
四个评论刚好匹配四个replytocom,百度爬虫很可能有一定程度的智能,四个replytocom网站只收录一个,但是不够智能,所以评论链接和全文链接没有区别。
Comment-page-1URL与评论链接相同,Comment-page-1表示评论页面的第一页。如果评论很多,比如有1000条评论,那么一个页面肯定不会显示信息,会出现评论-页面-2,评论-页面-3......................................................................................................................然而搞笑的是,百度爬虫还是无法识别这个和全文。
解决方案:
1。有两种方法来处理comment-page-1的重复包含
1)关闭wordpress后台管理中的评论分页查询。
2)更改robots.txt,添加新的项目代码。
不允许:/comment-page-
Robots.txt在网站的根目录下。您可以通过应用URL/robots.tx来查看设置结果。如果根目录中没有这样的文档
WP-includes/fun里有这样一段代码:
以美元输出。="disallow:$path/WP-admin/\n";提一句$output。="disallow:$path/comment-page-\n"在后面;
2。设置robots.txt文件
不允许:/*?回复通讯=
或者将nofollow连接添加到包括replytocom在内的所有连接中。
以上详细介绍了文章内容被百度搜索反复收录的原因以及解决方案的所有内容。大量内容请再次关注诺信互联!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)