网页抓取工具 – 如何设置一个仅允许站点默认页面的robot.txt

网页抓取工具 – 如何设置一个仅允许站点默认页面的robot.txt,第1张

概述说我有一个网站在 http://example.com.我真的希望允许机器人看到主页,但任何其他页面需要阻止,因为它是无意义的蜘蛛。换一种说法 http://example.com&应该允许http://example.com/,但是 http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。 此外,如果我允许某些查 说我有一个网站在 http://example.com.我真的希望允许机器人看到主页,但任何其他页面需要阻止,因为它是无意义的蜘蛛。换一种说法

http://example.com&应该允许http://example.com/,但是
http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。

此外,如果我允许某些查询字符串传递到主页,那将是很好的
http://example.com?okparam=true

但不是
http://example.com?anythingbutokparam=true

解决方法 所以经过一些研究,这里是我发现的 – 主要搜索提供商可以接受的解决方案: google, yahoo& msn(我可以在这里找到一个验证器):
User-Agent: *disallow: /*Allow: /?okparam=Allow: /$

诀窍是使用$来标记URL的结尾。

总结

以上是内存溢出为你收集整理的网页抓取工具 – 如何设置一个仅允许站点默认页面的robot.txt全部内容,希望文章能够帮你解决网页抓取工具 – 如何设置一个仅允许站点默认页面的robot.txt所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1116743.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-29
下一篇 2022-05-29

发表评论

登录后才能评论

评论列表(0条)

保存