除了链接到他们的站点地图之外,他们的robots.txt中没有任何内容,因此我假设我没有违反他们的“规则”.我有一个描述性标题,链接到我的意图,我抓取的唯一页面来自他们的站点地图.
http状态代码仍然可以,所以我只能想象它们会在短时间内阻止大量的http请求.什么被认为是请求之间的合理延迟?
我是否忽略了可能导致此问题的任何其他考虑因素?
解决方法 每个网站都有不同的抓取和滥用特征.任何爬虫的关键是模拟人类活动,并遵守robots.txt.
一次详尽的爬行会让一些网站绊倒,无论你走得多慢,它们都会让你失望,而一些主机并不介意爬行者一气呵成,一气呵成.
>一般情况下,您不希望以每分钟6次(约人速)的速度请求页面.
>按照网页上的可见性顺序,您将更安全地关注链接.
>尝试忽略网页上看不到的链接(很多人使用蜜罐).
如果所有其他方法都失败了,请不要超过每分钟一页的请求.如果某个网站以此费率阻止您,请直接与他们联系 – 他们显然不希望您以这种方式使用他们的内容.
总结以上是内存溢出为你收集整理的web-crawler – 网络爬虫http请求的正确礼仪全部内容,希望文章能够帮你解决web-crawler – 网络爬虫http请求的正确礼仪所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)