通过此客户端,我们发送用户数据,每个用户都有一个用户ID,客户端通过RESTful API与我们的服务器通信,询问服务器的数据.
例如,假设我们有一个书籍数据库,用户可以获得作者写的最后3本书.我们重视用户的时间,我们希望用户能够在没有明确注册的情况下开始使用该产品.
我们重视我们的数据库,我们使用自己的专有软件来填充它,并希望尽可能地保护它.
所以基本上问题是:
我们可以做些什么来保护自己免受网络抓取?
我非常想了解一些保护我们数据的技术,我们希望阻止用户在作者搜索面板中键入每个作者姓名,并取出每位作者写的前三本书.
任何建议的阅读将不胜感激.
我只想提一下我们已经知道验证码,并希望尽可能地避免它们
解决方法 防止这种情况的主要策略是:>需要注册,因此您可以限制每个用户的请求
>用于注册和非注册用户的验证码
> IP的速率限制
>需要JavaScript – 编写一个可以读取Js的刮刀更难
>机器人阻塞和机器人检测(例如请求率,隐藏链接陷阱)
>数据中毒.放入没有人想要拥有的书籍和链接,这会阻止盲目收集所有内容的机器人的下载.
>突变.经常更改模板,以便刮刀可能无法找到所需的内容.
请注意,您可以非常灵活地使用Captchas.
例如:每天每张IP的第一本书都是非验证码保护的.但是为了访问第二本书,需要解决验证码.
总结以上是内存溢出为你收集整理的网页抓取 – 防止网页抓取全部内容,希望文章能够帮你解决网页抓取 – 防止网页抓取所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)