网页抓取 – 防止网页抓取

网页抓取 – 防止网页抓取,第1张

概述我目前是开发包含前端客户端的应用程序的团队的一员. 通过此客户端,我们发送用户数据,每个用户都有一个用户ID,客户端通过RESTful API与我们的服务器通信,询问服务器的数据. 例如,假设我们有一个书籍数据库,用户可以获得作者写的最后3本书.我们重视用户的时间,我们希望用户能够在没有明确注册的情况下开始使用该产品. 我们重视我们的数据库,我们使用自己的专有软件来填充它,并希望尽可能地保护它. 我目前是开发包含前端客户端的应用程序的团队的一员.

通过此客户端,我们发送用户数据,每个用户都有一个用户ID,客户端通过RESTful API与我们的服务器通信,询问服务器的数据.

例如,假设我们有一个书籍数据库,用户可以获得作者写的最后3本书.我们重视用户的时间,我们希望用户能够在没有明确注册的情况下开始使用该产品.

我们重视我们的数据库,我们使用自己的专有软件来填充它,并希望尽可能地保护它.

所以基本上问题是:

我们可以做些什么来保护自己免受网络抓取

我非常想了解一些保护我们数据的技术,我们希望阻止用户在作者搜索面板中键入每个作者姓名,并取出每位作者写的前三本书.

任何建议的阅读将不胜感激.

我只想提一下我们已经知道验证码,并希望尽可能地避免它们

解决方法 防止这种情况的主要策略是:

>需要注册,因此您可以限制每个用户的请求
>用于注册和非注册用户的验证码
> IP的速率限制
>需要JavaScript – 编写一个可以读取Js的刮刀更难
>机器人阻塞和机器人检测(例如请求率,隐藏链接陷阱)
>数据中毒.放入没有人想要拥有的书籍和链接,这会阻止盲目收集所有内容的机器人的下载.
>突变.经常更改模板,以便刮刀可能无法找到所需的内容.

请注意,您可以非常灵活地使用Captchas.

例如:每天每张IP的第一本书都是非验证码保护的.但是为了访问第二本书,需要解决验证码.

总结

以上是内存溢出为你收集整理的网页抓取 – 防止网页抓取全部内容,希望文章能够帮你解决网页抓取 – 防止网页抓取所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1077345.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-26
下一篇 2022-05-26

发表评论

登录后才能评论

评论列表(0条)

保存