人人都要懂得网站爬虫知识,你知道多少呢?

人人都要懂得网站爬虫知识,你知道多少呢?,第1张

网络爬虫是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。[2] 可以理解为一个自动访问网页并进行相关 *** 作的小机器人。本质上就是实现高效、自动地进行网络信息的读取、收集等行为。爬虫程序最早是1994年休斯敦大学的Eichmann开发的RBSE。著名的谷歌公司使用的Google Crawler是当时还是斯坦福大学生Brin和Page在1998年用Python开发的。

使用爬虫技术可能带来的法律风险主要来自几方面:

(1)违反被爬取方的意愿,例如规避网站设置的反爬虫措施、强行突破其反爬措施;

(2)爬虫的使用造成了干扰了被访问网站正常运行的实际后果;

(3)爬虫抓取到受法律保护的特定类型的信息。其中,第(3)类风险主要来自于通过规避爬虫措施抓取到了互联网上未被公开的信息。

答:遵守robots 协议的就不违法了 。

答:查询网站域名加/robotstxt 的链接下的文件。

比如 抖音:>

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zz/10780561.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-11
下一篇 2023-05-11

发表评论

登录后才能评论

评论列表(0条)

保存