如果网站本身不做鉴别,网站会认为爬虫和一般的浏览器的游握陵行为是一样的。
你时刻知道自己在做什么就好了。robots.txt 说到底也是君子协议,一般相当多的网站都只允许搜索肢森销引擎爬取页面。如果你要遵守君子协议——没什么不好——但只恐怕寸步难行。春数
爬虫本质上和历游你访问网页没什么不同。当爬虫和人的行为没什么不同的时候网站根本就分不清你是用爬虫访问还是人为访问了。说到底,当访问频率太快的时候根本就不是人的行为了。
用爬虫来缩短自己获得目标数据的时间,这是十分正常的事。但是如果自己的爬虫拖垮别人的网站,这是不道德的。
爬虫说到底只是一个工具,就像是一把刀。好坏取决于使用者,而不在于工具本身。
不商用就不违法。网络爬虫在大多数情况中都不违法,其实我们生活中几乎每天都在爬虫应用,如百度,你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外,如百度知道、百科等),所以网络爬虫作为一门技术,技术本身是不违法的,且在大多数情况下你都可以放心大胆的使用爬虫技术。当采集的站点有声明扒唤滑禁止爬虫采集或者转载商业化时,是违法的。
robots.txt文件是一个文本文件,使用任何一个常见的文本编辑器,比如Windows系春腊统自带的Notepad,就可以创建和编辑它。robots.txt是一个协议,而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛链衡程序在服务器上什么文件是可以被查看的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)