视频网站怎么防止爬虫_服务器

分辨爬虫的善恶。
网络爬虫分为两种，一种是善意爬虫，例如百度、Google等搜索引擎的爬虫，另一种是恶意爬虫，它可能会利用网站漏洞，非法窃取网站数据，或者爬取网站内容，占用服务器资源。恶意爬虫的行为是我们所深恶痛觉的，必须想尽办法予以过滤和阻断。网站或者某一些网页不想被诸如百度、Googl等善意爬虫爬取时，我们也希望能采取一些措施。
如何防止网站被爬虫？
针对善意爬虫，几乎所有的搜索引擎爬虫，都会遵守robots协议，只要我们在网站的根目录下存放一个ASCII编码的文本文件，告诉搜索引擎哪些页面不能爬取，搜索引擎的蜘蛛便会遵照协议，不爬取指定页面的内容。
但是robots并不是一个规范，而是一种君子协议，它只对善意爬虫有效，并不能防止恶意爬虫。
针对恶意爬虫，我们可以采取以下措施来识别和阻断它。

1基于程序本身去防止爬取：作为爬虫程序，爬取行为是对页面的源文件爬取，如爬取静态页面的html代码，可以用jquery去模仿写html，这种方法伪装的页面就很难被爬取了，不过这种方法对程序员的要求很高。
2基于iptables和shell脚本：可以对nginx的accesslog进行策略定义，例如定义在1分钟内并发连接数超过30个ip为非法，如ip不在白名单内，则加入iptables策略封掉，当然这种的缺点是会有“误伤”，策略细粒度越小就会有更多的“误伤”，细粒度大就会使效果变差，另外还有类似的第三方工具fail2ban，利用做filter和actor对一些有危害的 *** 作记录或是封ip。但是对于某个特定的爬虫地址（例如网易、有道）的爬取行为拒绝也很难准确做到，因为你无法准确知道这些特定的爬虫ip地址（例如网易、有道），以下是我的定位方式，不过发现由于ip库不准确造成错误的屏蔽。注意：建议不要用封ip条目的方式,iptables列表长度是65535时就会封满，服务器也就会死机。

1IP必须需要，，ADSL。如果有条件，其实可以跟机房多申请外网IP。
2在有外网IP的机器上，部署代理服务器。
3你的程序，使用轮训替换代理服务器来访问想要采集的网站。
好处：
1程序逻辑变化小，只需要代理功能。
2根据对方网站屏蔽规则不同，你只需要添加更多的代理就行了。
3就算具体IP被屏蔽了，你可以直接把代理服务器下线就OK，程序逻辑不需要变化。
方法2
有小部分网站的防范措施比较弱，可以伪装下IP，修改X-Forwarded-for（貌似这么拼。。。）即可绕过。
大部分网站么，如果要频繁抓取，一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP，通过默认网关切换来实现IP切换，比>实际上，在网络应用中，Web服务器通常不会直接将自己的数据提供给用户。通常，它们会将数据存储在数据库中，并提供一个API(>

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/10221294.html

视频网站怎么防止爬虫

发表评论

评论列表（0条）