网站如何防止信息被采集？_软件运维

防止网站被人采集的方法

2009-08-23

信息来源：赤峰信息网

视力保护色：

1、网站内容采用多套模板，随机模板派扒，给采集程序设置过高的门槛但这招对整站采集器不起作用。

2、网站内容里随机插入本网站的版权，如域名，网站名称，网站主人，而这些标识可以分开来写，或中间加短横-，或换空掘成全角字符，防止被自动过滤。

3、给我们网站里的图片打上自己的logo标识，比如在图片的右下角打上斗羡核网站的名称+域名采集者把我们的网站的图片采集过去，不可能一张一张图片都ps所以，他们采集我们的网站内容，等于变相地帮助我们宣传网站。

4、这招比较损。如果对方采集的程序几乎和你的网站同步，那么你可以采用这招了。先在我们的网站里添加几篇标题以及文章开头结尾都很正规的内容，而在文章内容中间偷偷插入非法关键字，有多非法就要多非法，多插入几个，隐蔽工作做的也要到位，然后在我们的网站robots.txt文件里禁止搜索引擎抓取这几篇文章。等对方采集了这几篇文章后，我们立即删除自己网站上的这些文章，然后向采集者服务器当地网警举报。

三种实用的方法。

1、文章头尾加随机广告..

2、文章列表加随机不同的链接标签，比如<a href="",<a class="dds" href=''

3、正文头尾或列表头尾添加

第一种防采集方法:

下面我详细说一下这三种方法的实际应用:

如果全加上，绝对可以有效的防采集,单独加一种就可以让采集者头疼。。

完全可以对付通用的CMS采集程序。。

在采集时,通常都是指定头尾特征从哪到哪过滤.这里我们先讲第一种方法,文章头尾加随机广告..

随机广告是不固定的。

比如你的文章内容是"欢迎访问阿里西西",那么随机广告的加入方法：

随机明蔽广告1欢迎访问阿里西西随机广告2

<激郑州/div>

注:随机广告1和随机广告2每篇文章只要随机显示一个就可以了.

第二种防采集方法:

其它标题或内容...

<div id="xxx_文章ID">

随机广告1欢迎访问阿里西西随机广告2

<--</div>-->

</div>

<--</div>-->

这是第二种防采集方法。在文章正文页面插入重复特征头尾代码的注释。

当然，这个可以用正则去掉，但足于对付通用的采集系统。。

第三种防采集丛历方法:

第三种加在文章的列表，随便链接样式:

原理是让采集的人无法抓到列表链接规律,无法批量进行采集.

如果三种方法全部加上,我想一定能让想采集的人头疼半天而放弃的..

如果你还问,如何防止别人复制采集呢?要做到这一点容易,把你的网站的网线拔了,自己给自己看就好了.哈哈.

防止自己网页毁兆的内容被采集有非常多的方法

方法一：内容配图加水印

当你的文章中含有图片时候，可以给图片打上水印，这样就留下了你的信息，对方要采集或者复制您文章后，不可能一张一张的去处水印，这样也算是变相地帮助我们宣传网站。

方法二：内容随机穿插版权信息

在不影响用户阅读体验的情况下，尽量在内容段落之间随机插入一些之间的信息，比如：网站名字，链接，版权作者，QQ等，这样的话，就算对方使用采集器过滤也不可能每篇文章都能过滤得掉。

方法三：作品结尾留作者信息及链接

不过这个方法作用不是很大，因为很多人复制或转载内容时直接去掉了，可以参考方法二，适当在段落结尾处不影响阅读的情况下下随机插入较好。

方法四：主动推送网址给百度收录

百度给出的链接提交方式有以下三种：

1、主动推送：最为快速的提交方式，推荐您将站点当天新产出链接立即通过此方式推送给百度，以保证新链接可以及时被百度收录。

2、sitemap：您可以定期将网站链接放到sitemap中，然后将sitemap提交给百度。百度会周期性的抓取检查您提交的sitemap，对其中的链接进行处理，但收录速度慢于主动推送。

3、手工提交：一次性提交晌姿链接给百度，可以使用此种方式。

方法五：利用JS加密网页内容

这个方法是在个别网站上看到的，非常暴力纤谨租。缺点：搜索引擎爬虫无法识别收录和通杀所有采集器，针对极度讨厌搜索引擎和采集器的网站的站长使用，量力而行，您能豁出去了，别人也就没办法采集你了。

方法六：网站随机采用不同模版

分析：因为采集器是根据网页结构来定位所需要的内容，一旦先后两次模版更换，采集规则就失效，不错。而且这样对搜索引擎爬虫没影响。

适用网站：动态网站，并且不考虑用户体验。

采集器会怎么做：一个网站模版不可能多于10个吧，每个模版弄一个规则就行了，不同模版采用不同采集规则。如果多于10个模版了，既然目标网站都那么费劲的更换模版，成全他，撤。

方法七：利用脚本语言做分页（隐藏分页）

分析：还是那句，搜索引擎爬虫不会针对各种网站的隐藏分页进行分析，这影响搜索引擎对其收录。但是，采集者在编写采集规则时，要分析目标网页代码，懂点脚本知识的人，就会知道分页的真实链接地址。

适用网站：对搜索引擎依赖度不高的网站，还有，采集你的人不懂脚本知识。

采集器会怎么做：应该说采集者会怎么做，他反正都要分析你的网页代码，顺便分析你的分页脚本，花不了多少额外时间。

方法八：限制IP地址单位时间的访问次数

分析：没有哪个常人一秒钟内能访问相同网站5次，除非是程序访问，而有这种喜好的，就剩下搜索引擎爬虫和讨厌的采集器了。

弊端：一刀切，这同样会阻止搜索引擎对网站的收录。

适用网站：不太依靠搜索引擎的网站。

采集器会怎么做：减少单位时间的访问次数，减低采集效率。

希望可以帮到你！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12484188.html

网站如何防止信息被采集？

发表评论

评论列表（0条）