网站小偷程序是怎么做出来的啊？_软件运维

楼上的胡扯！！~~小偷程序运用xml中的xmlhttp组件提供的强大功能，把远程网站上的数据（图片，网页及其他文件）抓取到本地，经过各种处理后显示到页面上或者存储进数据库的一类程序。你可以通过这种小偷程序，完成过去一些似乎完全不可能实现的任务，比如说把某个站的页面偷梁换柱后变成自己的页面，或者把某个站的一些数据（文章，图片）保存到本地数据库中加以利用关于采集器的制作，其实并不难，就是远程打开要采集的网页，然后用正则表达式将需要的内容匹配出来，只要稍微有点正则表达式的基础，都能做出自己的采集器来的。

所谓小偷程序

是指用XMLHTTP实现获取其他网站的HTML代码

具体的你可以上网搜一下XMLHTTP教程

比如我做一个页面获取sina的首页代码，每次打开这个页面都从新获取，所以就随着sina的更新而更新

它的弊端就是速度比较慢

偷网页需要指定深度级别。

如果你只偷了一级页面，那页面上的链接所指向的内容很有可能是原站的。点了以后就回原站了。

一般情况下，会进行三级深度的扫描。

扫描完一个页面后，将页面上的所有图片，JS等内容下载到本地指定的路径里，将扫描完的页面代码中的资源路径进行替换。

然后进入二级页面，继续上一步的 *** 作。不同的是，将页面内容存下来后，将上级页面中的链接指向该页面。

这样就完整了。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/11211412.html

网站小偷程序是怎么做出来的啊？

发表评论

评论列表（0条）