网站小偷程序是怎么做出来的啊?

网站小偷程序是怎么做出来的啊?,第1张

楼上的胡扯!!~~小偷程序运用xml中的xmlhttp组件提供的强大功能,把远程网站上的数据(图片,网页及其他文件)抓取到本地,经过各种处理后显示到页面上或者存储进数据库的一类程序。你可以通过这种小偷程序,完成过去一些似乎完全不可能实现的任务,比如说把某个站的页面偷梁换柱后变成自己的页面,或者把某个站的一些数据(文章,图片)保存到本地数据库中加以利用 关于采集器的制作,其实并不难,就是远程打开要采集的网页,然后用正则表达式将需要的内容匹配出来,只要稍微有点正则表达式的基础,都能做出自己的采集器来的。

所谓小偷程序

是指用XMLHTTP实现获取其他网站的HTML代码

具体的你可以上网搜一下XMLHTTP教程

比如我做一个页面获取sina的首页代码,每次打开这个页面都从新获取,所以就随着sina的更新而更新

它的弊端就是速度比较慢

偷网页需要指定深度级别。

如果你只偷了一级页面,那页面上的链接所指向的内容很有可能是原站的。点了以后就回原站了。

一般情况下,会进行三级深度的扫描。

扫描完一个页面后,将页面上的所有图片,JS等内容下载到本地指定的路径里,将扫描完的页面代码中的资源路径进行替换。

然后进入二级页面,继续上一步的 *** 作。不同的是,将页面内容存下来后,将上级页面中的链接指向该页面。

这样就完整了。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/yw/11211412.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-05-14
下一篇 2023-05-14

发表评论

登录后才能评论

评论列表(0条)

保存