索引与查询这么难搞的东西, 你都搞定了
那这爬虫就太简单了吧 哪怕用PHP都可以写得出来
同时推荐 curl 是个不错的东东
用Lucene搞索引和查询很方便简单啊,数据库里面取出数据,封装成Lucene doc,用IKAnalyzer分词,建立索引啥的都给Lucene了。现在就是要从外网爬我需要的信息,按照我本地数据的格式存入数据库了 刚上手
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
----这样看来,网络蜘蛛就是一个爬行程序,一个抓取网页的程序。
功能是从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
电子书|自己动手写网络爬虫,免费下载
muwz
《自己动手写网络爬虫》是2010年10月1日由清华大学出版社出版的图书,作者是罗刚。本书在介绍基本原理的同时,注重辅以具体代码实现来帮助读者加深理解。
以上就是关于要爬网页,选哪个爬虫好NutchHeritrix全部的内容,包括:要爬网页,选哪个爬虫好NutchHeritrix、网络爬虫有哪些功能、自己动手写网络爬虫的作品目录等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)