要爬网页，选哪个爬虫好NutchHeritrix_CMS教程

索引与查询这么难搞的东西, 你都搞定了

那这爬虫就太简单了吧哪怕用PHP都可以写得出来

同时推荐 curl 是个不错的东东

用Lucene搞索引和查询很方便简单啊，数据库里面取出数据，封装成Lucene doc，用IKAnalyzer分词，建立索引啥的都给Lucene了。现在就是要从外网爬我需要的信息，按照我本地数据的格式存入数据库了刚上手

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

----这样看来，网络蜘蛛就是一个爬行程序，一个抓取网页的程序。

功能是从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

电子书|自己动手写网络爬虫，免费下载

muwz

《自己动手写网络爬虫》是2010年10月1日由清华大学出版社出版的图书，作者是罗刚。本书在介绍基本原理的同时，注重辅以具体代码实现来帮助读者加深理解。

以上就是关于要爬网页，选哪个爬虫好NutchHeritrix全部的内容，包括:要爬网页，选哪个爬虫好NutchHeritrix、网络爬虫有哪些功能、自己动手写网络爬虫的作品目录等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

要爬网页，选哪个爬虫好NutchHeritrix