lucene – Nutch – 如何通过小补丁爬行?

lucene – Nutch – 如何通过小补丁爬行?,第1张

概述我不能让Nutch用小补丁来抓我.我通过参数-depth 7和-topN 10000的bin / nutch crawl命令启动它.它永远不会结束.仅在我的硬盘空置时结束.我需要做什么: >开始用我的种子爬行 进一步发展的可能性 对外连结. >然后抓取20000页     索引它们. >再抓两个20000     页面,索引它们并合并     第一个指数. >循环步骤3次. 尝试使用wiki中的脚 我不能让Nutch用小补丁来抓我.我通过参数-depth 7和-topN 10000的bin / nutch crawl命令启动它.它永远不会结束.仅在我的硬盘空置时结束.我需要做什么:

>开始用我的种子爬行
进一步发展的可能性
对外连结.
>然后抓取20000页
    索引它们.
>再抓两个20000
    页面,索引它们并合并
    第一个指数.
>循环步骤3次.

尝试使用wiki中的脚本,但我发现的所有脚本都没有进一步发展.如果我再次运行它们,它们会从头开始做.在脚本结束时,我开始抓取时拥有相同的索引.但是,我需要继续爬行.

解决方法 您必须了解Nutch生成/获取/更新周期.

循环的生成步骤将从爬网数据库中获取URL(您可以使用topN参数设置最大数量)并生成新段.最初,爬网数据库仅包含种子URL.

获取步骤执行实际爬网.页面的实际内容存储在段中.

最后,更新步骤使用fetch的结果更新爬网数据库(添加新网址,设置网址的最后获取时间,设置网址获取的http状态代码等).

爬网工具将运行此循环n次,可使用depth参数进行配置.

完成所有周期后,爬网工具将删除启动它的文件夹中的所有索引,并从所有段和爬网db创建一个新索引.

因此,为了满足您的要求,您可能不应该使用爬网工具,而是调用单独的Nutch命令,这是爬网工具在场景后面执行的 *** 作.通过这种方式,您将能够控制爬网次数,并确保索引始终合并,而不是在每次迭代时删除.

我建议您从脚本定义here开始,并根据您的需要进行更改.

总结

以上是内存溢出为你收集整理的lucene – Nutch – 如何通过小补丁爬行?全部内容,希望文章能够帮你解决lucene – Nutch – 如何通过小补丁爬行?所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/web/1085388.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-27
下一篇 2022-05-27

发表评论

登录后才能评论

评论列表(0条)

保存