如何在hadoop上安装nutch

如何在hadoop上安装nutch,第1张

安装和配置nutch

到用户主目录:

cd ~

建立文件夹:

mkdir nutch

将文件拷贝到~/hadoop/nutch目录,解压缩:

tar-zxvf apache-nutch-1.5-bin.tar.gz

如果没用权限,可以使用chmod和chown授权

验证一下,执行

bin/nutch

2.3安装和配置solr

到用户主目录:

cd ~

进入hadoop目录,拷贝apache-solr-3.6.0.tgz,解压缩:

tar-zxvf apache-solr-3.6.0.tgz

1)拷贝[solr_home]/dist/apache-solr-3.6.0.war的文件到tomcat/webapps目录下,并且改名solr.war

2)将[solr_home]\example\下的solr目录拷贝到任意位置,我是或迟放在:~/tomcat7/solr下

3)在tomcat目录下的conf\Catalina\localhost目录中(如果没有则手工创建该目录)创建solr.xml文件迅枯,文件内容如下:

<Context docBase="[tomat_home]/webapps/solr.war" debug="0" crossContext="true" >

<Environment name="solr/home" type="java.lang.String" value="[tomcat_home]/solr" override="true" />

</Context>

4)修改tomcat的server.xml文件,找到<Connector port="8080" … 项(假设tomcat监听8080端口),添加编码方式,修改后如下<Connector port="8080" URIEncoding="UTF-8"

5)启动tomcat,输入,出现欢迎界面则表示配置成功

2.4配置1KAnalyzer到solr

拷贝IKAnalyzer2012.jar到webapps中的solr的lib目录下

配置项目中文分词:

编辑[tomat_home]/solr/conf/schema.xml,在<Types>下添加以下内容:

?

<!--add 1kanalyzer configuration-->

<fieldType name="text"class="solr.TextField">

<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>

<analyzer type="index">

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>

<filter class="solr.StopFilterFactory"

ignoreCase="true"words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.LowerCaseFilterFactory"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>

</analyzer>

<analyzer type="query">

<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>

<filter class="solr.StopFilterFactory"

ignoreCase="true"words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="衫昌李0"

splitOnCaseChange="1"/>

<filter class="solr.LowerCaseFilterFactory"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>

</analyzer>

</fieldType>

然后在<fields>下添加:

?

<field name="name1"type="text" indexed="true" stored="true"required="true" />

重新启动tomcat,进入

admin/analysis.jsp

输入“中华人民共和国”,点击analyze,得到结果如下:

1)确保已经安装好了JDK,建议使用IBM SDK version 1.4.2或更高版本,Sun JDK version 1.4.2或更高版本。

(2)下载Eclipse并解压安装,Eclipse可以使用Eclipse3.1或者Eclipse3.2。

(3)下载WTP插件。WTP有两个常用的版本,WTP0.7和WTP1.0,WTP0.7支持Eclipse3.1,而WTP1.0支持罩仿枝Eclipse3.2。感觉Eclipse3.1+WTP0.7比较稳定,建议使用这个版本。

安装WTP需大拆要先安装另外一些插件:

(1)EMF SDK:emf-sdo-xsd-SDK-2.1.0.zip。

(2)GEF SDK:GEF-SDK-3.1.zip。

(3)Java EMF Model Runtime:JEM-SDK-1.1.zip。

当上面这些插件都安装后才安装WTP,WTP的下载文件是WTP-all-0.7.zip或者是WTP-all-1.0.zip。

这些插件的下载地址是:http://www.eclipse.org/webtools/,这个页面列出了 0.7 WTP 的先决安装插件。物敏

nutch没有安装版的吧,卸载就是删除文件宽迹吵,windows下装了cygwin的吧,这个应该有响应的卸载选项,jdk这东西就不用卸慎侍载了,其他程序可能要用,你说搭建环境失败州销,要把具体问题写出来才好解决。


欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/tougao/8273862.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-14
下一篇 2023-04-14

发表评论

登录后才能评论

评论列表(0条)

保存