如何在hadoop上安装nutch_教程

安装和配置nutch

到用户主目录：

cd ~

建立文件夹：

mkdir nutch

将文件拷贝到~/hadoop/nutch目录，解压缩：

tar-zxvf apache-nutch-1.5-bin.tar.gz

如果没用权限，可以使用chmod和chown授权

验证一下，执行

bin/nutch

2.3安装和配置solr

到用户主目录：

cd ~

进入hadoop目录，拷贝apache-solr-3.6.0.tgz，解压缩：

tar-zxvf apache-solr-3.6.0.tgz

1）拷贝[solr_home]/dist/apache-solr-3.6.0.war的文件到tomcat/webapps目录下，并且改名solr.war

2）将[solr_home]\example\下的solr目录拷贝到任意位置，我是或迟放在：～/tomcat7/solr下

3）在tomcat目录下的conf\Catalina\localhost目录中（如果没有则手工创建该目录）创建solr.xml文件迅枯，文件内容如下：

</Context>

4）修改tomcat的server.xml文件，找到<Connector port="8080" … 项（假设tomcat监听8080端口），添加编码方式，修改后如下<Connector port="8080" URIEncoding="UTF-8"

5）启动tomcat，输入，出现欢迎界面则表示配置成功

2.4配置1KAnalyzer到solr

拷贝IKAnalyzer2012.jar到webapps中的solr的lib目录下

配置项目中文分词：

编辑[tomat_home]/solr/conf/schema.xml，在<Types>下添加以下内容：

<filter class="solr.StopFilterFactory"

ignoreCase="true"words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

<filter class="solr.StopFilterFactory"

ignoreCase="true"words="stopwords.txt"/>

<filter class="solr.WordDelimiterFilterFactory"

generateWordParts="1"

generateNumberParts="1"

catenateWords="1"

catenateNumbers="1"

catenateAll="衫昌李0"

splitOnCaseChange="1"/>

<filter class="solr.EnglishPorterFilterFactory"

protected="protwords.txt"/>

</analyzer>

</fieldType>

然后在<fields>下添加：

重新启动tomcat，进入

admin/analysis.jsp

输入“中华人民共和国”，点击analyze，得到结果如下：

1）确保已经安装好了JDK，建议使用IBM SDK version 1.4.2或更高版本，Sun JDK version 1.4.2或更高版本。

（2）下载Eclipse并解压安装，Eclipse可以使用Eclipse3.1或者Eclipse3.2。

（3）下载WTP插件。WTP有两个常用的版本，WTP0.7和WTP1.0，WTP0.7支持Eclipse3.1，而WTP1.0支持罩仿枝Eclipse3.2。感觉Eclipse3.1+WTP0.7比较稳定，建议使用这个版本。

安装WTP需大拆要先安装另外一些插件：

（1）EMF SDK：emf-sdo-xsd-SDK-2.1.0.zip。

（2）GEF SDK：GEF-SDK-3.1.zip。

（3）Java EMF Model Runtime：JEM-SDK-1.1.zip。

当上面这些插件都安装后才安装WTP，WTP的下载文件是WTP-all-0.7.zip或者是WTP-all-1.0.zip。

这些插件的下载地址是：http://www.eclipse.org/webtools/，这个页面列出了 0.7 WTP 的先决安装插件。物敏

nutch没有安装版的吧，卸载就是删除文件宽迹吵，windows下装了cygwin的吧，这个应该有响应的卸载选项，jdk这东西就不用卸慎侍载了，其他程序可能要用，你说搭建环境失败州销，要把具体问题写出来才好解决。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/8273862.html

如何在hadoop上安装nutch

发表评论

评论列表（0条）