到用户主目录:
cd ~
建立文件夹:
mkdir nutch
将文件拷贝到~/hadoop/nutch目录,解压缩:
tar-zxvf apache-nutch-1.5-bin.tar.gz
如果没用权限,可以使用chmod和chown授权
验证一下,执行
bin/nutch
2.3安装和配置solr
到用户主目录:
cd ~
进入hadoop目录,拷贝apache-solr-3.6.0.tgz,解压缩:
tar-zxvf apache-solr-3.6.0.tgz
1)拷贝[solr_home]/dist/apache-solr-3.6.0.war的文件到tomcat/webapps目录下,并且改名solr.war
2)将[solr_home]\example\下的solr目录拷贝到任意位置,我是或迟放在:~/tomcat7/solr下
3)在tomcat目录下的conf\Catalina\localhost目录中(如果没有则手工创建该目录)创建solr.xml文件迅枯,文件内容如下:
<Context docBase="[tomat_home]/webapps/solr.war" debug="0" crossContext="true" >
<Environment name="solr/home" type="java.lang.String" value="[tomcat_home]/solr" override="true" />
</Context>
4)修改tomcat的server.xml文件,找到<Connector port="8080" … 项(假设tomcat监听8080端口),添加编码方式,修改后如下<Connector port="8080" URIEncoding="UTF-8"
5)启动tomcat,输入,出现欢迎界面则表示配置成功
2.4配置1KAnalyzer到solr
拷贝IKAnalyzer2012.jar到webapps中的solr的lib目录下
配置项目中文分词:
编辑[tomat_home]/solr/conf/schema.xml,在<Types>下添加以下内容:
?
<!--add 1kanalyzer configuration-->
<fieldType name="text"class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory"
ignoreCase="true"words="stopwords.txt"/>
<filter class="solr.WordDelimiterFilterFactory"
generateWordParts="1"
generateNumberParts="1"
catenateWords="1"
catenateNumbers="1"
catenateAll="衫昌李0"
splitOnCaseChange="1"/>
<filter class="solr.LowerCaseFilterFactory"/>
<filter class="solr.EnglishPorterFilterFactory"
protected="protwords.txt"/>
<filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
</analyzer>
</fieldType>
然后在<fields>下添加:
?
<field name="name1"type="text" indexed="true" stored="true"required="true" />
重新启动tomcat,进入
admin/analysis.jsp
输入“中华人民共和国”,点击analyze,得到结果如下:
1)确保已经安装好了JDK,建议使用IBM SDK version 1.4.2或更高版本,Sun JDK version 1.4.2或更高版本。(2)下载Eclipse并解压安装,Eclipse可以使用Eclipse3.1或者Eclipse3.2。
(3)下载WTP插件。WTP有两个常用的版本,WTP0.7和WTP1.0,WTP0.7支持Eclipse3.1,而WTP1.0支持罩仿枝Eclipse3.2。感觉Eclipse3.1+WTP0.7比较稳定,建议使用这个版本。
安装WTP需大拆要先安装另外一些插件:
(1)EMF SDK:emf-sdo-xsd-SDK-2.1.0.zip。
(2)GEF SDK:GEF-SDK-3.1.zip。
(3)Java EMF Model Runtime:JEM-SDK-1.1.zip。
当上面这些插件都安装后才安装WTP,WTP的下载文件是WTP-all-0.7.zip或者是WTP-all-1.0.zip。
这些插件的下载地址是:http://www.eclipse.org/webtools/,这个页面列出了 0.7 WTP 的先决安装插件。物敏
nutch没有安装版的吧,卸载就是删除文件宽迹吵,windows下装了cygwin的吧,这个应该有响应的卸载选项,jdk这东西就不用卸慎侍载了,其他程序可能要用,你说搭建环境失败州销,要把具体问题写出来才好解决。欢迎分享,转载请注明来源:内存溢出
评论列表(0条)