1,利用eclipse编写Map-Reduce方法,一般引入Hadoop-core-1.1.2.jar。注意这里eclipse里没有安装hadoop的插件,只是引入其匝包,该eclipse可以安装在windows或者linux中,如果是在windows中安装的,且在其虚拟机安装的linux,可以通过共享文件夹来实现传递。
2,编写要测试的数据,如命名为tempdata
3,利用eclipse的export来打包已编写好的,在利用eclipse打包jar的时候,只需要选择src即可,一般只打包程序文件,并且需要选择main class,将该jar放到如/home/hadoop/docum/Test.jar
4,将要分析的数据传到hdfs上
hadoop fs -put /home/hadoop/myhadoopdata/tempdata ./testdata/
5,开始执行jar
hadoop jar /home/hadoop/Docum/Test.jar /user/hadoop/temperatur output
这是一种利用jar来运行的。
这里Test.jar在本地,jar没必要上传到hdfs上
参数依次为
本地mapred程序,hdfs的测试数据即输入文件,输出文件夹。
hadoop jar /home/hadoop/Temperature.jar inputpath outputpath
注意:这里可以不需要指定类的名称,而输出的文件夹outputpath不能事先已经存在。
第二种:伪分布式下运行WordCount
1,拷贝源代码
cp /usr/local/hadoop1.1.2/src/examples/org/apache/hadoop/examples/WordCount.java ~/ygch/hadoop/
2,编译源代码,放到指定的文件夹如这里的class下
javac
-classpath /usr/local/hadoop1.1.2/hadoop-core1.1.2.jar:
/usr/local/hadoop1.1.2/lib/commons-cli-1.2.jarWordCount.java -d class,
利用-classpath选项指定WordCount需要的jar包。hadoop目录下存放jar包的位置有两个:根目录和/lib目录。然后我们可以通过jar tvf *.jar查看jar包内容,进而可以知道WordCount需要的是哪几个jar包。
-d选项指定生成的类文件的位置,在编译的时候这个选项必须重新指定,不能让class文件生成在当前目录下。
3,将class文件打包成一个jar包:
jar cvf WordCount.jar -C classes/ .
注意不要忘记最后有一个点.,这个点点必须和前面要有空格,否则jar命令报错。该点指示jar命令的文件列表,表示指定目录下的所有文件。
4,生成input文件:
由于运行hadoop时指定的输入文件只能是HDFS文件系统中的文件,所以我们必须将要进行wordcount的文件从本地文件系统拷贝到HDFS文件系统中。
hadoop fs -mkdir input
hadoop fs -put testfile input
5. 运行jar包:
hadoop jar WordCount.jar org.apache.hadoop.examples.WordCount input output
在运行命令中由于WordCount.java中包括package信息,所以我们在指定类时要包含package的完整信息。
6. 查看结果
在hadoop程序运行完后,结果会放在output目录下,该目录是自动生成的。查看命令为:
hadoop fs -cat output/part-r-00000
使用-cat或者-text都行
第三种Hadoop直接执行Class文件
可以事先在eclipse中编译好class,然后直接利用hadoop来执行该class文件
在Hadoop集群中运行作业的时候,必须要将程序打包为jar文件。
在Hadoop本地和伪分布中可以运行jar文件,也可以直接运行class文件,注意直接运行class文件,必须是没有map和reducer的,直接获取FileSystem来进行 *** 作。
如果类有包名,拷贝的时候也要将其包名拷贝,然后
您好,对于Hadoop运行子程序失败的问题,其中一个可能的原因是Pig编译器本身存在问题或者没有正确安装。在以下任何一种情况下,Hadoop运行子程序失败时,建议您先检查Pig编译器的版本和安装是否正确。以下是具体步骤:
1. 确认Pig编译器已正确安装并设置环境变量为全局变量。
2. 确认您正在使用支持您正在运行的Hadoop版本的Pig编译器,可以通过以下命令查看此信息:
```
pig --version
```
3. 如果使用的是旧版本的Pig编译器,请尝试更新为最新版本,确保它与当前正在使用的Hadoop版本兼容。
4. 确认Hadoop集群的每个节点上都安装了Pig编译器。
如果以上步骤无法解决问题,您可以通过查看Pig日志文件来获取更多信息。常见的问题包括输入/输出格式错误、权限问题、网络故障等。
希望这些信息对您有所帮助,如果您需要更具体的建议,请告诉我您的具体问题和环境。
当Hadoop运行子程序时,可能会出现“Picked up _JAVA_OPTIONS: -XmxXXXm -XmsXXXm -XX:+UseSerialGC”的警告信息,同时子程序运行失败并提示“Error: Could not find or load main class pimainclass”的错误信息。这种情况通常是由于环境变量_JAVA_OPTIONS引起的。这个环境变量可以用来设置JVM的启动参数,然而如果_JAVA_OPTIONS中的参数设置不正确,就会导致错误的发生。解决方法如下:检查_JAVA_OPTIONS环境变量是否正确设置。可以使用以下命令来查看_JAVA_OPTIONS的值:plaintextCopy codeecho $JAVA_OPTIONS
如果_JAVA_OPTIONS中设置了不正确的参数,可以将其设置为正确的值,例如:plaintextCopy codeexport JAVA_OPTIONS="-Xmx1024m -Xms256m"
将_JAVA_OPTIONS环境变量设置为一个空值。可以使用以下命令来将_JAVA_OPTIONS设置为空值:plaintextCopy codeexport JAVA_OPTIONS=""
这将清除_JAVA_OPTIONS中设置的参数,以便Hadoop子程序可以顺利运行。
请注意,如果_JAVA_OPTIONS环境变量在其他程序中被使用,可能需要更加谨慎地修改它的值。建议在修改_JAVA_OPTIONS之前备份原始值,以便在需要时可以恢复到原始状态。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)