准备数据
启动hadoop的进程。
/export/server/hadoop/sbin/start-all.sh
上传文件到hdfs
cd /root
touch words.txt
vim /root/words.txt
hello dog hello cat hello dog
目录如果不存在可以创建
hadoop fs -mkdir -p /pydata/input
hadoop fs -put -f /root/words.txt /pydata/input/words.txt
结束后可以删除测试文件夹
hadoop fs -rm -r /pydata
wordcount核心代码
>>> rdd1=sc.textFile("hdfs://node1:8020/pydata/input/words.txt")
>>> rdd2=rdd1.flatMap( lambda line : line.split(" ") )
>>> rdd3=rdd2.map(lambda word : (word,1) )
>>> rdd4=rdd3.reduceByKey(lambda x,y:x+y )
>>> rdd4.saveAsTextFile("hdfs://node1:8020/pydata/output1")
监控页面:进4040->node1:4040
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)