python处理大数据性能上不足,所以想着用pyspark来处理,但是前提是要有一个hadoop的分布式环境,没有现成的,那就搭一个。
mac: 10.15.6
docker: 20.10.6
hadoop: 3.2.3
jdk: 1.8
scala: 3.1.1
spark: 3.0.3
在docker中集成 hadoop,spark,scala, habse(暂未更新),目前已经完成可以启动1台master,3台slave的hadoop分布式环境,接下来会继续更新安装hbase等;
搭建好的环境会被pyspark使用,当然这种方式只是在一台宿主机上搭建,只是跟伪分布式有点不同。
项目地址:https://github.com/DM-NUM/hadoop_cluster.git
可以拉下来直接用,文档有说明;项目会持续更新
所有的配置全部写入Dockerflie 和 entrypoint.sh,省去了因配置不当而导致启动失败的问题,踩过了不少坑了,修改过很多个版本,现在跑wordcount测试没问题了。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)