docker搭建hadoop集群_python

背景

python处理大数据性能上不足，所以想着用pyspark来处理，但是前提是要有一个hadoop的分布式环境，没有现成的，那就搭一个。

环境

mac: 10.15.6
docker: 20.10.6
hadoop: 3.2.3
jdk: 1.8
scala: 3.1.1
spark: 3.0.3

项目说明

在docker中集成 hadoop，spark，scala， habse（暂未更新），目前已经完成可以启动1台master，3台slave的hadoop分布式环境，接下来会继续更新安装hbase等；
搭建好的环境会被pyspark使用，当然这种方式只是在一台宿主机上搭建，只是跟伪分布式有点不同。

项目地址：https://github.com/DM-NUM/hadoop_cluster.git
可以拉下来直接用，文档有说明；项目会持续更新

所有的配置全部写入Dockerflie 和 entrypoint.sh，省去了因配置不当而导致启动失败的问题，踩过了不少坑了，修改过很多个版本，现在跑wordcount测试没问题了。

欢迎分享，转载请注明来源：内存溢出

docker搭建hadoop集群