docker搭建hadoop集群

docker搭建hadoop集群,第1张

背景

python处理大数据性能上不足,所以想着用pyspark来处理,但是前提是要有一个hadoop的分布式环境,没有现成的,那就搭一个。


环境

mac: 10.15.6
docker: 20.10.6
hadoop: 3.2.3
jdk: 1.8
scala: 3.1.1
spark: 3.0.3

项目说明

在docker中集成 hadoop,spark,scala, habse(暂未更新),目前已经完成可以启动1台master,3台slave的hadoop分布式环境,接下来会继续更新安装hbase等;
搭建好的环境会被pyspark使用,当然这种方式只是在一台宿主机上搭建,只是跟伪分布式有点不同。


项目地址:https://github.com/DM-NUM/hadoop_cluster.git
可以拉下来直接用,文档有说明;项目会持续更新

所有的配置全部写入Dockerflie 和 entrypoint.sh,省去了因配置不当而导致启动失败的问题,踩过了不少坑了,修改过很多个版本,现在跑wordcount测试没问题了。


欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/langs/567973.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-09
下一篇 2022-04-09

发表评论

登录后才能评论

评论列表(0条)

保存