006.CM大数据平台实践之集群扩容

webos • 2023-6-19 • 服务器 • 阅读 24

在我看来，一个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能。
hadoop、spark、storm 无论哪一个，单独不可能完成上面的所有功能。
hadoop+spark+hive是一个很不错的选择hadoop的HDFS毋庸置疑是分布式文件系统的解决方案，解决存储问题；hadoop mapreduce、hive、spark application、sparkSQL解决的是离线计算和即席查询的问题；spark streaming解决的是实时计算问题；另外，还需要HBase或者Redis等NOSQL技术来解决实时查询的问题；
除了这些，大数据平台中必不可少的需要任务调度系统和数据交换工具；
任务调度系统解决所有大数据平台中的任务调度与监控；数据交换工具解决其他数据源与HDFS之间的数据传输，比如：数据库到HDFS、HDFS到数据库等等。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13201107.html

实时的是离线数据问题

打赏

微信扫一扫

支付宝扫一扫

webos 一级用户组

0 0

购买云计算服务器哪家更优惠些?

上一篇 2023-06-19

云计算服务器哪里购买

下一篇 2023-06-19

发表评论

登录后才能评论

006.CM大数据平台实践之集群扩容

发表评论

评论列表（0条）