大数据技术有哪些？_服务器

大数据技术的体系庞大且复杂，基础的技术包含数据的采集、数据预处理、分布式存储、数据库、数据仓库、机器学习、并行计算、可视化等。
1、数据采集与预处理：FlumeNG实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据；Zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，提供数据同步服务。
2、数据存储：Hadoop作为一个开源的框架，专为离线和大规模数据分析而设计，HDFS作为其核心的存储引擎，已被广泛用于数据存储。HBase，是一个分布式的、面向列的开源数据库，可以认为是hdfs的封装，本质是数据存储、NoSQL数据库。
3、数据清洗：MapReduce作为Hadoop的查询引擎，用于大规模数据集的并行计算。
4、数据查询分析：Hive的核心工作就是把SQL语句翻译成MR程序，可以将结构化的数据映射为一张数据库表，并提供HQL(HiveSQL)查询功能。Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
5、数据可视化：对接一些BI平台，将分析得到的数据进行可视化，用于指导决策服务。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/13055420.html

大数据技术有哪些？

发表评论

评论列表（0条）