大数据是指通常每天都在不断增长的庞大数据集。 例如,Facebook 的用户数量每天都在不断增长,每个用户的数据也随着他们浏览 Facebook 的增长而增长。
此类数据可以是结构化的,也可以是非结构化的。 数据很大,因此在复杂性和速度上也更大,即它既快速又复杂。 因此,大数据由 3V 标识,即体积、多样性和速度。
大数据帮助我们分析数据并对其进行各种 *** 作,以优化成本和时间。 当我们将这些大数据与强大的框架结合使用时,就可以更轻松地实时找到确切的(解决方案)问题或问题。
For English translation blog - Big Data frameworks
顶级大数据框架
1. HadoopHadoop是一个基于Java的开源大数据框架,提供批处理和数据存储服务。 它有一个巨大的架构,由许多层组成,如用于数据处理的 HDFS 和 YARN。
2. Apache Spark
Spark 是一个批处理框架,具有增强的数据流处理。 它促进了内存计算,使同样的超快。 大数据框架与 Hadoop 集成,可以作为独立的集群工具。
3. MapReduce
MapReduce 是一个大数据搜索引擎,是 Hadoop 框架的一部分。 最初,它只是一种并行处理大量数据的算法。 现在,它不仅如此,还分 3 个阶段工作:
- Map
- Shuffle
- Reduce
4. Apache Hive
Facebook 将 Apache Hive 设计为 ETL 和数据仓库工具。 它建立在 Hadoop 生态系统的 HDFS 平台之上。 Hive 由 3 个组件组成,即客户端、服务和存储以及计算。
Apache Hive 有其用于查询的声明性语言,即 HiveQL,它非常适合数据密集型作业。 JP Morgan、Facebook、Accenture 和 PayPal 等公司都使用 Hive。
5. FlinkFlink 基于 Kappa 架构,是一个开源的单流处理引擎。 它有一个处理器将输入视为流,流引擎实时处理数据。 批处理是流式处理的一个特例。
6. Samza通过 Samza,您可以构建可处理来自各种来源的实时数据的有状态应用程序。 它旨在解决批处理延迟(大周转时间)问题。
7. StormStorm 处理巨大的实时数据流。 它旨在处理低延迟并且具有高度可扩展性。 Storm 可以在停机后更快地恢复。 它是 Twitter 的第一个大数据框架,之后也被雅虎、Yelp 和阿里巴巴等巨头采用。
8. Impala在 C++ 和 Java 中,Impala 是一个开源的大规模并行处理查询引擎,可以在单个 Hadoop 集群中处理海量数据。
就像 Hive 有自己的查询语言一样,Impala 也有! 它具有低延迟和高性能,并且在性能和可用性方面提供了接近 RDBMS 的体验。 Impala 就像两全其美:SQL 等查询语言的性能和支持以及 Hadoop 的灵活性和可扩展性。
结论
这完成了我们的 10 个最佳大数据框架列表。 但是,还有许多其他值得一提的大数据框架我们没有在本文中介绍,但需要提及:
- 苍鹭,
- 苦杜,
- 打开精炼,
- 卡格尔,
- Cloudera 和
- 五角星
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)