大数据专业主要学什么_工具

大数据专业主要学：

1 Java编程技术

Java编程技术是大数据学习的基础，Java是一种强类型语言，拥有极高的跨平台能力，可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等，是大数据工程师最喜欢的编程工具，因此，想学好大数据，掌握Java基础是必不可少的!

2Linux命令

对于大数据开发通常是在Linux环境下进行的，相比Linux *** 作系统，Windows *** 作系统是封闭的 *** 作系统，开源的大数据软件很受限制，因此，想从事大数据开发相关工作，还需掌握Linux基础 *** 作命令。

3 Hadoop

Hadoop是大数据开发的重要框架，其核心是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算，因此，需要重点掌握，除此之外，还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与 *** 作!

4 Hive

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级 *** 作等。

5 Avro与Protobuf

Avro与Protobuf均是数据序列化系统，可以提供丰富的数据结构类型，十分适合做数据存储，还可进行不同语言之间相互通信的数据交换格式，学大数据，需掌握其具体用法。

6ZooKeeper

ZooKeeper是Hadoop和Hbase的重要组件，是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组件服务等，在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。

7 HBase

HBase是一个分布式的、面向列的开源数据库，它不同于一般的关系数据库，更适合于非结构化数据存储的数据库，是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。

8phoenix

phoenix是用Java编写的基于JDBC API *** 作HBase的开源SQL引擎，其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性，大数据开发需掌握其原理和使用方法。

9 Redis

Redis是一个key-value存储系统，其出现很大程度补偿了memcached这类key/value存储的不足，在部分场合可以对关系数据库起到很好的补充作用，它提供了Java，C/C++，C#，PHP，JavaScript，Perl，Object-C，Python，Ruby，Erlang等客户端，使用很方便。

10 Flume

Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。大数据开发需掌握其安装、配置以及相关使用方法。

hbase概念: 非结构化的分布式的面向列存储非关系型的开源的数据库，根据谷歌的三大论文之一的bigtable 高宽厚表作用: 为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。

能干什么: 存储大量结果集数据，低延迟的随机查询。

sql: 结构化查询语言 nosql: 非关系型数据库，列存储和文档存储(查询低延迟),hbase是nosql的一个种类，其特点是列式存储。

非关系型数据库--列存储(hbase) 非关系型数据库--文档存储(MongoDB) 非关系型数据库--内存式存储(redis) 非关系型数据库--图形模型(graph) hive和hbase区别 Hive的定位是数据仓库，虽然也有增删改查，但其删改查对应的是整张表而不是单行数据，查询的延迟较高。

其本质是更加方便的使用mr的威力来进行离线分析的一个数据分析工具。

HBase的定位是hadoop的数据库，电脑培训>

hbase概念:

非结构化的分布式的面向列存储非关系型的开源的数据库，根据谷歌的三大论文之一的bigtable

高宽厚表

作用:

为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。

能干什么:

存储大量结果集数据，低延迟的随机查询。

sql:

结构化查询语言

nosql:

非关系型数据库，列存储和文档存储(查询低延迟),hbase是nosql的一个种类，其特点是列式存储。

非关系型数据库--列存储(hbase)

非关系型数据库--文档存储(MongoDB)

非关系型数据库--内存式存储(redis)

非关系型数据库--图形模型(graph)

hive和hbase区别

Hive的定位是数据仓库，虽然也有增删改查，但其删改查对应的是整张表而不是单行数据，查询的延迟较高。其本质是更加方便的使用mr的威力来进行离线分析的一个数据分析工具。

HBase的定位是hadoop的数据库，电脑培训发现是一个典型的Nosql，所以HBase是用来在大量数据中进行低延迟的随机查询的。

hbase运行方式:

standalonedistrubited

单节点和伪分布式

单节点:单独的进程运行在同一台机器上

hbase应用场景:

存储海量数据低延迟查询数据

hbase表由多行组成

hbase行一行在hbase中由行健和一个或多个列的值组成，按行健字母顺序排序的存储。

以上就是关于大数据专业主要学什么全部的内容，包括:大数据专业主要学什么、北大青鸟java培训：Hbase知识点总结、Hbase知识点总结等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9359729.html

大数据专业主要学什么

发表评论

评论列表（0条）