大数据专业主要学什么

大数据专业主要学什么,第1张

大数据专业主要学:

1 Java编程技术

Java编程技术是大数据学习的基础,Java是一种强类型语言,拥有极高的跨平台能力,可以编写桌面应用程序、Web应用程序、分布式系统和嵌入式系统应用程序等,是大数据工程师最喜欢的编程工具,因此,想学好大数据,掌握Java基础是必不可少的!

2Linux命令

对于大数据开发通常是在Linux环境下进行的,相比Linux *** 作系统,Windows *** 作系统是封闭的 *** 作系统,开源的大数据软件很受限制,因此,想从事大数据开发相关工作,还需掌握Linux基础 *** 作命令。

3 Hadoop

Hadoop是大数据开发的重要框架,其核心是HDFS和MapReduce,HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算,因此,需要重点掌握,除此之外,还需要掌握Hadoop集群、Hadoop集群管理、YARN以及Hadoop高级管理等相关技术与 *** 作!

4 Hive

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,十分适合数据仓库的统计分析。对于Hive需掌握其安装、应用及高级 *** 作等。

5 Avro与Protobuf

Avro与Protobuf均是数据序列化系统,可以提供丰富的数据结构类型,十分适合做数据存储,还可进行不同语言之间相互通信的数据交换格式,学大数据,需掌握其具体用法。

6ZooKeeper

ZooKeeper是Hadoop和Hbase的重要组件,是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组件服务等,在大数据开发中要掌握ZooKeeper的常用命令及功能的实现方法。

7 HBase

HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,更适合于非结构化数据存储的数据库,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,大数据开发需掌握HBase基础知识、应用、架构以及高级用法等。

8phoenix

phoenix是用Java编写的基于JDBC API *** 作HBase的开源SQL引擎,其具有动态列、散列加载、查询服务器、追踪、事务、用户自定义函数、二级索引、命名空间映射、数据收集、行时间戳列、分页查询、跳跃查询、视图以及多租户的特性,大数据开发需掌握其原理和使用方法。

9 Redis

Redis是一个key-value存储系统,其出现很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用,它提供了Java,C/C++,C#,PHP,JavaScript,Perl,Object-C,Python,Ruby,Erlang等客户端,使用很方便。

10 Flume

Flume是一款高可用、高可靠、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。大数据开发需掌握其安装、配置以及相关使用方法。

hbase概念:  非结构化的分布式的面向列存储非关系型的开源的数据库,根据谷歌的三大论文之一的bigtable  高宽厚表  作用:  为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。

  能干什么:  存储大量结果集数据,低延迟的随机查询。

  sql:  结构化查询语言  nosql:  非关系型数据库,列存储和文档存储(查询低延迟),hbase是nosql的一个种类,其特点是列式存储。

  非关系型数据库--列存储(hbase)  非关系型数据库--文档存储(MongoDB)  非关系型数据库--内存式存储(redis)  非关系型数据库--图形模型(graph)  hive和hbase区别  Hive的定位是数据仓库,虽然也有增删改查,但其删改查对应的是整张表而不是单行数据,查询的延迟较高。

其本质是更加方便的使用mr的威力来进行离线分析的一个数据分析工具。

  HBase的定位是hadoop的数据库,电脑培训>

hbase概念:

非结构化的分布式的面向列存储非关系型的开源的数据库,根据谷歌的三大论文之一的bigtable

高宽厚表

作用:

为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。

能干什么:

存储大量结果集数据,低延迟的随机查询。

sql:

结构化查询语言

nosql:

非关系型数据库,列存储和文档存储(查询低延迟),hbase是nosql的一个种类,其特点是列式存储。

非关系型数据库--列存储(hbase)

非关系型数据库--文档存储(MongoDB)

非关系型数据库--内存式存储(redis)

非关系型数据库--图形模型(graph)

hive和hbase区别

Hive的定位是数据仓库,虽然也有增删改查,但其删改查对应的是整张表而不是单行数据,查询的延迟较高。其本质是更加方便的使用mr的威力来进行离线分析的一个数据分析工具。

HBase的定位是hadoop的数据库,电脑培训发现是一个典型的Nosql,所以HBase是用来在大量数据中进行低延迟的随机查询的。

hbase运行方式:

standalonedistrubited

单节点和伪分布式

单节点:单独的进程运行在同一台机器上

hbase应用场景:

存储海量数据低延迟查询数据

hbase表由多行组成

hbase行一行在hbase中由行健和一个或多个列的值组成,按行健字母顺序排序的存储。

以上就是关于大数据专业主要学什么全部的内容,包括:大数据专业主要学什么、北大青鸟java培训:Hbase知识点总结、Hbase知识点总结等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/sjk/9359729.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-27
下一篇 2023-04-27

发表评论

登录后才能评论

评论列表(0条)

保存