大数据分析应该掌握哪些基础知识呢？_sql

前言，学大数据要先换电脑：

保证电脑4核8G内存64位 *** 作系统，尽量有ssd做系统盘，否则卡到你丧失信心。硬盘越大越好。

1，语言要求

java刚入门的时候要求javase。

scala是学习spark要用的基本使用即可。

后期深入要求：

java NIO，netty，多线程，ClassLoader，jvm底层及调优等，rpc。

2， *** 作系统要求

linux 基本的shell脚本的使用。

crontab的使用，最多。

cpu，内存，网络，磁盘等瓶颈分析及状态查看的工具。

scp，ssh，hosts的配置使用。

telnet，ping等网络排查命令的使用

3，sql基本使用

sql是基础，hive，sparksql等都需要用到，况且大部分企业也还是以数据仓库为中心，少不了sql。

sql统计，排序，join，group等，然后就是sql语句调优，表设计等。

4，大数据基本了解

Zookeeper，hadoop，hbase，hive，sqoop，flume，kafka，spark，storm等这些框架的作用及基本环境的搭建，要熟练，要会运维，瓶颈分析。

5，mapreduce及相关框架hive，sqoop

深入了解mapreduce的核心思想。尤其是shuffle，join，文件输入格式，map数目，reduce数目，调优等。

6，hive和hbase等仓库

hive和hbase基本是大数据仓库的标配。要回用，懂调优，故障排查。

hbase看浪尖hbase系列文章。hive后期更新。

7，消息队列的使用

kafka基本概念，使用，瓶颈分析。看浪尖kafka系列文章。

8，实时处理系统

storm和spark Streaming

9，spark core和sparksql

spark用于离线分析的两个重要功能。

10，最终方向决策

a),运维。（精通整套系统及故障排查，会写运维脚本啥的。）

b),数据分析。（算法精通）

c),平台开发。（源码精通）

自学还是培训？

无基础的同学，培训之前先搞到视频通学一遍，防止盲目培训跟不上讲师节奏，浪费时间，精力，金钱。

有基础的尽量搞点视频学基础，然后跟群里大牛交流，前提是人家愿意，

想办法跟大牛做朋友才是王道。

第一阶段：大数据技术入门

1大数据入门：介绍当前流行大数据技术，数据技术原理，并介绍其思想，介绍大数据技术培训课程，概要介绍。

2Linux大数据必备：介绍Lniux常见版本，VMware虚拟机安装Linux系统，虚拟机网络配置，文件基本命令 *** 作，远程连接工具使用，用户和组创建，删除，更改和授权，文件/目录创建，删除，移动，拷贝重命名，编辑器基本使用，文件常用 *** 作，磁盘基本管理命令，内存使用监控命令，软件安装方式，介绍LinuxShell的变量，控制，循环基本语法，LinuxCrontab定时任务使用，对Lniux基础知识，进行阶段性实战训练，这个过程需要动手 *** 作，将理论付诸实践。

3CM&CDHHadoop的Cloudera版：包含Hadoop，HBase，Hiva，Spark，Flume等，介绍CM的安装，CDH的安装，配置，等等。

第二阶段：海量数据高级分析语言

Scala是一门多范式的编程语言，类似于java，设计的初衷是实现可伸缩的语言，并集成面向对象编程和函数式编程的多种特性，介绍其优略势，基础语句，语法和用法，介绍Scala的函数，函数按名称调用，使用命名参数函数，函数使用可变参数，递归函数，默认参数值，高阶函数，嵌套函数，匿名函数，部分应用函数，柯里函数，闭包，需要进行动手的 *** 作。

第三阶段：海量数据存储分布式存储

1HadoopHDFS分布式存储：HDFS是Hadoop的分布式文件存储系统，是一个高度容错性的系统，适合部署在廉价的机器上，HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用，介绍其的入门基础知识，深入剖析。

2HBase分布式存储：HBase-HadoopDatabase是一个高可靠性，高性能，面向列，可伸缩的分布式存储系统，利用HBase技术可在廉价PC上搭建起大规模结构化存储集群，介绍其入门的基础知识，以及设计原则，需实际 *** 作才能熟练。

第四阶段：海量数据分析分布式计算

1HadoopMapReduce分布式计算：是一种编程模型，用于打过莫数据集的并行运算。

2Hiva数据挖掘：对其进行概要性简介，数据定义，创建，修改，删除等 *** 作。

3Spare分布式计算：Spare是类MapReduce的通用并行框架。

第五阶段：考试

1技术前瞻：对全球最新的大数据技术进行简介。

2考前辅导：自主选择报考工信部考试，对通过者发放工信部大数据技能认证书。

上面的内容包含了大数据学习的所有的课程，所以，如果有想学大数据的可以从这方面下手，慢慢的了解大数据。

要考虑的因素太多了！

完整的支持sql规范就需要很大的气力，大量并发的 *** 作不能出错，事务的支持，性能要有保证，对在线事务处理及数据挖掘都要有足够的支持

计算机技术的方方面面都要用到，复杂性极高

可以看看MySql或者postgre的代码，这个是公开的。这两个数据库系统比你说的那几个要简单很多很多

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9236905.html

大数据分析应该掌握哪些基础知识呢？

发表评论

评论列表（0条）