数据分析需要掌握哪些知识_工具

数据分析需要学习以下几点：

一、统计学。二、编程能力。三、数据库。四、数据仓库。五、数据分析方法。六、数据分析工具。

想要成为数据分析师应该重点学习以下两点：

1python、SQL、R语言

这些都是最基础的工具，python都是最好的数据入门语言，而R语言倾向于统计分析、绘图等，SQL是数据库。既然是数据分析，平时更多的时间就是与数据分析打交道，数据采集、数据清洗、数据可视化等一系列数据分析工作都需要上面的工具来完成。

2业务能力

数据分析师存在的意义就是通过数据分析来帮助企业实现业务增长，所以业务能力也是必须。企业的产品、用户、所处的市场环境以及企业的员工等都是必须要掌握的内容，通过这些内容建立帮助企业建立具体的业务指标、辅助企业进行运营决策等。

当然这些都是数据分析师最基本也是各位想转行的小伙伴需要重点学习的内容，以后想要有更好的发展，还需要学习更多的技能，例如企业管理，人工智能等。

关于数据分析师的学习可以到CDA数据分析认证中心看看。全球CDA持证者秉承着先进商业数据分析的新理念，遵循着《CDA职业道德和行为准则》新规范，发挥着自身数据专业能力，推动科技创新进步，助力经济持续发展。

随着互联网的发展，越来越多的信息充斥在网络上，而大数据就是依靠对这些信息的收集、分类、归纳整理出我们所需要的信息，然后利用这些信息完成一些工作需要的一项能力技术。

今天，北京电脑培训主要就是来分析一下，大数据这项技术到底有那几个层次。

移动互联网时代，数据量呈现指数级增长，其中文本、音视频等非结构数据的占比已超过85%，未来将进一步增大。Hadoop架构的分布式文件系统、分布式数据库和分布式并行计算技术解决了海量多源异构数据在存储、管理和处理上的挑战。

从2006年4月第一个ApacheHadoop版本发布至今，Hadoop作为一项实现海量数据存储、管理和计算的开源技术，已迭代到了v272稳定版，其构成组件也由传统的三驾马车HDFS、MapReduce和HBase社区发展为由60多个相关组件组成的庞大生态，包括数据存储、执行引擎、编程和数据访问框架等。其生态系统从10版的三层架构演变为现在的四层架构：

底层——存储层

现在互联网数据量达到PB级，传统的存储方式已无法满足高效的IO性能和成本要求，Hadoop的分布式数据存储和管理技术解决了这一难题。HDFS现已成为大数据磁盘存储的事实标准，其上层正在涌现越来越多的文件格式封装(如Parquent)以适应BI类数据分析、机器学习类应用等更多的应用场景。未来HDFS会继续扩展对于新兴存储介质和服务器架构的支持。另一方面，区别于常用的Tachyon或Ignite，分布式内存文件系统新贵Arrow为列式内存存储的处理和交互提供了规范，得到了众多开发者和产业巨头的支持。

区别于传统的关系型数据库，HBase适合于非结构化数据存储。而Cloudera在2023年10月公布的分布式关系型数据库Kudu有望成为下一代分析平台的重要组成，它的出现将进一步把Hadoop市场向传统数据仓库市场靠拢。

中间层——管控层

管控层对Hadoop集群进行高效可靠的资源及数据管理。脱胎于MapReduce10的YARN已成为Hadoop20的通用资源管理平台。如何与容器技术深度融合，如何提高调度、细粒度管控和多租户支持的能力，是YARN需要进一步解决的问题。另一方面，Hortonworks的Ranger、Cloudera的Sentry和RecordService组件实现了对数据层面的安全管控。

目前我们正处在大数据时代，掌握大数据相关技术对提高自己的职场竞争力一定是有帮助的。

大数据学习建议：

1、0基础小白从Java语言开始学习

因为当前的大数据技术主要是用 Java 实现的或者是基于 Java 的，想入行大数据，Java基础是必备的；

2、Java开发能力需要通过实际项目来锻炼

在学习完Java语言之后，往往只是掌握了Java语言的基本 *** 作，只有通过真正的项目锻炼才能进一步提高Java开发能力。

3、大数据开发有明显的场景要求

大数据开发是基于目前已有信息系统的升级改造，是一个系统的过程，包括平台的搭建、数据的存储、服务的部署等都有较大的变化，要想真正理解大数据需要有一个积累的过程。对于初学者来说，应该先建立一个对开发场景的认知，这样会更好的理解大数据平台的价值和作用。

4、从基础开发开始做起

对于初级程序员来说，不管自己是否掌握大数据平台的开发知识，都是从基础的开发开始做起，基于大数据平台开发环境。

从就业的角度来说，大数据开发是一个不错的选择。但我并不建议脱离实际应用来学习大数据，最好要结合实际的开发任务来一边学习一边使用。

分享大数据学习路线：

第一阶段为JAVASE+MYSQL+JDBC

主要学习一些Java语言的概念，如字符、bai流程控制、面向对象、进程线程、枚举反射等，学习MySQL数据库的安装卸载及相关 *** 作，学习JDBC的实现原理以及Linux基础知识，是大数据刚入门阶段。

第二阶段为分布式理论简介

主要讲解CAP理论、数据分布方式、一致性、2PC和3PC、大数据集成架构。涉及的知识点有Consistency一致性、Availability可用性、Partition

tolerance分区容忍性、数据量分布、2PC流程、3PC流程、哈希方式、一致性哈希等。

第三阶段为数据存储与计算（离线场景）

主要讲解协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集flume、数据采集logstash、数据同步Sqoop(05T)、数据同步datax(05T)、数据同步mysql-binlog(1T)、计算模型MR与DAG(1T)、hive(5T)、Impala(1T)、任务调度Azkaban、任务调度airflow等。

第四部分为数仓建设

主要讲解数仓仓库的历史背景、离线数仓项目-伴我汽车（5T）架构技术解析、多维数据模型处理kylin（35T）部署安装、离线数仓项目-伴我汽车升级后加入kylin进行多维分析等；

第五阶段为分布式计算引擎

主要讲解计算引擎、scala语言、spark、数据存储hbase、redis、kudu，并通过某p2p平台项目实现spark多数据源读写。

第六阶段为数据存储与计算（实时场景）

主要讲解数据通道Kafka、实时数仓druid、流式数据处理flink、SparkStreaming，并通过讲解某交通大数让你可以将知识点融会贯通。

第七阶段为数据搜索

主要讲解elasticsearch，包括全文搜索技术、ES安装 *** 作、index、创建索引、增删改查、索引、映射、过滤等。

第八阶段为数据治理

主要讲解数据标准、数据分类、数据建模、图存储与查询、元数据、血缘与数据质量、Hive Hook、Spark Listener等。

第九阶段为BI系统

主要讲解Superset、Graphna两大技术，包括基本简介、安装、数据源创建、表 *** 作以及数据探索分析。

第十阶段为数据挖掘

主要讲解机器学习中的数学体系、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库、机器学习结合大数据项目。

对大数据分析有兴趣的小伙伴们，不妨先从看看大数据分析书籍开始入门！B站上有很多的大数据教学视频，从基础到高级的都有，还挺不错的，知识点讲的很细致，还有完整版的学习路线图。也可以自己去看看，下载学习试试。