做数据分析要掌握哪些软件和知识点_工具

上海献峰网络认为数据分析也好，统计分析也好，数据挖掘也好、商业智能也好都需要在学习的时候掌握各种分析手段和技能，特别是要掌握分析软件工具！学习数据分析，一般是先学软件开始，再去应用，再学会理论和原理！没有软件的方法就不去学了，因为学了也不能做，除非你自己会编程序。

主意X和Y轴看：

第一维度：数据存储层——>数据报表层——>数据分析层——>数据展现层

第二维度：用户级——>部门级——>企业级——BI级

首先存储层：

1Access2003、Access07等：最基本的个人数据库；

2MySQL数据库；

3SQL Server 2005或更高版本；

4 DB2，Oracle；

5 BI级（实际上这个不是数据库，而是建立在前面数据库基础上的，这个主要是数据

库的企业应用级了，一般这个时候的数据库都叫数据仓库了，Data Warehouse

，建立在DW级上的数据存储基本上都是商业智能平台，或许整合了各种数据分析，报表、分析和展现！）

第二：报表层

推荐石头最喜欢的两款。

1Crystal Report水晶报表Bill报表

2 Tableau软件

第三：数据分析层

1Excel软件（有能力把Excel玩成统计工具不如专门学会统计软件）；

2SPSS软件：从重视医学、化学等开始越来越重视商业分析，现在已经成为了预测

分析软件。

3Clementine软件。

国内的大数据公司还是做前端可视化展现的偏多，BAT算是真正做了大数据的，行业有硬性需求，别的行业跟不上也没办法，需求决定市场。

说说更通用的数据分析吧。

大数据分析也属于数据分析的一块，在实际应用中可以把数据分析工具分成两个维度：

第一维度：数据存储层——数据报表层——数据分析层——数据展现层

第二维度：用户级——部门级——企业级——BI级

1、数据存储层

数据存储设计到数据库的概念和数据库语言，这方面不一定要深钻研，但至少要理解数据的存储方式，数据的基本结构和数据类型。SQL查询语言必不可少，精通最好。可从常用的selece查询，update修改，delete删除，insert插入的基本结构和读取入手。

Access2003、Access07等，这是最基本的个人数据库，经常用于个人或部分基本的数据存储；MySQL数据库，这个对于部门级或者互联网的数据库应用是必要的，这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。

SQL Server2005或更高版本，对中小企业，一些大型企业也可以采用SQL Server数据库，其实这个时候本身除了数据存储，也包括了数据报表和数据分析了，甚至数据挖掘工具都在其中了。

DB2，Oracle数据库都是大型数据库了，主要是企业级，特别是大型企业或者对数据海量存储需求的就是必须的了，一般大型数据库公司都提供非常好的数据整合应用平台。

BI级别，实际上这个不是数据库，而是建立在前面数据库基础上的，企业级应用的数据仓库。Data Warehouse，建立在DW机上的数据存储基本上都是商业智能平台，整合了各种数据分析，报表、分析和展现！BI级别的数据仓库结合BI产品也是近几年的大趋势。

2、报表层

企业存储了数据需要读取，需要展现，报表工具是最普遍应用的工具，尤其是在国内。传统报表解决的是展现问题，目前国内的帆软报表FineReport已经算在业内做到顶尖，是带着数据分析思想的报表，因其优异的接口开放功能、填报、表单功能，能够做到打通数据的进出，涵盖了早期商业智能的功能。

Tableau、FineBI之类，可分在报表层也可分为数据展现层。FineBI和Tableau同属于近年来非常棒的软件，可作为可视化数据分析软件，我常用FineBI从数据库中取数进行报表和可视化分析。相对而言，可视化Tableau更优，但FineBI又有另一种身份——商业智能，所以在大数据处理方面的能力更胜一筹。

3、数据分析层

这个层其实有很多分析工具，当然我们最常用的就是Excel，我经常用的就是统计分析和数据挖掘工具；

Excel软件，首先版本越高越好用这是肯定的；当然对excel来讲很多人只是掌握了5%Excel功能，Excel功能非常强大，甚至可以完成所有的统计分析工作！但是我也常说，有能力把Excel玩成统计工具不如专门学会统计软件；

SPSS软件：当前版本是18，名字也改成了PASW Statistics；我从30开始Dos环境下编程分析，到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化，从重视医学、化学等开始越来越重视商业分析，现在已经成为了预测分析软件；

SAS软件：SAS相对SPSS其实功能更强大，SAS是平台化的，EM挖掘模块平台整合，相对来讲，SAS比较难学些，但如果掌握了SAS会更有价值，比如离散选择模型，抽样问题，正交实验设计等还是SAS比较好用，另外，SAS的学习材料比较多，也公开，会有收获的！

JMP分析：SAS的一个分析分支

XLstat：Excel的插件，可以完成大部分SPSS统计分析功能

4、表现层

表现层也叫数据可视化，以上每种工具都几乎提供了一点展现功能。FineBI和Tableau的可视化功能上文有提过。其实，近年来Excel的可视化越来越棒，配上一些插件，使用感更佳。

PPT：办公常用，用来写数据分析报告；

Xmind&百度脑图：梳理流程，帮助思考分析，展现数据分析的层次；

Xcelsius软件：Dashboard制作和数据可视化报表工具，可以直接读取数据库，在Excel里建模，互联网展现，最大特色还是可以在PPT中实现动态报表

选择数据库服务器的原则：

1、高性能原则：保证所选购的服务器，不仅能够满足运营系统的运行和业务处理的需要，而且能够满足一定时期业务量的增长。一般可以根据经验公式计算出所需的服务器TpmC值(Tpmc是衡量计算机系统的事务处理能力的程序)。

后比较各服务器厂商和TPC组织公布的TpmC值，选择相应的机型。同时，用服务器的市场价/报价除去计算出来的TpmC值得出单位TpmC值的价格，进而选择高性能价格比的服务器。

2、可靠性原则：可靠性原则是所有选择设备和系统中首要考虑的，尤其是在大型的、有大量处理要求的、需要长期运行的系统上。考虑服务器系统的可靠性，不仅要考虑服务器单个节点的可靠性或稳定性，而且要考虑服务器与相关辅助系统之间连接的整体可靠性。

扩展资料：

优点：

1、编程量减少

数据库服务器提供了用于数据 *** 纵的标准接口API（Application Programming Interface，应用程序编程接口）。

2、数据库安全高

数据库服务器提供监控性能、并发控制等工具。由DBA（Database Administrator，数据库管理员）统一负责授权访问数据库及网络管理。

3、数据可靠性管理

数据库服务器提供统一的数据库备份/恢复、启动/停止数据库的管理工具。

4、计算机资源利用充分

数据库服务器把数据管理及处理工作从客户机上分离出来，使网络中各计算机资源能灵活分配、各尽其用。

参考资料来源：百度百科-数据库服务器

大数据定义什么的百度很多。个人理解：现有的互联网数据量越来越大，面对这么大的数据量，如何利用好这些数据是极具挑战性的。一方面数据量提升，数据处理的方法必须改变，才能提高数据处理速度，比如大规模，高并发的网站访问，12306，淘宝天猫什么的；另一方面从这些海量数据中挖掘出有用的信息，比如根据淘宝根据用户点击访问，反馈出用户的喜好，给用户推荐相关商品。\x0d\\x0d\推荐Hadoop，适合大数据处理的。\x0d\网上学习资料很多，自己搜去！\x0d\\x0d\当然你也可以自己使用数据库MYSQL等去做大数据处理，这样很多Hadoop做好的东西都需要你自己去做。要是熟悉某个数据库，并且应用明确就用数据库自己去做吧！\x0d\加油！

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据。基础

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

好说完基础了，再说说还需要学习哪些大数据技术，可以按我写的顺序学下去。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

记住学到这里可以作为你学大数据的一个节点。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的排队买票你知道不数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以 *** 作它，因为它们都是用JVM的。

以上就是关于做数据分析要掌握哪些软件和知识点全部的内容，包括:做数据分析要掌握哪些软件和知识点、国内真正的大数据分析产品有哪些、支持大型数据库的服务器需要什么配置等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9334444.html

做数据分析要掌握哪些软件和知识点

发表评论

评论列表（0条）