零基础学数据分析应该怎么入门_工具

数据科学是一门应用学科，需要系统提升数据获取、数据分析、数据可视化、机器学习的水平。下面就简单提供一个数据分析入门的路径：

第一阶段：Excel数据分析

每一位数据分析师都脱离不开Excel。excel是日常工作中最常用的工具，如果不考虑性能和数据量，可以应付绝大部分分析工作。虽然现在机器学习满地走，Excel依旧是无可争议的第一工具。

第二阶段：SQL数据库语言

作为数据分析人员，首先要知道如何去获取数据，其中最常见的就是从关系型数据库中取数，因此可以不会R，不会python，但是不能不会SQL。DT时代，数据正在呈指数级增长。Excel对十万条以内的数据处理起来没有问题，但是往小处说，但凡产品有一点规模，数据都是百万起。这时候就需要学习数据库。

第三阶段：数据可视化&商业智能

数据可视化能力已经越来越成为各岗位的基础技能。领英的数据报告显示，数据可视化技能在历年年中国最热门技能中排名第一。

学习数据分析可以到CDA数据分析认证中心了解一下，CDA是大数据和人工智能时代面向国际范围全行业的数据分析专业人才职业简称，具体指在互联网、金融、咨询、电信、零售、医疗、旅游等行业专门从事数据的采集、清洗、处理、分析并能制作业务报告、提供决策的新型数据人才。

access数据库入门教程主要是以Access 2010为平台，全面而又详细地介绍Access 2010的各个知识点及其 *** 作方法。，通过各个不同的版块来具体学习access数据库基础知识：

1、数据库基本概述：包括了关系数据库基础、数据库的基础知识、数据模型及关系数据库、关系运算、实体模型、关系规范化基础、数据库设计基础、Access简介等。

2、数据库和数据表：包括了数据库 *** 作、创建数据表、设置字段“常规”属性、建立数据表之间的关系、数据表的基本 *** 作、调整数据表的外观。

3、查询的基本概念：包括了查询简介、创建选择查询、创建计算查询、创建特殊用途查询、创建 *** 作查询、结构化查询语言等。

4、窗体：包括了认识窗体、创建窗体、窗体控件、定制系统控制窗体等。

5、报表：包括了报表的基本概念、创建报表、报表设计、报表的高级设计等。

通过等等不同章节的学习，逐步了解access数据库的基础理论性知识，然后学习领悟实际 *** 作知识及技巧。

1、自己在windows和linux上安装了mysql，自学linux的基础知识，学习mysql的最基础的知识，即怎么写sql，存储过程，表的设计等，从0到熟悉大概花了3个月，推荐《mysql入门很简单》。

2、系统地较为深入地学习mysql的sql优化，备份和恢复，参数优化，架构优化，硬件层面的优化，高可用方案，复制技术等等，这段时间你不一定能实际接触到这些，就像我当初那样，肯定没什么公司招一个小白。

我选择自己看书，推荐《高性能mysql》，里面所有的章节都需要看一遍，以现在的水平肯定看不懂，但需要知道大概怎么回事，为后续的找mysql初级dba的工作打一个铺垫，这个过程大概也需要3个月。

3、纸上得来终觉浅，完成以上两步，我开始准备找一份mysql相关的工作，而不是天天用着excel表格做着select from table_sb这样的工作。

当然我这么猥琐的人肯定不会裸辞，该画的电路板也一样画，业余时间开始投初级mysql dba的工作，并且不间断地学习，网上各种找mysql面试的相关题目（实际上我当时完全没有任何实战经验），陆续收到一些面试，凭借之前自学的mysql知识，开始胡乱吹牛逼，先混进去再说。

你不做mysql实际相关的工作，永远也不知道自己之前认知的db知识有多幼稚。

友情提示一点，一般公司都没有专职dba的，所以面试的时候一定要自信，其实你学了这么多，虽然毫无实战经验，理论知识很大概率比面试你的人牛逼，所以各种吹，我就这样真正进入初级dba的圈子（由于这时对linux还处于cd ls的水平，所以之前也根本没做过运维），这个边工作边找工作的过程又持续了2个月。

4、真正进入互联网，接触生产环境后，这是我进步最大的时候。

第一步需要将之前所学真正地应用起来，并且应用的过程中，再回头看之前的书籍，这时候需要真正去理解，而不是似是而非，一知半解。

这时再推荐《高性能mysql 第三版》，全本再看一遍，这时需要全部看懂，另外还有《mysql技术内幕：innodb存储引擎》等等。

总之这段时间就需要开始关注mysql一些细节了，比如db故障处理，高可用，负载均衡等等的具体实现了。

另外，linux的知识同步也要深入去学习，至少会写shell脚本，常见的linux知识等，我在这花了1年多；

5、 dba的工作一般是非常轻闲的，毕竟不是大公司，技术能力有限，该学的也学得差不多了，接触不到海量数据，高并发等比较锻炼人的场合，于是我又准备跳了。

于是来了公有云，现在每天运维万多个db实例，平均每天处理5+个紧急db故障，几乎mysql会遇到的问题，感觉都遇到了，能感觉到技术实力和经验也在每天都在积累，在进步。

但是感觉还是欠缺了很多，下一步就看你选择了，是再去研究源代码，底层原理的东西多点，还是数据库运维和应用多一点，就比如业界姜承尧，何登成与叶金荣的区别。

由于我的历史原因，对c++等几乎不懂，平时也用不到，所以看代码等事实际太累，于是我再去学mongodb，接了公司mongodb运维的活，算是在广度上的一个扩展，万一哪天mysql不行了呢

6、总之，对于db小白来说，最重要的一点就是，学习的过程不能断。

PS 上面的方法比较野路子，适合没什么基础的童鞋，如果本来就是DBA，比如从oracle转到mysql，那么建议直接看mysql官方文档，而官方文档是db达到一定水平后必看，出问题时必查的权威文档。

基本上 *** 作各种数据库不近相同，其中access是小型数据库，sqlserver与oracal是中型的，DB是大型数据库。

1、学习数据库的SQL语句，每个数据库基本上上不多，但是都有自己的不同，有的时间类型用‘’标识有的用#等。但是基本的SQL都是一样的select ，update，Insert，Delete，基本上学会了基础的，就学习高深一点的，如何联合表查询，编辑，修改。

2、这些熟悉以后，就要学习一下数据库的一些常用的系统函数，再之后就是要学习，存储过程，函数，触发器，事务。基本数据库这部分就没有什么问题了，只要不做高级的科研什么的，这些知识就都够了。要想学好数据库，就要多联系，自己创建一个带有逻辑的符合第三范式以上的数据库，然后写写SQL、触发器、存储过程、试图等。最重要的就是，把他们之间的逻辑搞清楚。

3、如果您想学数据库，可以看看深度剖析Exadata数据库一体机视频课程。

第一步：学习oracle安装。\x0d\第二步：学习oracle基础语法知识。\x0d\第三步：实际 *** 作基础语法指令。\x0d\第四步：学习存储过程、function、sequence（序列）等高级知识。\x0d\第五步：学习oracle高级优化。\x0d\参考书籍：《oracle从入门到精通》\x0d\备注：oracle也算是一门语言，即使半个月或者是半年也无法学习透彻的，建议根据上面的思路逐层深入学习即可。

首先我们要了解Java语言和Linux *** 作系统，这两个是学习大数据的基础，学习的顺序不分前后。

大数据

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据基础。

Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。

Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapReduce和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapReduce是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。

Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。

Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。

Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。

Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapReduce程序。有的人说Pig那它和Pig差不多掌握一个就可以了。

Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapReduce、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。

Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。

Kafka：这是个比较好用的队列工具，队列是干吗的排队买票你知道不数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。

Spark：它是用来弥补基于MapReduce处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以 *** 作它，因为它们都是用JVM的。

有很多朋友虽然安装好了mysql但却不知如何使用它在这篇文章中我们就从连接MYSQL 修改密码增加用户等方面来学习一些MYSQL的常用命令一连接MYSQL 格式 mysql h主机地址 u用户名－p用户密码例连接到本机上的MYSQL 首先在打开DOS窗口然后进入目录 mysqlbin 再键入命令mysql uroot p 回车后提示你输密码如果刚安装好MYSQL 超级用户root是没有密码的故直接回车即可进入到MYSQL中了 MYSQL的提示符是 mysql> 例连接到远程主机上的MYSQL 假设远程主机的IP为用户名为root 密码为abcd 则键入以下命令 mysql h uroot pabcd 退出MYSQL命令 exit （回车）二修改密码格式 mysqladmin u用户名 p旧密码 password 新密码例给root加个密码ab 首先在DOS下进入目录mysqlbin 然后键入以下命令mysqladmin uroot password ab 注因为开始时root没有密码所以 p旧密码一项就可以省略了例再将root的密码改为djg mysqladmin uroot pab password djg 三增加新用户（注意和上面不同下面的因为是MYSQL环境中的命令所以后面都带一个分号作为命令结束符）格式 grant select on 数据库 to 用户名@登录主机 identified by 密码例增加一个用户test 密码为abc 让他可以在任何主机上登录并对所有数据库有查询插入修改删除的权限首先用以root用户连入MYSQL 然后键入以下命令 grant select insert update delete on to test @ % Identified by abc ;但例增加的用户是十分危险的你想如某个人知道test 的密码那么他就可以在internet上的任何一台计算机上登录你的mysql数据库并对你的资料可以为所欲为了解决办法见例例增加一个用户test 密码为abc 让他只可以在localhost上登录并可以对数据库mydb进行查询插入修改删除的 *** 作（localhost指本地主机即MYSQL数据库所在的那台主机）这样用户即使用知道test 的密码他也无法从internet上直接访问数据库只能通过MYSQL主机上的web页来访问了 grant select insert update delete on mydb to test @localhost identified by abc ;如果你不想test 有密码可以再打一个命令将密码消掉 grant select insert update delete on mydb to test @localhost identified by ;注意你必须首先登录到MYSQL中以下 *** 作都是在MYSQL的提示符下进行的而且每个命令以分号结束四一 *** 作技巧如果你打命令时回车后发现忘记加分号你无须重打一遍命令只要打个分号回车就可以了也就是说你可以把一个完整的命令分成几行来打完后用分号作结束标志就OK 你可以使用光标上下键调出以前的命令但以前我用过的一个MYSQL旧版本不支持我现在用的是 mysql beta win 五显示命令显示数据库列表 show databases;刚开始时才两个数据库 mysql和test mysql库很重要它里面有MYSQL的系统信息我们改密码和新增用户实际上就是用这个库进行 *** 作显示库中的资料表 use mysql ／／打开库学过FOXBASE的一定不会陌生吧show tables; 显示资料表的结构 describe 表名; 建库 create database 库名; 建表 use 库名 create table 表名 (字段设定列表) 删库和删表:drop database 库名;drop table 表名将表中记录清空 delete from 表名; 显示表中的记录 select from 表名; 六一个建库和建表以及插入数据的实例 drop database if exists school; //如果存在SCHOOL则删除create database school; //建立库SCHOOLuse school; //打开库SCHOOLcreate table teacher //建立表TEACHER(id int( ) auto_increment not null primary key name char( ) not null address varchar( ) default 深圳 year date); //建表结束//以下为插入字段insert into teacher valuess( glchengang 深圳一中 );insert into teacher valuess( jack 深圳一中 );注在建表中（）将ID设为长度为的数字字段:int( )并让它每个记录自动加一:auto_increment并不能为空:not null而且让他成为主字段primary key（）将NAME设为长度为的字符字段（）将ADDRESS设为长度的字符字段而且缺省值为深圳 varchar和char有什么区别呢只有等以后的文章再说了（）将YEAR设为日期字段如果你在mysql提示符键入上面的命令也可以但不方便调试你可以将以上命令原样写入一个文本文件中假设为school sql 然后复制到c:下并在DOS状态进入目录mysqlbin 然后键入以下命令 mysql uroot p密码 < c:school sql如果成功空出一行无任何显示如有错误会有提示（以上命令已经调试你只要将//的注释去掉即可使用）七将文本资料转到数据库中文本资料应符合的格式字段资料之间用tab键隔开 null值用n来代替例 rose 深圳二中 mike 深圳一中数据传入命令 load data local infile 文件名 into table 表名;注意你最好将文件复制到mysqlbin目录下并且要先用use命令打表所在的库八备份数据库（命令在DOS的mysqlbin目录下执行）mysqldump opt school>school bbb注释:将数据库school备份到school bbb文件 school bbb是一个文本文件文件名任取打开看看你会有新发现后记其实MYSQL的对数据库的 *** 作与其它的SQL类数据库大同小异您最好找本将SQL的书看看我在这里只介绍一些基本的其实我也就只懂这些了呵呵最好的MYSQL教程还是晏子译的 MYSQL中文参考手册不仅免费每个相关网站都有下载而且它是最权威的可惜不是象 PHP 中文手册那样是chm的格式在查找函数命令的时候不太方便 lishixinzhi/Article/program/MySQL/201311/29306

以上就是关于零基础学数据分析应该怎么入门全部的内容，包括:零基础学数据分析应该怎么入门、access数据库入门教程是怎样的、数据库应该怎么学习，零基础。等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/sjk/9349488.html

零基础学数据分析应该怎么入门

发表评论

评论列表（0条）