数据分析需要掌握的知识:
1、数学知识
数学知识是数据分析师的基础知识。对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分。
对于高级数据分析师,统计模型相关知识是必备能力,线性代数(主要是矩阵计算相关知识)最好也有一定的了解。
2、分析工具
对于初级数据分析师,玩转Excel是必须的,数据透视表和公式使用必须熟练,VBA是加分。另外,还要学会一个统计分析工具,SPSS作为入门是比较好的。
对于高级数据分析师,使用分析工具是核心能力,VBA基本必备,SPSS/SAS/R至少要熟练使用其中之一,其他分析工具(如Matlab)视情况而定。
3、分析思维
比如结构化思维、思维导图、或百度脑图、麦肯锡式分析,了解一些smart、5W2H、SWOT等等那就更好了。不一定要掌握多深多全,但一定要了解一些。
4、数据库知识
大数据大数据,就是数据量很多,Excel就解决不了这么大数据量的时候,就得使用数据库。如果是关系型数据库,比如Oracle、mysql、sqlserver等等,你还得要学习使用SQL语句,筛选排序,汇总等等。非关系型数据库也得要学习,比如:Cassandra、Mongodb、CouchDB、Redis、 Riak、Membase、Neo4j 和 HBase等等,起码常用的了解一两个,比如Hbase,Mongodb,redis等。
5、开发工具及环境
比如:Linux OS、Hadoop(存储HDFS,计算Yarn)、Spark、或另外一些中间件。目前用得多的开发工具Java、python等等语言工具。
1.数据导入
在python数据分析中,可以使用pandas模块导入数据。
使用前提:
(1)csv数据导入
ps:csv数据排序by="列名"
【注】 ①engine的参数有三个: 'c','python','python_fwf';
②导入报错解决方法:
>加上参数 engine='python' ;
>加上参数 encoding='utf-8' 或 encoding='gb2312' ;
>先打开再读取:
(2)excel数据导入
(3)mysql数据读取
(4)导入html数据(直接从html网页中加载对应的table表格的数据,需要安装html5lib模块和beautifulsoup4模块)
(5)从网站读取表格
(6)导入文本数据
2.matplotlib模块的使用
使用前提:
(1)折线图/散点图: plot(x轴数据,y轴数据,展现形式<图形、颜色、线条形式>)
①折线图
②散点图
③表头、x轴、y轴
④x轴范围、y轴范围
⑤多组数据
⑥颜色
ps:
c-cyan-青色
r-red-红色
m-magente-品红
g-green-绿色
b-blue-蓝色
y-yelow-黄色
k-black-黑色
w-white-白色
⑦线条形式
ps:
-直线
--虚线
-. -.形式
:细小虚线
⑧点的形式
ps:
s-方形
h-六角形
H-六角形
*-*形
+-+形
x-x形
d-菱形
D-菱形
p-五角形
(2)直方图hist(某个数据出现的频数)
ps:
【注】 ①style加上格式, histtype=‘stepfilled’ 取消格式;
②随机数生成,整数型 random_integers(min,max,number)
③随机生成正态分布的随机数 random.normal(mean,方差,number)
(3)绘制子图 subplot(行,列,当前区域)
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)