1、MySQL
MySQL是一个开源的关系型数据库管理系统,为甲骨文公司产品。支持多种存储引擎、集群、全文索引、支持多线程、充分利用CPU资源、支持多用户等其它许多非常专业的功能。
MySQL由于性能高、成本低、可靠性好已经成为最流行的开源数据库,并且被广泛应用在Web应用程序以及其它中小型项目上。从WordPress到Movable
Type都把MySQL作为默认的数据库。此外,自甲骨文收购MySQL以后,又将MySQL闭源的潜在风险,因此社区采用分支的方式避开这种风险,开发并运营着完全兼容MySQL的MariaDB数据库。
2、MongoDB
MongoDB是一款开源、面向文档并且也是当下人气最旺的Nosql数据库,它也是一款介于关系数据库和非关系数据库之间的产品。Mongo最大特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。还具有高性能、易部署、易使用,存储数据非常方便等特点。
3、Hadoop
Hadoop是一个开源的、基于列存储模型的分布式数据库,它是Apache Hadoop项目的一部分,开发语言为Java。
Hadoop不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是Hadoop基于列的而不是基于行的模式。且具有高可靠性、高性能、可伸缩、并建立在关系模型基础上的分布式数据库。
4、Redis
Redis是一个开源、支持网络、基于内存、键值对存储数据库。开发者无需存储数字和字符串即可dump整个哈希值、列表、集合以及其它复杂的结果存储,此外,Redis还提供复制/同步和持久化等功能。
Redis是一个高性能的键值对数据库。Redis的出现,很大程度补偿了memcached这类key/value存储的不足,在部分场合可以对关系数据库起到很好的补充作用。
5、MariaDB
MariaDB数据库管理系统是MySQL的一个分支,完全兼容MySQL,包括API和命令行,使之能轻松成为MySQL的代替品。在存储引擎方面,使用XtraDB来代替MySQL的InnoDB。另外又添加了一些功能,以支持本地的非阻塞 *** 作和进度报告。这意味着,所有使用MySQL的连接器、库和应用程序也将会在MariaDB下工作。
成为一名数据分析师所需要具备的技能总结:
数学知识
对于初级数据分析师来说,则需要了解统计相关的基础性内容,公式计算,统计模型等。当你获得一份数据集时,需要先进行了解数据集的质量,进行描述统计。
而对于高级数据分析师,必须具备统计模型的能力,线性代数也要有一定的了解。
分析工具
对于分析工具,SQL 是必须会的,还有要熟悉Excel数据透视表和公式的使用,另外,还要学会一个统计分析工具,SAS作为入门是比较好的,VBA 基本必备,SPSS/SAS/R 至少要熟练使用其中之一,其他分析工具(如 Matlab)可以视情况而定。
编程语言
数据分析领域最热门的两大语言是 R 和 Python。涉及各类统计函数和工具的调用,R无疑有优势。但是大数据量的处理力不足,学习曲线比较陡峭。Python 适用性强,可以将分析的过程脚本化。所以,如果你想在这一领域有所发展,学习 Python 也是相当有必要的。
当然其他编程语言也是需要掌握的。要有独立把数据化为己用的能力, 这其中SQL 是最基本的,你必须会用 SQL 查询数据、会快速写程序分析数据。当然,编程技术不需要达到软件工程师的水平。要想更深入的分析问题你可能还会用到:Exploratory analysis skills、Optimization、Simulation、Machine Learning、Data Mining、Modeling 等。
业务理解
对业务的理解是数据分析师工作的基础,数据的获取方案、指标的选取、还有最终结论的洞察,都依赖于数据分析师对业务本身的理解。
对于初级数据分析师,主要工作是提取数据和做一些简单图表,以及少量的洞察结论,拥有对业务的基本了解就可以。对于高级数据分析师,需要对业务有较为深入的了解,能够基于数据,提炼出有效观点,对实际业务能有所帮助。对于数据挖掘工程师,对业务有基本了解就可以,重点还是需要放在发挥自己的技术能力上。
逻辑思维
对于初级数据分析师,逻辑思维主要体现在数据分析过程中每一步都有目的性,知道自己需要用什么样的手段,达到什么样的目标。对于高级数据分析师,逻辑思维主要体现在搭建完整有效的分析框架,了解分析对象之间的关联关系,清楚每一个指标变化的前因后果,会给业务带来的影响。对于数据挖掘工程师,罗辑思维除了体现在和业务相关的分析工作上,还包括算法逻辑,程序逻辑等,所以对逻辑思维的要求也是最高的。
数据可视化
数据可视化主要借助于图形化手段,清晰有效地传达与沟通信息。听起来很高大上,其实包括的范围很广,做个 PPT 里边放上数据图表也可以算是数据可视化。
对于初级数据分析师,能用 Excel 和 PPT 做出基本的图表和报告,能清楚地展示数据,就达到目标了。对于稍高级的数据分析师,需要使用更有效的数据分析工具,根据实际需求做出或简单或复杂,但适合受众观看的数据可视化内容。
协调沟通
数据分析师不仅需要具备破译数据的能力,也经常被要求向项目经理和部门主管提供有关某些数据点的建议,所以,你需要有较强的交流能力。
对于高级数据分析师,需要开始独立带项目,或者和产品做一些合作,因此除了沟通能力以外,还需要一些项目协调能力。
关系型数据库:Oracle、DB2、Microsoft SQL Server、Microsoft Access、MySQL非关系型数据库:NoSql、Cloudant、MongoDb、redis、HBase当前主流的商业数据库有Oracle、微软SQLServer、IBM DB2和SybaseAdaptive SQL Server。
而在开源方面,主要有三家主流数据库:MySQL、PostgreSQL和Ingres。这两类数据库都已经证明了自己可以胜任数据存储和管理的需要。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)