集群运维:安装、测试、运维各种大数据组件
数据开发:细分一点的话会有ETL工程师、数据仓库工程师等
数据系统开发:偏重Web系统开发,比如报表系统、推荐系统等
这里面有很多内容其实是十分重合的,下面大致聊一下每一块内容大致需要学什么,以及侧重点。
2集群运维
数据工程师,基本上是离不开集群搭建,比如hadoop、Spark、Kafka,不要指望有专门的运维帮你搞定,新组件的引入一般都要自己来动手的。
因此这就要求数据工程师了解各种大数据的组件。
由于要自己的安装各种开源的组件,就要求数据工程师要具备的能力: Linux 。要对Linux比较熟悉,能各种自己折腾着玩。
由于现在的大数据生态系统基本上是 JVM系的,因此在语言上,就不要犹豫了,JVM系的Java和Scala基本上跑不掉,Java基本上要学的很深,Scala就看情况了。
3 ETL
ETL在大数据领域主要体现在各种数据流的处理。这一块一方面体现在对一些组件的了解上,比如Sqoop、Flume、Kafka、Spark、MapReduce;另一方面就是编程语言的需要,Java、Shell和Sql是基本功。
4系统开发
我们大部分的价值最后都会由系统来体现,比如报表系统和推荐系统。因此就要求有一定的系统开发能力,最常用的就是 Java Web这一套了,当然Python也是挺方便的。
需要注意的是,一般数据开发跑不掉的就是各种提数据的需求,很多是临时和定制的需求,这种情况下, Sql就跑不掉了,老老实实学一下Sql很必要。
如何入门?
前面提到了一些数据工程师会用到的技能树,下面给一个入门的建议,完全个人意见。
1了解行业情况
刚开始一定要了解清楚自己和行业的情况,很多人根本就分不清招聘信息中的大数据和数据挖掘的区别就说自己要转行,其实是很不负责的。不要总是赶热点,反正我就是经常被鄙视做什么大数据开发太Low,做数据就要做数据挖掘,不然永远都是水货。
2选择学习途径
如果真是清楚自己明确地想转数据开发了,要考虑一下自己的时间和精力,能拿出来多少时间,而且在学习的时候最好有人能多指点下,不然太容易走弯路了。
在选择具体的学习途径时,要慎重一点,有几个选择:
自学
报班
找人指点
别的不说了,报班是可以考虑的,不要全指望报个辅导班就能带你上天,但是可以靠他帮你梳理思路。如果有专业从事这一行的人多帮帮的话,是最好的。不一定是技术好,主要是可沟通性强。
3学习路线
学习路线,下面是一个大致的建议:
第一阶段
先具备一定的Linux和Java的基础,不一定要特别深,先能玩起来,Linux的话能自己执行各种 *** 作,Java能写点小程序。这些事为搭建Hadoop环境做准备。
学习Hadoop,学会搭建单机版的Hadoop,然后是分布式的Hadoop,写一些MR的程序。
接着学学Hadoop生态系统的其它大数据组件,比如Spark、Hive、Hbase,尝试去搭建然后跑一些官网的Demo。
Linux、Java、各种组件都有一些基础后,要有一些项目方面的实践,这时候找一些成功案例,比如搜搜各种视频教程中如何搞一个推荐系统,把自己学到的用起来。
第二阶段
到这里是一个基本的阶段了,大致对数据开发有一些了解了。接着要有一些有意思内容可以选学。
数据仓库体系:如何搞数据分层,数据仓库体系该如何建设,可以有一些大致的了解。
用户画像和特征工程:这一部分越早了解越好。
一些系统的实现思路:比如调度系统、元数据系统、推荐系统这些系统如何实现。
第三阶段
下面要有一些细分的领域需要深入进行,看工作和兴趣来选择一些来深入进行
分布式理论:比如Gossip、DHT、Paxo这些构成了各种分布式系统的底层协议和算法,还是要学一下的。
数据挖掘算法:算法是要学的,但是不一定纯理论,在分布式环境中实现算法,本身就是一个大的挑战。
各种系统的源码学习:比如Hadoop、Spark、Kafka的源码,想深入搞大数据,源码跑不掉。
大数据技术专业属于交叉学科:以统计学、数学、计算机为三大支撑性学科;生物、医学、环境科学、经济学、社会学、管理学为应用拓展性学科。大数据专业要学的内容分为两种。大数据开发:Ja-va、大数据基础、Hadoop体系、Scala、kafka、Spark等内容;数据分析与挖掘:Python、关系型数据库、文档数据库、内存数据库、数据处理分析等;基础课程一般包括:数学分析、数据结构、数据科学导论、程序设计导论、基础课程:数学分析、高等代数、普通物理数学与信息科学概论、数据结构、数据科学导论、程序设计导论、程序设计实践、程序设计实践等。
未来的就业前景是非常不错的,大数据人才主要分布在移动互联网行业,其次是金融互联网、企业服务、游戏、教育、社交等领域,就业渠道比较多,大概为大数据开发,大数据运维和云计算方向;数据挖掘、数据分析和机器学习方向;这一岗位的薪资也都超过其他的岗位,处于一个遥遥领先的地位,一般来说,同一级别大数据工程师的薪酬可能要比其他岗位高20%至30%。千锋教育拥有多年IT培训服务经验,采用全程面授高品质、高体验培养模式,合作企业达20000余家,覆盖全国一线二线城市大中小型公司,成功帮助20000余名人才实现就业。
Java :只要了bai解一些基础即可,做大数据不需要很深的Java 技术,学java SE 就相当于有学习大数据。
Linux:因为大数据相关软件都是在Linux上运行的,所以Linux要学习的扎实一些,学好Linux对你快速掌握大数据相关技术会有很大的帮助,能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样能更容易理解和配置大数据集群。
Hadoop:这是现在流行的大数据处理平台几乎已经成为大数据的代名词,所以这个是必学的。
Zookeeper:这是个万金油,安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。
Mysql:我们学习完大数据的处理了,接下来学习学习小数据的处理工具mysql数据库,因为一会装hive的时候要用到,mysql需要掌握到什么层度那你能在Linux上把它安装好,运行起来,会配置简单的权限,修改root的密码,创建数据库。
Sqoop:这个是用于把Mysql里的数据导入到Hadoop里的。
Hive:这个东西对于会SQL语法的来说就是神器,它能让你处理大数据变的很简单
Oozie:既然学会Hive了,我相信你一定需要这个东西,它可以帮你管理你的Hive或者MapReduce、Spark脚本,还能检查你的程序是否执行正确。
Hbase:这是Hadoop生态体系中的NOSQL数据库,他的数据是按照key和value的形式存储的并且key是唯一的,所以它能用来做数据的排重,它与MYSQL相比能存储的数据量大很多。
Kafka:这是个比较好用的队列工具。
Spark:它是用来弥补基于MapReduce处理数据速度上的缺点。
问题1:
数据库工程师需要什么样的技能,至少sql语句得特别精通,其中包含sql语句,函数,存储过程,触发器,索引等,这个可能还真不是几天能学会的,得日积月累,因为不同的需求弄不好就能把你整迷糊了。再一个,我对sqlserver不太明白,可以指点你一点oracle的,oracle简单说就是个数据库,但是里边涉及的东西太多,考个认证的话好几万块钱,个人认为,有些东西不是靠单纯的看书或者特别的学习能发现的,得通过做项目发现问题,有了问题上网找答案,好像我一般就是这样做的
问题2:net没做过,但是也多少了解点行情,net是应该比java容易上手一些,net和linux应该是没有冲突的,现在都这年代了,跨平台再不支持的话,net基本就没什么生存空间了。你第二个问题的后半部分我不太会回答,不好意思哈
PS:unix和linux基本差不多,没太大的区别,不过unix的命令十分烦琐,譬如什么awk、find之类的命令,都得一点点实践,不过这个好像已经脱离了数据库工程师的范畴了,还有数据库工程师,对数据库备份,索引优化,系统优化之类的东西掌握也要很深,就算找其他厂家来专门做备份或者什么的,弄不好就能把你忽悠了
; 数据库系统工程师要学的科目有信息系统知识和数据库系统设计与管理,主要内容包括计算机系统知识、数据库技术、系统开发和运行维护知识、安全性知识、标准化知识、数据库系统的运行和管理、SQL、数据库发展趋势与新技术等。
数据库系统工程师属于软考的一个中级科目,每年的合格分数线根据全国考生考试成绩的综合水平统一划线,据往年的考试数据来看,基本上稳定在45分及以上算合格。
通过考试获得证书的人员,表明其已具备从事相应专业岗位工作的水平和能力,用人单位可根据工作需要从获得证书的人员中择优聘任相应专业技术职务(技术员、助理工程师、工程师、高级工程师)。
总结
数据库系统工程师要学的科目有信息系统知识和数据库系统设计与管理,主要内容包括计算机系统知识、数据库技术、系统开发和运行维护知识、安全性知识、标准化知识、数据库系统的运行和管理、SQL、数据库发展趋势与新技术等。
你提到的这些已经可以应对一般的公司这个职位了,不过,不同公司还是会有差异。
如果还要提高自己的竞争力的话,应该是下面这些了:
1 业务知识--不要小看这个;
2 开发经验,最好有大型数据库系统的开发经验;
3 数据仓库;
4 其它一些:沟通、学习能力、排错能力、英文能力、管理体系等等。
学无止境,数据库开发这条路前途很好,但道路也不会很平,最好能有人和项目来带。
以上就是关于大数据工程师需要学习哪些全部的内容,包括:大数据工程师需要学习哪些、大数据开发工程师要学习哪些课程、大数据工程师需要学习哪些等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)