云计算技术与应用主要研究计算机软硬件、网络、信息系统等方面基本知识和技能,进行云计算的系统建设、运行维护、云平台软件开发、测试评估、安全配置、迁移服务等。例如:运用大数据迅速拣货、配送的菜鸟云仓建设与应用,大数据平台规划与建设,云平台的研发等。
大数据专业主要课程有:Linux *** 作系统应用、虚拟化技术、Java程序设计、OpenStack系统应用、Hadoop分布式应用、数据存储技术、云平台管理系统、云数据中心构建与运维、云存储产品配置与应用、大数据平台和大数据分析、云安全产品配置与应用等。
大数据云计算可从事的工作岗位
:
1.云平台管理、服务架设、数据安全维护、性能优化的云平台运维工程师;
2.基于云应用类软件产品的开发、测试、部署、维护等的云服务应用/开发工程师;
3.推广销售云计算管理平台和服务器虚拟化软件及云应用软件系统的产品销售工程师;
4.处理客户的技术咨询,解决常见产品技术问题的技术客服;
5.为企业或政府搭建云计算管理平台,确保私有云平台顺利上线运行的云平台实施工程师。大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明地向Cluster中加入组件。
一个Cluster包含多台(至少二台)拥有共享数据存储空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的 *** 作系统和应用程序文件存储在其各自的本地储存空间上。
Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。
集群的硬件配置
镜像服务器双机
集群中镜像服务器双机系统是硬件配置最简单和价格最低廉的解决方案,通常镜像服务的硬件配置需要两台服务器,在每台服务器有独立 *** 作系统硬盘和数据存贮硬盘,每台服务器有与客户端相连的网卡,另有一对镜像卡或完成镜像功能的网卡。
镜像服务器具有配置简单,使用方便,价格低廉诸多优点,但由于镜像服务器需要采用网络方式镜像数据,通过镜像软件实现数据的同步,因此需要占用网络服务器的CPU及内存资源,镜像服务器的性能比单一服务器的性能要低一些。
有一些镜像服务器集群系统采用内存镜像的技术,这个技术的优点是所有的应用程序和网络 *** 作系统在两台服务器上镜像同步,当主机出现故障时,备份机可以在几乎没有感觉的情况下接管所有应用程序。因为两个服务器的内存完全一致,但当系统应用程序带有缺陷从而导致系统宕机时,两台服务器会同步宕机。这也是内存镜像卡或网卡实现数据同步,在大数据量读写过程中两台服务器在某些状态下会产生数据不同步,因此镜像服务器适合那些预算较少、对集群系统要求不高的用户。
硬件配置范例:
网络服务器 两台
服务器 *** 作系统硬盘 两块
服务器数据存贮硬盘 视用户需要确定
服务器镜像卡(部分软件可使用标准网卡) 两块
网络服务网卡 两块三、双机与磁盘阵列柜
与镜像服务器双机系统相比,双机与磁盘阵列柜互联结构多出了第三方生产的磁盘阵列柜,目前,豪威公司、精业公司等许多公司都生产有磁盘阵列柜,在磁盘阵列柜中安装有磁盘阵列控制卡,阵列柜可以直接将柜中的硬盘配置成为逻辑盘阵。磁盘阵列柜通过SCSI电缆与服务器上普通SCSI卡相连,系统管理员需直接在磁盘柜上配置磁盘阵列。
双机与磁盘阵列柜互联结构不采用内存镜像技术,因此需要有一定的切换时间(通常为60?D?D180秒),它可以有郊的避免由于应用程序自身的缺陷导致系统全部宕机,同时由于所有的数据全部存贮在中置的磁盘阵列柜中,当工作机出现故障时,备份机接替工作机,从磁盘阵列中读取数据,所以不会产生数据不同步的问题,由于这种方案不需要网络镜像同步,因此这种集群方案服务器的性能要比镜像服务器结构高出很多。
双机与磁盘阵列柜互联结构的缺点是在系统当中存在单点错的缺陷,所谓单点错是指当系统中某个部件或某个应用程序出现故障时,导致所有系统全部宕机。在这个系统中磁盘阵列柜是会导致单点错,当磁盘阵列柜出现逻辑或物理故障时,所有存贮的数据会全部丢失,因此,在选配这种方案时,需要选用一个品质与售后服务较好的产品。
硬件配置范例:
网络服务器 两台
服务器 *** 作系统硬盘 两块
第三方生产的磁盘阵列柜 一台
磁盘柜专用SCSI电线 两根
磁盘阵列柜数据存贮硬盘 视用户需求确定
网络服务网卡 两块
除此之外,一些厂商还有更优秀的技术的解决方案,比如 HP
HP双机双控容错系统
HP NetServer为双机双控容错系统提供了高品质和高可靠的硬件基础……
HP双机双控容错系统结合了HP服务器产品的安全可靠性与Cluster技术的优点,相互配合二者的优势。
硬件配置范例:
HP L系统的网络服务器 两台
服务器 *** 作系统硬盘 两块
HP硬盘存贮柜(SS/6,RS/8,RS/12) 一台
磁盘柜专用SCSI集群适配电缆 两根
磁盘柜数据存贮硬盘 视用户需求确定
HP集群专用阵列卡 两块
网络服务网卡 两块五、HP光纤通道双机双控集群系统
光纤通道是一种连接标准,可以作为SCSI的一种替代解决方案,光纤技术具有高带宽、抗电磁干扰、传输距离远、质量高、扩展能力强等特性,目前在FC-AL仲裁环路上可接入126个设备。
光纤设备提供了多种增强的连接技术,大大方便了用户使用。服务器系统可以通过光缆远程连接,最大可跨越10公里的距离。它允许镜像配置,这样可以改善系统的容错能力。服务器系统的规模将更加灵活多变。SCSI每条通道最多可连接15个设备,而光纤仲裁环路最多可以连接126个设备。
光纤集群系统组成:
HP光纤集群系统硬件设备包括有两台HP服务器(需支持光纤卡,目前有LC2000、LH3000、LH4、 LH6000、LT6000、LXr8000、LXR8500)及光纤适配卡,可以使用RS/12FC光纤磁盘阵列柜,需另加一对或两对网卡用于心跳检测和与客户端连接。在配置过程中还需另外选配光纤卡到光纤存贮设备的光纤电缆。
硬件配置:
HPL系统的网络服务器 两台
服务器 *** 作系统硬盘 两块
HP光纤阵列存贮柜(RS/12FC) 一台
光纤磁盘柜专用光纤电缆 两根
光纤磁盘柜数据存贮硬盘 视用户需求确定
HP光纤适配卡 两块
网络服务网卡 两块
集群的软件配置
基于NT平台的集群软件
Microsoft的MSCS,也有许多第三方的专业软件公司开发的集群软件,如豪威的DATAWARE,VIN CA公司的STANDBY SERVER,NSI公司的DOUBLE-TAKE
MS WolfPack的特点
MS WolfPack是MS Cluster server的别称,是 微软针对Cluster技术研制开发的双机软件。它集成在NT SERVER上,支持由二台机器组成的双机系统,提供一种高可用且易管理的应用环境。
主要特点:
自动检测和修复服务器或应用程序的错误
可实现对服务器中应用程序的切换
可通过TCP/IP连接各种客户端,如MS-DOS、WINDOWS 3X/9X/NT,Apple Macintosh、UNIX等
生产主机无需人工干涉即可自动恢复数据并接管任务
易管理性:
可自动审核服务器和应用程序的工作状态
可建立高可用性的应用程序、文件共享、打印请求等
可灵活设置应用程序和数据的恢复策略
简单 *** 作即可进行应用程序的离线,重新再线,服务器间的迁移。
目前,WINDOWS 2000 Advanced Server与WINDOWS 2000 DataCenter Server都集成有更先进集群技术。
其它的网络 *** 作系统平台上也有许多集群软件,比如:
基于novell平台的集群软件有Novell HA Server、Novell SFT III
基于sco UNIX平台的集群软件有Sentinel集群软件
基于Linux平台的集群软件有TurboCluster
集群技术的发展趋势
集群技术随着服务器硬件系统与网络 *** 作系统的发展将会在可用性、高可靠性、系统冗余等方面逐步提高。未来的集群可以依靠集群文件系统实现对系统中的所有文件、设备和网络资源的全局访问,并且生成一个完整的系统映像。这样,无论应用程序在集群中的哪台服务器上,集群文件系统允许任何用户(远程或本地)都可以对这个软件进行访问。任何应用程序都可以访问这个集群任何文件。甚至在应用程序从一个节点转移到另一个节点的情况下,无需任何改动,应用程序就可以访问系统上的文件。
所谓的大数据平台不是独立存在的,比如百度是依赖搜索引擎获得大数据并开展业务的,阿里是通过电子商务交易获得大数据并开展业务的,腾讯是通过社交获得大数据并开始业务的,所以说大数据平台不是独立存在的,重点是如何搜集和沉淀数据,如何分析数据并挖掘数据的价值。
我可能还不够资格回答这个问题,没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享,印象很深的是,他们分享说,他们的hadoop集群第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程。
对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。要解决的是选择平台本身提供的服务,计算成本,打通数据出入的通道。整个数据平台本身如果走这条路,可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。几个老板一合计,再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是数据节点,磁盘三天两头损耗,网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局,设计运维规范,架设监控,值班团队走起724小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型,如果有技术实力,可以直接用社区的一整套,自己管起来,监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和组件;定期Review用户的作业和使用情况,决定是否扩容,清理数据等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性循环。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非互联网土豪。当然互联网公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了,但他们不会写代码,所以你上马了Hive。然后很多用户用了Hive觉得太慢,你就又上马交互分析系统,比如Presto,Impala或者SparkSQL。
你的数据科学家需要写ML代码,他们跟你说你需要Mahout或者SparkMLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能,发现你们的数据都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推用户都使用列存,Parquet,ORC之类的。
又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起,提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导入Hive,也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?
你发现社区不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具,有什么公司发布了什么项目解决了什么问题,兴许你就能用上。
上了这些乱七八糟的东西,你以为就安生了?Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人,老板如果知道这是天然坑多的平台,那他也许会很高兴,因为跟进社区,帮忙修bug,一起互动其实是很提升公司影响力的实情。当然如果老板不理解,你就自求多福吧,招几个老司机,出了问题能马上带路才是正道。当然团队的技术积累不能不跟上,因为数据平台还是乱世,三天不跟进你就不知道世界是什么样了。任何一个新技术,都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术,那需要小心再小心,技术主管也要有足够的积累,能够驾驭,知道收益和风险。
谈到数据中心的“绿化”,人们更多会提到动态电源调节、水冷机柜、服务器的摆放等硬件因素。实际上,软件才是数据中心“绿化”方案的大脑和灵魂。 张宾是北京一家网络数据中心的CIO,每到夏天就会被机房服务器的频频宕机和巨额电费问题搞得焦头烂额。张宾所在企业的数据中心有一个50个机柜的机房,能放500台左右的服务器,前期投入了近400万元的建设成本(不算服务器),但每个机柜平均每月电费却高达1500元,每年光电力开支就花费90多万元,占到了机柜总运营成本的1/4,一到夏天,这个数字更是像油价一样飞速飙升。随着数据中心的扩容,电力消耗、散热和场地正成为数据中心CIO最头疼的问题。Gartner预测,至2008年年底,全球近一半的数据中心将无法拥有足够的能源和冷却装置,用以支持高密度的服务器和存储设备,而到2011年,数据中心1/3以上的预算将是环境成本。
“北京网通的皂君庙机房,就因为供电不足的问题,不仅无法扩容,而且出租机架的绝大部分收入都用来付了电费。”北京网通数据中心檀君普直言不讳地说:“北京绝大部分机房的供电都不足。”
降低能耗成为了数据中心最迫切的需求,而放在整个大的背景下,节能减排更是当前整个国家最迫切的任务之一。对于很多部门领导来说,它已经不再是 口号 ,而是压在身上不得不完成的硬性指标。
这时候,绿色数据中心开始悄然兴起,并迅速成为数据中心领域最热的话题。但是,说到数据中心,人们想到的就是一排排的机柜、空调、UPS;谈到“绿化”,人们更多会提到动态电源调节、水冷机柜、服务器的摆放等硬件因素,软件因素往往被忽略。实际上,在数据中心的“绿化”过程中,软件可以说是所有解决方案的大脑和灵魂。“在数据中心的‘绿化’方案里,所有智能化的手段都离不开软件的指挥。”惠普公司服务器及存储产品事业部产品经理蔡建华告诉记者。
虚拟化是绿化的有效手段
当前数据中心主要面临着两个方面的挑战,首先是能耗,在数据中心电量消耗不断增大的同时,资源的利用率却持续降低。据调查,数据中心中IT设备的有效利用率只有20%。
其次就是复杂性,数据中心的日益庞大使得硬件和软件的维护越来越困难,同时消耗的费用也在不断增加。蔡建华指出在数据中心的运营开支中,维护的费用占到了65%,迁移、升级的费用占了25%,剩下只有10%的费用用来创新。创新的投入不足使得数据中心的运营长期停留在低水平上,无法获得高质量的客户满意度。
虚拟化为应对这两方面的挑战提出了有效的解决手段,通过整合,多个 *** 作系统、多个应用被整合在一个服务器上,结束了一台服务器只能运行一个 *** 作系统,承载少量应用的局面,大大提高了服务器的利用率。
同时,应用方面的整合使得系统更加集中,管理也更加方便,而虚拟化之前所进行的标准化改造也大大降低了系统的多样性。另外,虚拟化解决方案为一致全面地管理物理和虚拟环境提供了有效的管理工具,帮助管理人员有效掌控数据中心不断增长的复杂性。
数据中心的虚拟化可以分为垂直虚拟化和水平虚拟化两个方面。垂直虚拟化是硬件层面的虚拟化,它把服务器、存储、网络等硬件资源纵向地整合在一起,构筑了一个IT服务的资源共享池,在统一的管理工具下,可以对资源进行动态调配,从而根据负载实现资源的合理分配。
水平虚拟化是应用层面的虚拟化,它把同一类应用需求整合在一起。例如一个企业中多个系统都有自己的身份认证,通过水平虚拟化,他们被整合成一个。
而在虚拟化技术中,最核心的就是分区技术。蔡建华介绍HP分区技术分为具有完全电气隔离的硬分区、软分区和资源分区。
硬分区都有自己专用的CPU、RAM和I/O资源,同时带有硬件故障隔离功能的 *** 作系统映像,也就是说每个硬分区的物理故障都不会影响其他硬分区。
而在硬分区上可以再进行软分区。每个软分区有专用的CPU、RAM,同时能实现 *** 作系统和软件故障的隔离。
软分区以后,用户可根据自己的需求,在软分区里面用工具锁定CPU资源的不同百分比,供不同业务使用。目前,惠普可以细分的最小粒度是5%。
在惠普的虚拟环境中,HPux资源管理软件工具是其中的核心。通过这个工具,系统管理员可以制定关于系统为用户、用户组及应用分配处理器、实际内存及I/O资源的策略。另外,管理员可以根据应用状态指定服务级别,根据优先级,来动态分配资源从而实现业务目标。
“虚拟化可以帮助降低成本、提高灵活性、提升服务质量。”蔡建华说,在提高灵活性上,惠普下一代虚拟化解决方案中可以为多台物理服务器设置一个逻辑服务器,它后面的物理映射可以随时切换。如此一来,只需在逻辑服务器上配置一次,就可以在多个物理服务器上使用。
另外在保证高可用性方面,以前只能在不同的服务器之间做集群,经过虚拟化后,一个服务器上也可以做集群,这样就大大提高了每个服务器的容错性。
硬件方案同样离不开软件
数据中心的绿化方案中,有大量的硬件方面的策略,但是它们都离不开软件的统一指挥。
首先是服务器的散热和机柜的散热。这里面涉及了多种智能方案:主动式散热风扇、智能电源管理和并行的企业散热架构。
一般的风扇接上电源后只是恒速的转动,但是服务器和机柜内不同位置的温度并不相同,例如CPU的温度会高一些,而主板的温度会较低。同时不同时间热度也不一样,这对风扇的需求就不同。在主动式散热风扇中,利用软件来决定不同位置、以及不同时间的风扇功率,从而有效利用电力,把浪费降低到最小。
而在智能的电源管理中,通过软件来判断系统当前的负载状况,从而决定当前所需的电源功率,进一步调节UPS电源使用。惠普最新推出的服务器甚至可以根据CPU当前负载来动态调配对CPU的供电功率。
还有冷风在服务器和机柜内的走向也是可以调节的,这些看似是根据机械的原理,但是根据温度变化及时调整冷风走向也会离不开软件控制。
另外在整个数据中心中,传统的数据中心经常会出现过度制冷的现象,因为数据中心内部不同位置温度并不相同,但是为了让高温地区能够降到合理温度,整个数据中心的冷气就被调到最大。而通过智能化的控制手段,每个服务器旁边的传感器所收集的温度和空气流动信息都会被传送到中央控制台,中央控制台就根据既定的策略来调节冷气的排放。从而有效避免过度制冷现象出现,又能解决冷热不均的状况。
“未来的数据中心是智能化的数据中心,而这根本离不开软件这个大脑。”蔡建华说。XXX省信息中心通过近几年的信息化建设,采用自建及购买服务的方式,建设了以下省级政务云平台,承载省级政务应用:
目前共有50台服务器,其中44台使用VMware平台,承载省信大部分业务系统(网办等)。6台物理主机承载统战部和办公厅的两个系统。
使用华为设备,搭建阿里云,由阿里的数梦运维团队维护,省信息中心租用服务。
灾备云计划建设200物理核CPU,1T内存,50T存储,500T备份容量,实际建设224物理核CPU,32T内存,60T存储,742T备份容量,并开通2条万兆到省信机房的专线,一条GE互联网专线,分配一个C类公网IP地址段。
XXX省电子政务云项目采用阿里云飞天云平台提供计算能力和存储资源,根据2017年6月1日第三期的要求交付使用的资总量为4000物理核、内存45000 GB,FC-SAN 400 TB、IP-SAN 500 TB、分布式存储600 TB、虚拟带库300 TB、磁盘备份300 TB)。划分为政务外网区、互网区共两个资源池,满足不同的业务场景求。
通过在互联网和政务外网搭建政务云实验平台,提供IaaS 、PaaS和大数据服务等3个方面的有关服务,测试云平台的功能特性、安全性、兼容性等,同时可以使得省信息中心熟悉云平台的建、用、管等方面有关情况,主要包括云主机、云存储,云负载均衡、云安全等IaaS服务,云中间件、云数据库等系统软件服务(含高并发、高可用等要求)等PaaS服务以及大数据处理、算法建模、数据开发平台等大数据服务。同时协助将XXX省网上办事大厅、信息资源共享平台迁移到政务云实验平台,推进以云计算平台为基础进行系统整合,对网上办事大厅有关数据进行示范分析运用。大数据存储作为一个数据平台,其并不仅仅是一个用于数据存储的设备,其需要能够提供符合成本效益的规模和能力,消除数据迁移,没有存储孤岛,提供全局可访问的数据保护和保持数据的可用性。
1提供符合成本效益的规模和能力,不仅需要购买行业标准的服务器和存储产品,同时还要保证产品的扩展能力和性能。而且随着硬件的推移,能够根据需要进行扩展,存储系统需要能够持续保证企业的需求,通过增加存储系统来维持数据增长的性能需求。
2消除数据迁移,大数据平台必须满足数据增长而不会受到系统约束的能力。
3拒绝存储孤岛,为了能够充分利用大数据的机会,企业必须能够访问所有的数据,要实现这一点,新的存储平台必须能够满足这个要求,消除那些传统的存储孤岛,而不是简单的添加另一个存储解决方案。
4提供全局管理方式,一个集中的数据管理方式在大数据增长迅速的年代已经是不可行的了,一个单点故障的成本会很高,一个大数据存储平台必须能够管理分布在全球企业中的数据。
5保护和维护数据的可用性,数据价值越来越重要,为了防止企业级的产品硬件发生故障,存储平台必须通过智能软件来保持数据的可用性和完整性。
大数据工程师工作内容取决于你工作在数据流的哪一个环节。
从数据上游到数据下游,大致可以分为:
数据采集 -> 数据清洗 -> 数据存储 -> 数据分析统计 -> 数据可视化 等几个方面
工作内容当然就是使用工具组件(Spark、Flume、Kafka等)或者代码(Java、Scala等)来实现上面几个方面的功能。
具体说说吧,
数据采集:
业务系统的埋点代码时刻会产生一些分散的原始日志,可以用Flume监控接收这些分散的日志,实现分散日志的聚合,即采集。
数据清洗:
原始的日志,数据是千奇百怪的
一些字段可能会有异常取值,即脏数据。为了保证数据下游的"数据分析统计"能拿到比较高质量的数据,需要对这些记录进行过滤或者字段数据回填。
一些日志的字段信息可能是多余的,下游不需要使用到这些字段做分析,同时也为了节省存储开销,需要删除这些多余的字段信息。
一些日志的字段信息可能包含用户敏感信息,需要做脱敏处理。如用户姓名只保留姓,名字用''字符替换。
数据存储:
清洗后的数据可以落地入到数据仓库(Hive),供下游做离线分析。如果下游的"数据分析统计"对实时性要求比较高,则可以把日志记录入到kafka。
数据分析统计:
数据分析是数据流的下游,消费来自上游的数据。其实就是从日志记录里头统计出各种各样的报表数据,简单的报表统计可以用sql在kylin或者hive统计,复杂的报表就需要在代码层面用Spark、Storm做统计分析。一些公司好像会有个叫BI的岗位是专门做这一块的。
数据可视化:
用数据表格、数据图等直观的形式展示上游"数据分析统计"的数据。一般公司的某些决策会参考这些图表里头的数据~
当然,大数据平台(如CDH、FusionInsight等)搭建与维护,也可能是大数据工程师工作内容的一部分喔~
希望对您有所帮助!~
大数据云计算并不难学。云计算技术与应用主要研究计算机软硬件、网络、信息系统等方面基本知识和技能,进行云计算的系统建设、运行维护、云平台软件开发、测试评估、安全配置、迁移服务等。例如:运用大数据迅速拣货、配送的菜鸟云仓建设与应用,大数据平台规划与建设,云平台的研发等。
大数据专业主要课程有:Linux *** 作系统应用、虚拟化技术、Java程序设计、OpenStack系统应用、Hadoop分布式应用、数据存储技术、云平台管理系统、云数据中心构建与运维、云存储产品配置与应用、大数据平台和大数据分析、云安全产品配置与应用等。
大数据云计算可从事的工作岗位
:
1.云平台管理、服务架设、数据安全维护、性能优化的云平台运维工程师;
2.基于云应用类软件产品的开发、测试、部署、维护等的云服务应用/开发工程师;
3.推广销售云计算管理平台和服务器虚拟化软件及云应用软件系统的产品销售工程师;
4.处理客户的技术咨询,解决常见产品技术问题的技术客服;
5.为企业或政府搭建云计算管理平台,确保私有云平台顺利上线运行的云平台实施工程师。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)