互联网时代的网络自动化运维
互联网上有两大主要元素"内容和眼球","内容"是互联网公司(或称ICP)提供的网络服务,如网页、游戏、即时通信等,"眼球"则是借指海量的互联网用户。互联网公司的内容往往分布在多个或大或小的IDC中,越来越多的"眼球"在盯着ICP所提供的内容,互联网公司进行内容存储的基础设施也呈现出了爆发式的增长。为了保障对内容的访问体验,互联网公司需要在不同的运营商、不同的省份/城市批量部署业务服务器用以对外提供服务,并为业务模块间的通信建立IDC内部网络、城域网和广域网,同时通过自建CDN或CDN专业服务公司对服务盲点进行覆盖。因此随着业务的增长,运维部门也显得愈发重要。他们经过这些年的积累,逐步形成了高效的运维体系。本文将结合国内互联网公司的经验,重点针对IT基础设施的新一代自动化运维体系展开讨论。
一、运维的三个阶段
● 第一个阶段:人人皆运维
在早期,一个公司的IT基础设施尚未达到一定的规模(通常在几台到几十台机器的规模),不一定有专门的运维人员或部门,运维的工作分担在各类岗位中。研发人员拥有服务器权限,自己维护和管理线上代码及业务。
● 第二个阶段:纵向自动化
随着业务量的增长,IT基础设施发展到了另外一个量级(通常在上百台至几千台机器的规模),开始有专门的运维人员,从事日常的安装维护工作,扮演"救火队员",收告警,有运维规范,但运维主要还是为研发提供后置服务。
这个阶段已经开始逐步向流程化处理进行过渡,运维部门开始输出常见问题处理的清单,有了自己业务范围适用的自动化脚本,开始利用开源软件的拼装完成大部分的工作。
具体表现为:各产品线有自己编写的脚本,利用如SVN+puppet或chef来完成服务器的上线和配置管理等工作。
● 第三阶段:一切皆自动
在互联网化的大潮中,越来越多的黑马团队应运而生,都曾有过短时间内用户访问量翻N倍的经历。在流量爆发的过程中,ICP的互联网基础服务设施是否能够很好的跟进,直接决定了业务内容能否满足海量用户的并发访问。
与此同时,运维系统需要足够地完善、高效、流程化。谷歌、腾讯、百度和阿里等规模的公司内一般都有统一的运维团队,有一套或多套自动化运维系统可供参照,运维部门与开发部门会是相互平行的视角。并且也开始更加关注IT基础设施在架构层面的优化以及超大规模集群下的自动化管理和切换(如图1所示)。
图1大型互联网公司IT基础设施情况概览
二、BAT(百度、阿里、腾讯)运维系统的分析
国内的互联网公司百度、阿里、腾讯(以下简称:BAT)所提供的主要业务内容不同,IT架构不同,运维系统在发展过程中有不同的关注点。
1腾讯运维:基于ITIL的运维服务管理
预计到2015年腾讯在全国将拥有60万台服务器。随着2012年自动化部署实践的成功,目前正在进行自动化验收的工作。在网络设备方面,后续将实现从需求端开始的全自动化工作:设备清单自动生成->采购清单自动下发->端口连接关系、拓扑关系自动生成->配置自动下发->自动验收。整个运维流程也已由初期的传统IT管理演进到基于ITIL的服务管理流程(如图2所示)。
图2腾讯基于ITIL的运维服务管理
2阿里运维系统:基于CMDB的基础设施管理+逻辑分层建模
CMDB(Configuration Management Database) 配置管理数据库(以下简称:CMDB),将IT基础架构的所有组件存储为配置项,维护每个配置项的详细数据,维护各配置项之间的关系数据以及事件、变更历史等管理数据。通过将这些数据整合到中央存储库,CMDB可以为企业了解和管理数据类型之间的因果关系提供保障。同时,CMDB与所有服务支持和服务交付流程都紧密相联,支持这些流程的运转、发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。可实现IT服务支持、IT运维以及IT资产管理内部及三者之间的流程整合与自动化。在实际的项目中,CMDB常常被认为是构建其它ITIL流程的基础而优先考虑,ITIL项目的成败与是否成功建立CMDB有非常大的关系。
3百度自动化运维:部署+监控+业务系统+关联关系
百度主要面临的运维挑战包括:突发的流量变化、复杂环境的关联影响、快速迭代的开发模式以及运维效率、运维质量、成本之间的平衡等等。百度的运维团队认为,当服务器规模达到上万台时,运维视角需要转为以服务为粒度。万台并不等于"百台100";机器的运行状态,也不再代表业务的工作状态;运维部门为研发提供前置服务,服务与服务之间关系也随着集群的扩大逐渐复杂起来。
图3百度自动化运维技术框架
百度的自动化运维技术框架,划分为部署、监控、业务系统、关联关系四大部分,整个框架更多突出了业务与IT基础设施的融合,注重"关联关系"的联动。所谓关联关系,主要是指任务与任务之间的时序依赖关系、任务与任务之间的数据依赖关系、任务与资源之间的引用依赖关系,分别对应到任务调度、数据传输、资源定位的服务流程中,形成了多条服务链。
关联关系的运维与业务较强相关,需要有一套系统能够理清楚关系的全貌,从而在复杂的服务链上,定位运行所在的环节,并在发生故障时预估影响范围,及时定位并通知相应的部门。在这样的一套系统中,自动化监控系统非常重要。百度的技术监控框架,主要通过数据采集、服务探测、第三方进行信息收集,进行监控评估后交给数据处理和报警联动模块处理,通过API接口进行功能扩充(如图4所示)。
图4百度自动化技术监控框架
其实无论是BAT等互联网企业还是其他行业的企业,在IT建设中都会遵循IT基础架构库(ITIL)或ISO20000服务管理的最佳实践,采用自动化IT管理解决方案以实现重要的业务目标,如减少服务中断、降低运营成本、提高IT效率等等。随着ISO20000、ITIL v30的发布和推广,两者已经成为事实上的某种标准。在当今企业IT管理领域,对两个标准有着很迫切的需求。特别是ISO20000的认证要求,已经成为企业越来越普遍的需求 。ITIL v30包含了对IT运维从战略、设计到转换、运营、改进的服务全生命周期的管理,相关方案往往覆盖了多个领域和多个产品,规划实施和工具的选择会比较纠结。如果选择开源的工具,从CMDB开始就会遇到很多的开发工作,对于很多注重成本收益比的企业,可以参考,但由于无法保证性能与效果并不一定适用。因此,成熟的商业方案会是更好的选择。
最新的iMC V7版本,围绕资源、用户、业务三个维度进行创新,发布了SOM服务运维管理(基于ISO20000、ITIL标准)等组件,增加了对服务器的管理,能很好的满足更多互联网化的场景需求。
通常认为,一个高效、好用的配置管理数据库一般需要满足6条重要标准,即联合、灵活的信息模型定义、标准合规、支持内置策略、自动发现和严格的访问控制。企业IT基础架构的元素类型、管理数据的类型往往有较多种,如网络设备、服务器、虚拟机等,因此对于多种信息的存储需要有合适的联合的方法。虽然 iMC智能管理平台在网络设备、服务器设备等方面已经能够较好的的满足,但是随着服务器虚拟化技术的发展,虚拟机正越来越多的成为IT基础架构的一大元素。因此,针对这一需求华三通信基于CAS CVM虚拟化管理系统,对服务器CPU、内存、磁盘I/O、网络I/O等更细节的重要资源以及虚拟机资源进行全面的管理。与BAT不同,华三通信的网管软件面向全行业,目前虽然没有对域名管理等特殊资源的'管理,但是能够通过API接口等方式与特有系统进行联动,进而满足定制化运维的需求,尤其是在互联网化的场景中,针对不同的业务需求,可以实现很多定制化的对接需求,例如,iMC+WSM组件与国内某大互联网公司自有Portal系统进行了对接,打通了iMC工具与用户自有运维平台,很好的实现了架构融和。另外,与阿里的逻辑分层建模相似,H3C "iMC+CAS"软件体系在上层也做了很多的逻辑抽象、分层,形成了诸多的模块,也即是大家看到的各种组件。
三、网络自动化运维体系
"哪怕是一个只有基础技术能力的陌生人,也能做专业的IT运维;哪怕是一个只有初中学历的运维人员,也能够带队完成中小型机房节点的建设,并负责数百至上千台服务器的维护管理工作"--这是一些公司对自己IT运行维护水平的一个整体评价。看似有些夸大的嫌疑,但实际上依托于强大的IT运维系统,国内已经有不少互联网公司能够达到或者接近这一标准。
这些企业都经历了运维发展过程中的各个阶段,运维部门曾经也是被动的、孤立的、分散的"救火队"式的团队,在后来的发展过程中,IT系统架构逐渐走向标准化、模型化,运维部门建立了完整的设备、系统资源管理数据库和知识库,包括所有硬件的配置情况、所有软件的参数配置,购买日期、维修记录,运维风险看板等等,通过网管软件,进行系统远程自动化监控。运维过程中系统会收集所有的问题、事件、变更、服务级别等信息并录入管理系统,不断完善进而形成一套趋向自动化的运作支撑机制。按照云计算的体系架构,在这样一套系统中,主要的IT资源包括计算、存储、网络资源,近些年随着网络设备厂商的推动,网络设备管理方面的自动化技术也得到十足的发展。
总结来看,一个企业在进行互联网化的建设初期,就需要考虑到随着用户访问量的增加,资源如何进行扩展。具体可以细化为规划、建设、管理、监控、运维五个方面。
1规划模型化
为了确保后续业务能够平滑扩容,网管系统能够顺利跟进,互联网企业一般在早期整体系统架构设计时便充分考虑到标准化、模型化,新增业务资源就好比点快餐,随需随取。
标准化:一是采用标准协议和技术搭建,扩展性好,使用的产品较统一,便于管理;二是采用数据中心级设备,保证可靠性、灵活性,充分考虑业务系统对低时延的要求。
模型化:基于业务需求设计网络架构模型,验证后形成基线,可批量复制,统一管理,也适宜通过自动化提高部署效率、网管效率。
图5常见互联网IDC架构
2建设自动化
互联网IT基础设施具备批量复制能力之后,可以通过自动化技术,提高上线效率。在新节点建设过程中,3~5人的小型团队即可完成机房上线工作。例如某互联网公司某次针对海外紧急业务需求,一共派遣了2名工程师到现场进行设备安装部署和基本配置,而后通过互联网链路,设备从总部管理系统中自动获取配置和设备版本,下载业务系统,完成设备安装到机房上线不超过1周时间。
要达到自动化运维的目标,建设过程中需要重点考虑批量复制和自动化上线两个方面(如图6所示)。
批量复制:根据业务需要,梳理技术关注点,设计网络模型,进行充分测试和试点,输出软、硬件配置模板,进而可进行批量部署。
自动化上线:充分利用TR069、Autoconfig等技术,采用零配置功能批量自动化上线设备,效率能够得到成倍提升。
图6批量配置与自动化上线
○ Autoconfig与TR069的主要有三个区别:
○ Autoconfig适用于零配置部署,后续一般需要专门的网管系统;TR069是一套完整的管理方案,不仅在初始零配置时有用,后续还可以一直对设备进行监控和配置管理、软件升级等。
○ Autoconfig使用DHCP与TFTP--简单,TR069零配置使用DHCP与>虚拟化未来前景非常广阔。
随着数字化转型的加快,未来服务器虚拟化技术将拥有更为广阔的场景化应用前景。未来,随着云计算、大数据等技术的推动,该市场将呈现较快速的增长态势,市场发展空间仍然巨大。
在云计算、大数据和互联网+的驱动下,不同类型企业的应用场景不断细分且差异越来越大,加之业务快速发展,对IT基础架构的性能和可靠性的要求越来越高,因此企业对服务器虚拟化解决方案提出了新的要求,希望提供商能够针对不同应用场景提供定制化的方案,例如针对业务运维或者云管理进行优化;对于数据库场景,对性能、稳定性和可靠性的要求则非常高,这些都要求提供商能够有针对性地优化解决方案,这也是当前用户最需要的。
虚拟化是一个巨大的趋势,把物理资源转变为逻辑上可以管理的资源,打破了物理结构之间的壁垒。在未来,所有的资源都透明的运行的在各种各样的物理平台上,资源的管理都将按逻辑方式进行,完全实现资源的自动化分配,而虚拟化技术成为我们实现这一理想的唯一工具。
服务器运维工程师需要收集、整理所有技术问题和客户意见,反馈给相关部门或人员。下面是我为大家带来的服务器运维工程师工作的具体内容十篇,希望大家能够喜欢!
服务器运维工程师工作的具体内容1
职责:
1、负责公司网站服务器安装及配置;
2、负责公司网站及服务器的稳定运行,监控网络状态、及时排除各种异常,优化配置软硬件资源;
3、负责服务器和网站的安全工作,定期进行安全漏洞扫描分析和入侵检测并提出解决方案;
4、负责数据库备份、数据迁移、数据监控,编制汇总故障、问题,定期提交汇总 报告 ;
5、负责公司网站服务器集群部署,优化负载及容灾;
6、负责网络监控和应急反应,以确保网络系统有7 24小时的持续运作能力。
任职资格:
1、大专以上学历,熟悉信息安全体系和安全标准,对信息安全体系和安全风险评估有较全面的意识;
2、精通服务器及网络安全产品配置原理,如防火墙、身份认证、漏洞评估、网络防病毒;
3、熟悉TCP/IP协议,熟练掌握网络相关设备的配置技术,如路由器、交换机、防火墙、负载均衡器等,有服务器集群部署相关 经验 ;
4、熟悉常见的网络攻击和防守技巧(包括服务漏洞扫描、程序漏洞分析检测、入侵和攻击分析追踪、病毒、木马防范。熟悉SQL注入原理和手工检测);
5、 熟悉Linux下各种环境搭建配置及维护;
6、 熟悉MYSQL等数据库配置、维护、优化;
7、 精通shell、python、perl、PHP脚本语言之一;
8、具有至少2年以上的共有云运维经验。
服务器运维工程师工作的具体内容2
职责:
1负责IDC机房内服务器的日常维护工作
2服务器系统的安装/调试/环境配置/安全配置
3排除简单网络故障,交换机简单调试及流控
4和其他部门协调,支持其他部门工作
5按公司规定接受和处理客户问题,为客户提供优质服务及日常上、下架工作。
任职要求:
1、计算机或相关专业专科以上学历。
2、熟悉Windows/Linux常用网络服务的系统安装配置与使用
3、熟悉二层交换机,有网络维护经验者优先考虑
4、熟悉Docker者优先考虑
5、有良好的沟通能力、团队协作精神
服务器运维工程师工作的具体内容3
职责:
1、执行和监督执行服务器系统管理制度;
2、日常驻场维护工作:PC服务器设备维护,发现异常后的应急处理以及故障的排查和解决;针对PC服务器系统提出相应的软硬件优化方案;
3、客户服务、系统集成及相关工作;
4、运维服务文档, 总结 报告撰写等相关工作。
任职条件:
1、大专或以上学历;
2、两年以上PC服务器系统维护经验;
3、精通PC服务器硬件架构、Windows server、Linux等 *** 作系统 配置;
4、熟悉VMWARE虚拟机系统和配置。
服务器运维工程师工作的具体内容4
1、数据中心服务器计算与存储规划、建设和运维,
2、系统建设和优化项目管理,制订和实施网络优化方案,提升平台指标,提高业务系统的网络性能和速度,提升使用效率。
3、负责故障排查和应急处理,确保任何突发情况都能高效响应,保证系统7x24小时正常稳定运行;
4、制订服务器和存储相关系统建设标准,推进实现平台运维标准化管理。
5、网络安全推进和协同。
服服务器运维工程师工作的具体内容5
1、对服务器进行日常维护,确保各项服务连续正常运行,无重大事故;
2、负责服务器存储网络等基础平台的技术维护和问题处理 ;
3、负责执行大客户服务项目的定制化服务配置和硬件安装等处理工作;
4、了解 *** 作系统安装与配置;
5、具备一定的网络相关故障解决能力;
6、熟悉主流厂商PC服务器硬件安装与配置;
7、Windows、Linux、VMware等日常管理、维护;
8、负责服务器异常或故障的受理、跟踪、解决以及统计分析;
服务器运维工程师工作的具体内容6
职责:
1、负责IBM、HP、DELL等业界主流品牌的服务器安装配置及日常维护工作;
2、负责VMWare虚拟化平台项目实施及维护工作;
3、负责EMC、DELL等企业级存储及其SAN网络的安装配置及日常维护工作;
4、负责服务器集群拓扑及SAN存储网络部署;
5、解决实施工作中的技术难题,挖掘客户需求,提出针对性的解决方案;
6、编写各类维护文档,譬如: 实施方案 、实施报告、巡检报告、故障处理报告等等。
岗位要求:
1、计算机相关大专以上学历,3年以上IT运维或机房管理工作经验;
2、熟悉主流X86服务器(IBM/HP/华为)和存储的运维和管理;
3、熟悉思科、华为等主流网络设备的配置和问题排错;
4、熟悉vmware虚拟化架构技术,具有虚拟化的搭建和运维经验,对vmware的存储、灾备、网络、安全、升级、虚拟机管理、监控和性能等有深刻的理解;
5、有一定的信息安全实施经验,对 *** ,防火墙,上网行为管理以及内网安全有深入理解和实 *** 经验;
6、熟悉服务器运维及服务器架设,包括AD域,IIS,DNS、双机集群等各类windows服务器的配置管理;
7、熟悉openstack或者cloudstack任意一种平台的部署实施,有成功搭建或者部署经验优先。
服务器运维工程师工作的具体内容7
职责:
1 负责或参与智能连接产品(智能耳机,音箱等)后端系统的设计、代码实现;
2 参与制定前后端业务流程、接口协议、文档输出等;
3 负责或参与前端程序(APP, Device)的对接、调试;
4 持续迭代开发,改善系统性能,用户体验。
岗位要求
1 五年以上服务器端开发经验,一年以上Go语言开发经验;
2 熟悉linux,对服务器性能优化有一定了解,有高并发项目经验优先;
3 熟练掌握nginx、mongodb、Redis等开源组件;
4 了解服务器安全配置相关的知识;
5 熟悉多线程和网络编程,有分布式系统项目经验者优先;
6 有可穿戴产品后台开发经验者优先。
服务器运维工程师工作的具体内容8
职责:
1、负责公司系统集成项目中HP、DELL等服务器及IBM、NetApp、HDS等存储产品的初始化安装、技术支持、维护等工作。
2、根据客户的应用环境及需求,独立完成整体项目规划和实施;
3、创建相关的技术实施方案,并在实施过程中提供技术支持;
4、服务器发生系统故障时的分析与解决,在售后服务体系中提供现场支持工作。
岗位要求:
1、计算机、通信工程等相关专业 毕业 ,大专及以上学历
2、两年以上服务器工程师经验,熟练掌握Linux/Windows系统,了解Oracle、SQL sever数据库
3、熟悉HP、Dell等主流服务器厂商产品,具备系统、数据库和存储的整体概念,对存储应用系统有一定的了解
4、具有以下技能资格优先考虑:
服务器运维工程师工作的具体内容9
职责:
1负责项目中Wintel服务器的搭建部署配置,排错、故障处理, 备份恢、等工作。
2负责项目中Wintel服务器HA测试,BUR 测试,DR测试等相关工作。
3熟悉Windows server的日常运维,如日常巡检、备份、故障排查、漏洞修复、优化等工作。
4熟悉微软AD、Exchange、SCCM等相关应用运维工作。
5熟悉VMWARE虚拟化平台的日常运维管理
6熟悉EMC存储设备。
8DCS项目管理经验
任职要求:
16年以上金融行业Wintel server及AD、Exchange、SCCM运维管理经验。
2精通Windows server 2008/2012/2016
3熟练使用powershell编写脚本。
4熟练使用VM环境,具备VMWARE相关知识。
5良好的团队协作沟通能力,较强的学习能力。
6具备较好的英语书写能力及文档方案写作能力。
7熟悉ITIL服务流程。
8具备MSCE,VMWARE及ITIL ,PMP相关认证者优先考虑。
9有良好的抗压能力。
10金融企业数据中心迁移项目经验。
服务器运维工程师工作的具体内容10
职责:
1负责健康平台等系统后端服务开发;
2参与项目的需求分析,负责项目的设计和开发;
3 良好的编程习惯,根据项目任务计划独立按时完成高质量的编码和测试工作;
4 配合测试人员进行bug修复、完善产品功能体验。
任职要求:
1精通Golang或PHP、Nodejs等语言,3年以上Web开发经验,具有高并发开发工作经验;
2精通 Mysql及Nosql 数据库(Memcached、Redis 等);
3熟悉一种 web开发框架(Golang/PHP);
4对分布式、高可用、高性能,海量数据处理设计及开发有一定实践经验;
5较强的分析问题解决问题能力,工作踏实上进,有良好的团队合作意识 ,有大型互联网工作经验优先。
服务器运维工程师工作的具体内容相关 文章 :
★ 运维服务工程师的具体职责
★ 网络运维工程师岗位职责具体内容
★ 系统运维工程师工作职责都有哪些
★ 系统运维工程师工作职责具体内容
★ 网络运维工程师岗位的基本职责概述
★ 系统运维工程师工作职责与任职要求
★ 网站运维工程师的具体职责范围
★ 网站运维工程师的主要职责概述
★ 系统运维工程师的具体内容
★ 大数据运维工程师的具体职责描述
var _hmt = _hmt || []; (function() { var hm = documentcreateElement("script"); hmsrc = ">欢迎分享,转载请注明来源:内存溢出
评论列表(0条)