数据中心运维工作内容_服务器

如何做好大型数据中心的运维

什么是数据中心？维基百科将其定义为“数据中心是一套复杂的设备。它不仅包括计算机软件和其他配套设施(如通信和分布式存储)，还包括冗余数据通信连接、自然环境控制系统、监控系统和各种保险装置”。在云盛行的今天，随着数据中心项目规模的不断发展和新技术的频繁应用，数据中心变得越来越复杂。大中型数据中心通常由许多功能不同的模块化系统软件组成。他们的运维工作必须具备各方面的专业知识，包括硬件配置、互联网、服务器、存储、安全、业务项等。它们必须整合和链接起来，才能做好运维工作。

当一个数据中心的运营规模非常大的时候，会遇到很多技术上的挑战和问题，很多在小的自然环境和小的管理体系下并不难的问题，会在那个运营规模下凸显出来。所以在大中型数据中心的运维中，需要花费很长的时间来系统的学习所有数据中心各个方面涉及到的技术管理体系，只有对数据中心完全掌握，才能有目的的制定一些运维方案，开发设计一些手机软件来监督运维，对所有数据中心进行高效的管理方法和监督，提升所有数据中心的运行效率，减少常见故障的发生，进而不断引领运维工作走向新的长宽比。

一个大中型的数据中心通常包含很多小型的系统软件。运维工作都是紧紧围绕这个实际的软件系统来进行的，实际上可以分为六大部分:基础运维管理方法、日常业务运维、互联网、服务器、存储、安全。在本文中，我们将谈谈一个大中型数据中心应该具备哪些运维方法和工作能力。

首先，从数据中心的基础运维管理来说，重点是系统配置管理方法、可扩展性提升、监管、告警解决、自动化技术运维、主机房断网、断电、容灾备份等。系统配置管理办法包括服务器机柜中每台服务器的型号规格和系统配置，明确这台服务器应用的是什么业务系统软件。即使在虚拟化技术运行的自然环境中，也需要知道这个虚拟机的物理机制所形成的资源池中的移动性。数据中心的物理机和虚拟机数量庞大，需要应用自动化技术进行运维。自动化运维不仅可以提高运维效率，还可以减少人为因素的参与。另外，数据中心可以自我控制，释放人力资源。除此之外，还应该对数据中心可能出现的常见故障进行监控和报警，以便在出现常见故障时第一时间了解棘手的问题。通常一个大的共性故障是由一开始的一个小的共性故障逐渐扩大的，最终导致整个大系统软件的崩溃。因此，一些微小的异常必须立即清除，并且这种异常需要由声音监控和报警设备来检查。

从数据中心的日常业务运维方面，重点是日常巡检、运行变更、软硬件升级、突发常见故障等。总的来说:1。日常巡查:“溃于蚁穴，千里之堤”。所有的常见故障在出现之前都很可能有一定的主要表现，轻微的安全隐患没有清除，很可能造成严重的常见故障。所以数据中心的日常例行检查虽然枯燥，但是及时处理一些运行中的安全隐患也是非常重要的。根据数据中心安装业务的不同需求，需要对数据中心内所有运行的机器设备进行例行检查。检查服务器业务系统是否正常，CPU运行内存利用率是否正常。检查业务使用情况，看是否一切正常。还要检查数据中心主机房的自然环境，看自然环境的温度、湿度、灰尘是否符合要求。中央空调度，供配电系统运行是否良好，机器设备是否超温运行，木地板，全景天窗，消防安全，监管等都是检查的内容。空内调机漏水、机器设备停电都会对数据中心的正常顺畅运行造成危害，千万不要忽视。2.应用变化:安装在数据中心的业务不易静态。随着业务的多样化和可持续发展趋势，经常需要对业务进行调整，包括服务器和互联网的设置。因此，要了解服务器和计算机设备的实际 *** 作，关键是掌握Linux服务器指令和网络层协议。根据应用程序的需要，立即准确地进行更改。3.软硬件升级:数据中心的机器设备一般运行周期为五年，部分机器设备需要逐步更换。由于软件缺陷，一些机器和设备必须升级，因此硬件和软件升级也是维护工作的一部分。在升级硬件的时候，一定要做好退货制度，防止升级不退货，业务长时间无法修复。在接手数据中心维护工作的时候，你会发现为什么会有这么多的升级。基本上每个月都要有一次实际的升级 *** 作，升级工作时经常熬夜成了维护人员的家常便饭。4.突发的常见故障:没有什么是一个数据中心没有的常见故障，数据中心运行的全过程都会出现各种各样的问题。针对突发的常见故障，高素质的维修人员能够静下心来理性分析常见故障的原因，并迅速找到处理方法。如果短时间内找不到解决方案，他们也可以按照切换到预留的机器设备先修复业务，再进行分析。这个时候，对于一个数据中心来说，拥有高素质的维护人员就显得尤为重要，他们可以在关键时刻大显身手。虽然这种工作看起来很普通，但是不要小看他们。事实上，数据中心的日常维护非常关键，关系到所有数据中心业务的正常运行。只有高度重视数据中心的维护，数据中心才能安全。

从数据中心互联网的角度，重点是互联网硬件配置、ACL、OSPF、LACP、VIP、协议分析、总流量、三层交换机、2347层状态、网络视频监控、万兆主控板、密钥交换等。它是互联网数据中心的关键组成部分，是一切工作的基础。它的运行离不开互联网数据中心，所以保证互联网的稳定性是数据中心运维的重中之重。在这里，我们不仅要关心互联网的硬件配置问题，还要关心SDN软件定义的互联网。传统IT框架下的互联网根据业务需求部署发布后，如果业务需求发生变化，重新改变相关计算机设备(无线路由器、网络交换机、服务器防火墙)的配置是一件非常复杂的事情。但在当今互联网技术/移动互联网变幻莫测的商业环境下，互联网的高稳定性和优异性能不能不考虑业务需求，协调能力和灵敏度更为重要。SDN做的是从计算机设备中提取决策权，通过集中控制板进行管理，而不是依赖最底层的计算机设备(无线路由器、网络交换机、服务器防火墙)，屏蔽来自最底层计算机设备的差异。决策权完全对外开放，客户可以决定自己想要完成的所有互联网路由器和传输标准对策，从而更加灵活和智能。SDN更新后，不需要持续配备互联网中每个连接点的无线路由器，互联网中的机器和设备通过自动化技术连接。在应用中只需要定义简单的互联网标准。如果你讨厌无线路由器本身内嵌的协议，你可以根据编程的方法改变它，完成更强的数据传输特性。比如百度搜索自研的网络交换机，可以立即应用SDN的远程控制设备和管理方式的特点，然后完成自动分发。未来，自研网络交换机将继续与服务器自动化技术的发布进一步结合，提高服务器的交付和管理效率。互联网可以说是应有尽有，涉及太多的机器、设备和协议，手机软件层的技术性。因此，也需要不断地学习和培训，增加对网络技术的了解，从而做好互联网的运维工作。

从数据中心服务器层面，重点是系统文件、核心主要参数的调优、各种硬盘、内核版本、内核死机等。Linux系统软件不仅在服务器上，而且在计算机网络上也有广泛的影响。只有掌握了Linux系统软件的应用，才能更好的解决服务器和电脑设备的运维。Linux是运维专业技能。除了要了解Linux系统软件的实际运行情况，还要对服务器运行和核心运行进行监督管理的方法，减少常见服务器故障的发生。一般大中型数据中心都包括无数的服务器。基本上每天服务器都会出现各种问题。只有对服务器有了深入的了解，才能很好的排除问题。为了更好地避免常见服务器故障导致的服务终止，一般在服务器上部署虚拟技术或集群技术。当一台服务器的物理硬件配置普通时，业务可以顺利转移到其他服务器，业务不容易遭受所有危害。这种虚拟技术提高了运维的难度系数，也需要对虚拟技术进行渐进式的学习和训练。另外，数据中心服务器的定制也是一件比较有意义的事情。云计算技术必须大规模部署，所以服务器必须有更高的部署相对密度、环保、节能、易管理的方法。但是每个连接点的数学计算规则都不是很严格。而厂商制造的通用服务器，功能多，扩展性强，忽略了成本和能耗，因为要集成到各种应用中。如果是专门为云定制的服务器，会针对云的特点进行可靠性设计，更符合客户的需求。对于公司来说，其好处不言而喻。试想，即使每台定制服务器节省的电力工程有限(4个开关电源改为2个开关电源)，对于大规模部署的数据中心来说，长期来看，节省的成本不言而喻。比如谷歌所有的服务器都是自己设计的，有定制的托盘，内置充电电池作为备用电源。相比传统服务器，成本和功耗肯定要低很多，这也为谷歌节省了巨大的电力工程支出。

从数据中心存储的角度来看，架构更加多样和复杂。云计算技术、虚拟化技术、互联网大数据等相关技术进入数据中心后，存储已经发生了很大的变化。块存储、文档存储、阿里云oss支持各种基础数据类型的加载；集中式存储不再是数据中心流行的存储架构，海量信息的存储和浏览必须由扩展性和灵活性都很强的分布式系统架构来完成。在规模系统的软件支撑点上，分布式存储、分布式系统阿里云oss等技术为存储的各种应用展现了可伸缩的长宽比、可扩展性和巨大的可扩展性以及强大的数据信息浏览特性的支撑点。此外，由于将这种分布式技术应用于标准化的硬件配置，规模数据中心存储已经基本上以降低的成本构建和运行。分布式系统不是为了取代目前的磁盘阵列，而是为了更好地适应信息量和网络带宽快速增长所导致的分布式存储形式。另外，软件定义存储意味着一种发展趋势，即存储架构上的手机软硬件配置分离，即数据信息层和 *** 控层分离。对于数据中心客户来说，根据手机软件完成服务器资源的管理方法和生产调度，完成服务器资源的虚拟化技术、抽象概念和自动化技术，就可以详细完成数据中心分布式存储的部署、管理方法、监督和调整等几项规定，使分布式存储具有灵活性、随机性和高可用性。公司的互联网数据每年以50%的速度递增。增加的数据信息中非结构化数据的总产出相对有限，而且大部分是非结构化和半非结构化数据。数据中心存储架构必须具有很强的扩展性和适应业务发展趋势的能力。降低成本、广泛扩展和分布式系统特性是大中型云数据中心存储架构的基本技术特征。如何进行庞大而杂乱的数据存储和深度应用解决方案，并快速获取有用的信息内容，进行业务服务管理决策，将成为各类公司的基本生存，以及未来存储的业务发展前景及其围绕存储框架的不断演进。

最后，从数据中心安全的角度来说，安全就是几个小项:**新增项如维护、升级备份数据、抓bug/找bug、脚本制作专用工具、网络信息安全、服务项安全检查等。，其中每一项实际上都包含了很多内容。比如说***和维护，这个关键指的是避免外界的变态***人对数据中心有意无意的***破坏。蓄意**是指有人故意使用各种***方式进入数据中心，窃取或破坏关键数据信息，以达到其不为人知的目的。有些是不经意的***，由于所有的数据中心都要保持与外界的数据共享，其运行是动态变化的，很难避免一些总流量异常的数据中心***，有时甚至来自数据中心内部，比如一些服务器中毒，常见的硬件配置故障，结构出环，总流量异常等网络问题，都会危及数据中心的运行。所以，如何做好数据中心的维护和保养是一个非常大的问题，不是在数据中心部署多种安全防护设备就能搞定的。所有的数据中心都要全面规划，一些安全防护措施要有目的的部署。随着各种技术的改进，安全防护措施也必须不断改进，这是一个不断进步和完善的全过程。如果数据中心仍在运行，这为了使MRT更方便，也有必要制作一些脚本，以便在紧急情况下，问题可以快速解决。比如发现一个数据中心的业务出现异常，为了更好的快速修复业务，必须对路由器进行调整，总流量必须全部引向其他数据中心，所以调整必须在核心路由器上进行。这时可以自动制作一个已有的脚本，从而达到快速转换的目的。数据中心还应该提前为许多其他任务准备脚本，以便在紧急情况下可以快速应用它们。

基于以上分析，你一定很惊讶。原来的数据中心运维包括这么多的内容，几十项，每一项的内容都不是说的那么简单，还涉及到很多的技术专业知识。一般来说，数据中心是企业、公司或政府机构的信息资源管理中心。基本上所有的业务都要经过数据中心才能开展，所以数据中心对于一个公司或者政府机构来说尤为重要。而一个数据中心能否平稳高效的运行，运维真的很重要。只有做好运维的各个环节，数据中心才能长久稳定。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/779925.html

数据中心运维工作内容

发表评论

评论列表（0条）