运维工作中,如何缩短故障影响时间?

运维工作中,如何缩短故障影响时间?,第1张

答案如下:

如今中小型企业信息化推进速度在加快,

各种应用和业务系统在不断地增加中,所以对整个IT运维系统的安全性、稳定性以及出现状况时如何应对都比较重视,尤其是在预防和处理重大IT风险方面更加重视,主要体现在以下几方面:

一、IT机房安全风险

1、机房在无人值守的时候一定要锁上;

2、未经IT部门允许,无关人员不得随意进入机房;

3、机房内要严格采取防雷、防火、防尘、防静电等措施。

_

二、电源安全风险

1、必须启用UPS备用电源;

2、定期检查机房内供电系统和线路;

3、当机房发生突然停电,首先和相关部门确认停电原因,并确认UPS电池可用时间,并根据何时来电信息来决定是否要关闭相关IT设施。

_

三、消防安全风险

1、EHS部门要定期检查机房内消防设施,确保消防设施能够正常使用;

2、工作时间发生火灾时,应及时撤离机房周围人员并通知EHS部门,在保证自身安全并得到EHS部门许可的情况下,员工应关闭电源并使用合适的灭火器灭火,如果火势无法得到有效控制,应立即拨打119;

3、非工作时间发生火灾,值班人员应及时拨打119并上报相关人员,做好火灾处置工作;

4、火灾结束后,IT相关人员应立即到现场检查相关设备,及时评估事故损失情况,并给出相应的系统恢复解决方案。

_

四、数据安全风险

1、定期备份重要数据;

2、定期进行数据恢复验证

3、备份数据异地存放

_

以上就是IT运维风险处理计划,每个公司可能有所不同,但都是大同小异,预防和处理重大IT风险,IT运维人员在平时就要做足功课,以免临阵手忙脚乱。

账户安全隐患问题,对于维护人员来讲,频繁地切换系统,需要输入不同系统的用户名和口令进行登录,为了便于记忆,常有维护人员会采用比较简单的口令,或多个系统使用同样的口令,紧急情况下还可能将自己的用户名和口令共享给他人使用,这些都对整个系统的安全性产生极大威胁。

如果企业建立了完善的实时监控告警以及故障定位机制,那么故障影响时间可实现大幅缩短,甚至将故障影响时间控制在分钟级别。

目前大多数企业的IT运维流程都无法实现完全脱离人工 *** 作,而人工运维将事故发生概率显著提升。我们常用的运维监控手段是通过对系统关键指标数据的监测,及时发现数据异常并向运维人员发出告警。

IT系统和设备在运行时都会产生大量日志数据,这些日志数据中包含了各种各样的系统运行信息。如果对这些日志数据中的关键字段进行提取,建立监控规则,发现异常将第一时间告警,同时基于历史数据建立分析模型并借助机器学习等算法进行异常检测,进而实现预测异常的发生。

云帮手能够提供强大的实时告警、故障定位和故障检测功能,强有力地帮助工程师实时可控地监测系统运行,大大减少事故发生概率,大幅缩短故障影响时间。

采用何种远维方案可谓见仁见智,并且不同的公司有不同的安全需求和硬件前提。毫无疑问,远程维护不同于本地运维采用什么样的远维方案应该有一个基本的原则。安全和方便应该是选择远维方案的出发点。

远维首先要保证安全性,不管是内网还是外网的远控要保证控制端与被控端的唯一性。也就是说,要预防第三端的介入,杜绝“第三人”的参与。要做到这一点,在被控端要做好安全部署(比如关闭多余端口、IP过滤、控制列表等),以防未经授权的恶意控制。另外,远控方式的安全性也要保证(比如对数据进行加密等),以防“中间人”的嗅探。

远维的方便性这个很好理解,也是IT人员追求的目标。方便性应该包括两个方面的含义,一是 *** 作上的便利,能够以最快的速度实施远程维护,二是远维较少受外界因素的限制(比如地理位置、软硬件设备等),可以随时随地的进行远维。选择方便的远维方案,不仅提高了工作效率,而且保证了假日的质量。

给你个专业的。(信息安全的运维管理)

725 系统运维管理

7251 环境管理(G3)

本项要求包括:

a) 应指定专门的部门或人员定期对机房供配电、空调、温湿度控制等设施进行维护管理;

b) 应指定部门负责机房安全,并配备机房安全管理人员,对机房的出入、服务器的开机或关机等工作进行管理;

c) 应建立机房安全管理制度,对有关机房物理访问,物品带进、带出机房和机房环境安全等方面的管理作出规定;

d) 应加强对办公环境的保密性管理,规范办公环境人员行为,包括工作人员调离办公室应立即交还该办公室钥匙、不在办公区接待来访人员、工作人员离开座位应确保终端计算机退出登录状态和桌面上没有包含敏感信息的纸档文件等。

7252 资产管理(G3)

本项要求包括:

a) 应编制并保存与信息系统相关的资产清单,包括资产责任部门、重要程度和所处位置等内容;

b) 应建立资产安全管理制度,规定信息系统资产管理的责任人员或责任部门,并规范资产管理和使用的行为;

c) 应根据资产的重要程度对资产进行标识管理,根据资产的价值选择相应的管理措施;

d) 应对信息分类与标识方法作出规定,并对信息的使用、传输和存储等进行规范化管理。

7253 介质管理(G3)

本项要求包括:

a) 应建立介质安全管理制度,对介质的存放环境、使用、维护和销毁等方面作出规定;

b) 应确保介质存放在安全的环境中,对各类介质进行控制和保护,并实行存储环境专人管理;

c) 应对介质在物理传输过程中的人员选择、打包、交付等情况进行控制,对介质归档和查询等进行登记记录,并根据存档介质的目录清单定期盘点;

GB/T 22239—2008

28

d) 应对存储介质的使用过程、送出维修以及销毁等进行严格的管理,对带出工作环境的存储介质进行内容加密和监控管理,对送出维修或销毁的介质应首先清除介质中的敏感数据,对保密性较高的存储介质未经批准不得自行销毁;

e) 应根据数据备份的需要对某些介质实行异地存储,存储地的环境要求和管理方法应与本地相同;

f) 应对重要介质中的数据和软件采取加密存储,并根据所承载数据和软件的重要程度对介质进行分类和标识管理。

7254 设备管理(G3)

本项要求包括:

a) 应对信息系统相关的各种设备(包括备份和冗余设备)、线路等指定专门的部门或人员定期进行维护管理;

b) 应建立基于申报、审批和专人负责的设备安全管理制度,对信息系统的各种软硬件设备的选型、采购、发放和领用等过程进行规范化管理;

c) 应建立配套设施、软硬件维护方面的管理制度,对其维护进行有效的管理,包括明确维护人员的责任、涉外维修和服务的审批、维修过程的监督控制等;

d) 应对终端计算机、工作站、便携机、系统和网络等设备的 *** 作和使用进行规范化管理,按 *** 作规程实现主要设备(包括备份和冗余设备)的启动/停止、加电/断电等 *** 作;

e) 应确保信息处理设备必须经过审批才能带离机房或办公地点。

7255 监控管理和安全管理中心(G3)

本项要求包括:

a) 应对通信线路、主机、网络设备和应用软件的运行状况、网络流量、用户行为等进行监测和报警,形成记录并妥善保存;

b) 应组织相关人员定期对监测和报警记录进行分析、评审,发现可疑行为,形成分析报告,并采取必要的应对措施;

c) 应建立安全管理中心,对设备状态、恶意代码、补丁升级、安全审计等安全相关事项进行集中管理。

7256 网络安全管理(G3)

本项要求包括:

a) 应指定专人对网络进行管理,负责运行日志、网络监控记录的日常维护和报警信息分析和处理工作;

b) 应建立网络安全管理制度,对网络安全配置、日志保存时间、安全策略、升级与打补丁、口令更新周期等方面作出规定;

c) 应根据厂家提供的软件升级版本对网络设备进行更新,并在更新前对现有的重要文件进行备份;

d) 应定期对网络系统进行漏洞扫描,对发现的网络系统安全漏洞进行及时的修补;

e) 应实现设备的最小服务配置,并对配置文件进行定期离线备份;

f) 应保证所有与外部系统的连接均得到授权和批准;

g) 应依据安全策略允许或者拒绝便携式和移动式设备的网络接入;

GB/T 22239—2008

29

h) 应定期检查违反规定拨号上网或其他违反网络安全策略的行为。

7257 系统安全管理(G3)

本项要求包括:

a) 应根据业务需求和系统安全分析确定系统的访问控制策略;

b) 应定期进行漏洞扫描,对发现的系统安全漏洞及时进行修补;

c) 应安装系统的最新补丁程序,在安装系统补丁前,首先在测试环境中测试通过,并对重要文件进行备份后,方可实施系统补丁程序的安装;

d) 应建立系统安全管理制度,对系统安全策略、安全配置、日志管理和日常 *** 作流程等方面作出具体规定;

e) 应指定专人对系统进行管理,划分系统管理员角色,明确各个角色的权限、责任和风险,权限设定应当遵循最小授权原则;

f) 应依据 *** 作手册对系统进行维护,详细记录 *** 作日志,包括重要的日常 *** 作、运行维护记录、参数的设置和修改等内容,严禁进行未经授权的 *** 作;

g) 应定期对运行日志和审计数据进行分析,以便及时发现异常行为。

7258 恶意代码防范管理(G3)

本项要求包括:

a) 应提高所有用户的防病毒意识,及时告知防病毒软件版本,在读取移动存储设备上的数据以及网络上接收文件或邮件之前,先进行病毒检查,对外来计算机或存储设备接入网络系统之前也应进行病毒检查;

b) 应指定专人对网络和主机进行恶意代码检测并保存检测记录;

c) 应对防恶意代码软件的授权使用、恶意代码库升级、定期汇报等作出明确规定;

d) 应定期检查信息系统内各种产品的恶意代码库的升级情况并进行记录,对主机防病毒产品、防病毒网关和邮件防病毒网关上截获的危险病毒或恶意代码进行及时分析处理,并形成书面的报表和总结汇报。

7259 密码管理(G3)

应建立密码使用管理制度,使用符合国家密码管理规定的密码技术和产品。

72510 变更管理(G3)

本项要求包括:

a) 应确认系统中要发生的变更,并制定变更方案;

b) 应建立变更管理制度,系统发生变更前,向主管领导申请,变更和变更方案经过评审、审批后方可实施变更,并在实施后将变更情况向相关人员通告;

c) 应建立变更控制的申报和审批文件化程序,对变更影响进行分析并文档化,记录变更实施过程,并妥善保存所有文档和记录;

d) 应建立中止变更并从失败变更中恢复的文件化程序,明确过程控制方法和人员职责,必要时对恢复过程进行演练。

72511 备份与恢复管理(G3)

本项要求包括:

a) 应识别需要定期备份的重要业务信息、系统数据及软件系统等;

GB/T 22239—2008

30

b) 应建立备份与恢复管理相关的安全管理制度,对备份信息的备份方式、备份频度、存储介质和保存期等进行规范;

c) 应根据数据的重要性和数据对系统运行的影响,制定数据的备份策略和恢复策略,备份策略须指明备份数据的放置场所、文件命名规则、介质替换频率和将数据离站运输的方法;

d) 应建立控制数据备份和恢复过程的程序,对备份过程进行记录,所有文件和记录应妥善保存;

e) 应定期执行恢复程序,检查和测试备份介质的有效性,确保可以在恢复程序规定的时间内完成备份的恢复。

72512 安全事件处置(G3)

本项要求包括:

a) 应报告所发现的安全弱点和可疑事件,但任何情况下用户均不应尝试验证弱点;

b) 应制定安全事件报告和处置管理制度,明确安全事件的类型,规定安全事件的现场处理、事件报告和后期恢复的管理职责;

c) 应根据国家相关管理部门对计算机安全事件等级划分方法和安全事件对本系统产生的影响,对本系统计算机安全事件进行等级划分;

d) 应制定安全事件报告和响应处理程序,确定事件的报告流程,响应和处置的范围、程度,以及处理方法等;

e) 应在安全事件报告和响应处理过程中,分析和鉴定事件产生的原因,收集证据,记录处理过程,总结经验教训,制定防止再次发生的补救措施,过程形成的所有文件和记录均应妥善保存;

f) 对造成系统中断和造成信息泄密的安全事件应采用不同的处理程序和报告程序。

72513 应急预案管理(G3)

本项要求包括:

a) 应在统一的应急预案框架下制定不同事件的应急预案,应急预案框架应包括启动应急预案的条件、应急处理流程、系统恢复流程、事后教育和培训等内容;

b) 应从人力、设备、技术和财务等方面确保应急预案的执行有足够的资源保障;

c) 应对系统相关的人员进行应急预案培训,应急预案的培训应至少每年举办一次;

d) 应定期对应急预案进行演练,根据不同的应急恢复内容,确定演练的周期;

e) 应规定应急预案需要定期审查和根据实际情况更新的内容,并按照执行。2011-10-20

以上就是关于机房运维存在什么风险,怎么样去识别风险,有哪些手段可以降低风险,自己的风险全部的内容,包括:机房运维存在什么风险,怎么样去识别风险,有哪些手段可以降低风险,自己的风险、IT运维管理服务会出现的问题有哪些北塔软件如何解决、运维工作中,如何缩短故障影响时间等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/langs/8827333.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2023-04-22
下一篇 2023-04-22

发表评论

登录后才能评论

评论列表(0条)

保存