灾备建设要更上一层楼
在信息技术领域,灾备系统是指以存储系统作为基本支撑系统、以网络作为基本传输手段、以容错软硬件技术为直接技术手段、以管理技术为重要辅助手段的综合系统。
时至今日,很多企业已经清楚地意识到,信息系统灾难就在我们身边,而并非遥不可及。“目前,发达国家70%的企业已经启动了容灾机制。”灾备国家工程实验室总工、北京邮电大学教授姚文斌在2011年第五届中国容灾高峰论坛上表示,“我国政府高度重视灾备工作。从2003年起,相关政府部门和行业监管部门先后出台了多项关于容灾的政策、法规和条例。虽然一些关系国计民生的关键行业企业已经明确了要建立信息系统灾备和应急机制,但从执行层面看,进展相对缓慢。从目前情况看,除一些金融、电信机构已启动容灾建设外,其他行业的灾难体系基础还非常薄弱。中国的灾备行业目前还处于起步阶段。”
谈到未来我国灾备的发展方向,姚文斌表示,首先国家应该建立健全容灾的法律法规。目前,在灾备技术方面,相关的国际和国内标准数量相对较少,并且多停留在指导意见这个层面,缺乏具体的关于灾备系统的 *** 作和实施细节的评估标准。其次,应该建立适合我国信息化系统的灾备体系。姚文斌介绍说:“灾备国家工程实验室成立后一直致力于协助相关政府部门构建国家灾备标准体系。我们已经制定了12个标准,之后还会制定其他相关标准。”
BCM标准指日可待
容灾主要是从技术的角度来描述如何对数据进行保护以及如何保证业务的连续性。简单说,容灾的实现包含两个重要因素:一个是技术,另一个是组织和人。一个企业或组织为了抵御灾难,又该做哪些方面的准备呢?这就牵涉到业务连续性管理。
BSI(英国标准化协会)IT卓越服务中心总监、BS 25999业务连续性管理体系主任审核员任晖将BCM的发展归纳为三个阶段:第一个阶段是业务持续计划(BCP)阶段,主要是制定业务连续性计划,为避免某些潜在的风险做好准备;第二个阶段是业务持续管理(BCM)阶段,在这个阶段,企业已经从做计划过渡到进行业务持续性管理;第三个阶段是业务持续管理系统(BCMS)阶段,在这个阶段,企业要建立一套完整有效的业务连续性管理流程。
“如果不进行容灾演练,当灾难发生时,人们就不知道应该如何去应对灾难。演练的方法有很多种,相关的标准中有明确的说明。”任晖表示,“BCM的最高境界是将BCM融入到企业的文化当中。也就是说,企业中的每一个员工都应该有BCM的意识,再加上企业拥有一套健全的BCM体系和流程,一旦灾难发生,企业能立刻调动所有资源,并及时启动应急预案和灾难恢复预案,从而保证业务的持续发展。”
2011年,BCM标准诞生了一个新版本――ISO22301。但是,这个标准目前还是草案版,若想成为正式版的标准可能还要再等一两年。
任晖介绍说:“除了BCM以外,企业还应该考虑应急管理,尤其是应急管理的管理系统,包括管理方法和人员的实际 *** 作。目前,市场上只有关于应急管理的公共可获取指南,而不是国际标准。”我国政府目前正在加紧制定中国的BCM标准,不断完善BCM体系建设。
难题二
容灾如何才能普及
时至今日,在很多企业用户的心中,容灾仍然是像金融、电信这样的大型企业的专利。其实,只要企业对信息系统有较高的依赖程度,并且对数据的安全性和业务连续性有较高的要求,无论企业的规模大小,都可以建立适合自己的容灾系统。
“容灾已经成了IT建设的必需。用户的容灾需求与IT建设的发展阶段密切相关。”上海爱数软件有限公司(以下简称爱数公司)总裁贺鸿富在谈到容灾难普及的原因时表示,“2002以前,企业的IT基础设施建设大规模兴起;2002-2006年,许多企业已经转到IT应用建设上;2006年之后,有些企业开始关注IT运维的有效性。那些已经迈入IT运维有效性建设阶段的企业对容灾会有迫切的需求。”
正确理解容灾的机会成本
目前两地三中心甚至两地四中心的容灾方案逐渐变成主流。这让许多连一个完整的备份系统还没有的中小企业用户更感觉容灾高不可攀。容灾难普及的主要原因是什么呢?贺鸿富认为原因有三:第一,用户对容灾价值的认可度;第二,用户是否能够选择一个适合自己的容灾方案;第三,如何看待容灾的成本。
之所以有些用户认为容灾没有用,主要是因为这些用户当前的信息化建设需求没有达到一定层次。毕竟灾难是小概率事件,如果企业投入巨资建设容灾系统,而平时容灾系统又不能被充分利用,那么对企业来说,用于容灾系统建设的投资就可能是一种浪费。但是,对于那些必须保证业务系统7×24小时不间断运行的企业来说,容灾是必不可少的一种保护手段。
容灾解决方案五花八门,包括备份、快照、持续数据保护(CDP)等。对于不具备专业技术背景的用户来说,从众多容灾方案中选择一款适合自己的经济实惠的方案确实比较困难。如果能有一款方案,具有上述的所有功能,并且能够一劳永逸地解决数据容灾和应用容灾的所有问题,那么用户与容灾方案之间的距离就会被拉近。
容灾主要解决的只有两个问题:第一是保证数据不丢失,第二是保证应用不中断。从应用等级来划分,容灾包括数据容灾、应用容灾和业务容灾。对于普通企业来说,实现业务容灾的目标比较困难。因此,对大多数企业来说,实现数据容灾和应用容灾是比较现实的问题。目前,市场上大多数的解决方案或者能满足数据容灾的需求,或者能解决应用容灾的问题,但是能够同时满足数据容灾和应用容灾两种应用需求的解决方案并不多。
有些用户已经认识到容灾的重要性,而且确实想部署容灾系统,但是IT部门的负责人若想说服企业决策者投入大笔资金去建设一个容灾系统是比较困难的事。企业的决策者通常十分关注项目的投入产出比。容灾方案的成本包括初始成本、维护成本和机会成本。初始成本和维护成本很容易理解,关键是搞清机会成本与容灾之间的关系。机会成本是指事故发生后给企业带来的损失。如果企业没有意识到必须花费必要的成本建立一个完整的容灾系统,那么容灾的顺利实施将成为一句空话。
一体化容灾方兴未艾
有没有一种解决方案能够同时解决数据容灾和应用容灾两个问题?有没有一种解决方案能够融备份、快照、CDP、虚拟化等多种技术于一体?这不仅是用户的需求,而且也是容灾厂商努力的目标。包括爱数公司、Acronis公司等在内的一些公司都在积极倡导一体化容灾的理念。一体化容灾方案也成了容灾普及的一个推动因素。
Acronis公司资深技术经理简硕文分析说:“今天,针对实体机的备份和容灾方案已经十分成熟。现在,企业用户开始把更多的精力转移到对虚拟机的保护上。两三年前,人们只是把虚拟环境当成测试环境,但是现在,虚拟环境已经成了主要的应用环境。尤其是越来越多的中小企业用户已经接受了虚拟化技术,并逐渐向云计算架构过渡。云端保护已经不再是一句 口号 。从保护实体机到保护虚拟机,这是数据保护和容灾的一个转折点。Acronis如今已经可以提供包括实体机、虚拟机以及云端在内的数据保护和容灾解决方案。”
未来,Acronis将提供统一的数据保护平台,包含磁盘存储、归档、虚拟环境,甚至包含对邮件服务器和数据库的保护等。通过这个平台,用户可以实现数据的集中备份、管理以及分发,同时还可以实现数据在磁盘、磁带和云端之间的转移。
“我们建议,中小企业目前可以实体机保护为主,未来再视情况将数据保护扩展到虚拟化平台上。”简硕文表示。
2011年9月,Acronis公司正式进军中国市场。Acronis公司最新推出的Backup & Recovery 11是一套价格实惠的集成式灾难恢复与数据保护解决方案。它既可以针对物理服务器和虚拟机提供数据保护,又可以提供安全的远程存储,让IT管理者通过一套统一的平台简化作业,从而节省数据保护和容灾的费用。
Acronis Backup & Recovery 11最突出的优势在于,能以单个解决方案同时提供灾难恢复与数据保护功能。
云灾备是必然趋势
在《中国计算机报》评出的“2011业务连续性管理十大样板工程”中,金融和电信两个行业的案例占了一半。此外,我们也看到,像政府、制造、互联网等行业的用户也越来越重视容灾的建设。
以东风汽车有限公司(以下简称东风汽车)SAP业务系统备份及容灾项目为例,东风汽车充分考虑到自身的实际需求,并结合昆腾的磁盘备份和重复数据删除技术,实现了异地容灾。
容灾的技术核心是冗余,一个设备坏了,另外一个设备可以顶上来。在云计算环境中存在着大量的服务器、存储等资源,这种容错式的设计为容灾的实施提供了物理设施上的保障。应用于云计算环境中的集中式管理和虚拟化技术,使得容灾的实施变得更加简单。
今天,我们已经看到许多国内外的厂商开始提供云备份服务。用户如果采用云备份服务,只要借助一个软件,就可以将本地的数据备份到云中,在进行数据恢复的时候,不仅可以把数据恢复到本地,而且可以恢复到云中的其他地方。
灾备国家工程实验室总工姚文斌表示:“云灾备大大降低了灾备的门槛。未来,云灾备必将得到更广泛的应用,而且将成为云环境的基本功能。”
难题三
如何找到适合自己的容灾方案
根据容灾等级的不同,容灾方案可以分成许多种类。用户究竟该如何选择呢?
架构的变革
现在市场上大多数存储产品的架构都是基于十年前的用户需求设计的,很难满足云计算、虚拟化和大数据的应用需求。在云计算时代,无论是中端存储产品,还是高端存储产品,其架构的改变是一种必然趋势。传统的高端存储性能非常高,可 *** 作性强,但是这样的产品未必适合云计算的应用。以云服务商为例,它们需要的存储平台是可以灵活伸缩的、能够按需购买和按需配置的。网状式或矩阵式的存储控制器架构既能满足用户对性能的要求,又具有很高的灵活性,HP 3PAR云存储系统就采用了这样的架构。
惠普公司资深技术顾问张楠表示:“许多用户已经慢慢接受了云存储。云存储具有高可靠性,非常适合应用于容灾。举例来说,传统高端存储的某一个部件如果出现故障,系统的缓存功能就会被关闭,那么整个系统的性能就会大打折扣。HP 3PAR云存储系统采用8个控制器,即使其中的某个节点出现故障,也不会影响整个系统的性能和可靠性。”2011年9月,惠普推出了HP P10000 3PAR存储系统以及Peer Motion存储软件,使得客户可以在虚拟化和云计算环境中的磁盘系统之间实现应用负载的转移及监控。
制定一个明确的策略
“容灾分成不同的等级,不可能一步到位。一个成熟的客户应该制定一个长期的容灾发展战略。”日立数据系统(HDS)资深解决方案顾问谢勇介绍说,“通常,一个客户在实施容灾之前,一定要将服务器、存储、应用等进行整合,并且对数据、应用和管理流程进行梳理。”
制定一个科学、明确的容灾策略是容灾取得成功的关键。很多企业在做容灾之前根本没有规划,从而导致最终结果与当初的设想有天壤之别。
谢勇建议说:“容灾既可以做同城或异地的,也可以做同步或异步的,甚至可以做成两地多个中心的方式。不同的容灾方案成本不同,实施和维护的复杂度也不同。企业在构建容灾系统之前一定要明确哪些功能是需要的,采用哪种技术能解决什么样的问题。”
现在,两地三中心的容灾架构是主流,很多银行都采用了这种架构。两地三中心的容灾架构主要有级联和多目标两种方式。级联方式比较复杂,采用的人较少。多目标容灾架构的容灾能力最强,其同步RPO(恢复点目标)值接近于零。用户可以根据自己的需求、资金状况等选择适合自己的容灾架构。
灵活运用新技术
今年日本发生的大地震也影响到了IBM位于日本东京附近的实验室,实验室中的很多设备倒下或倾斜。因为所有设备都采用了防地震套件,并经过特别的加固处理,所以在恢复后,所有关键数据都没有丢失。IBM系统与科技部高端存储产品经理庞文峥介绍说:“IBM可以提供从最简单的磁带容灾到两地三中心的全面容灾方案,帮助用户实现业务的连续运转。”
如今,许多新技术都被应用到容灾系统中,比如虚拟化、云存储等。IBM刚刚发布了基于云的存储引擎,它采用以太网接口,可以实现基于云存储的多节点分布,最多可以包含30个节点,这些节点在物理上是完全分开的。庞文峥介绍说:“通过相应的软件,我们可以保证数据在不同的节点之间自由流转,并可以对所有节点实施层次化的管理,从而实现数据自动更新。”
“一个容灾系统是否成功,硬件和技术的因素只占40%,更重要的是相关的管理。”庞文峥总结说,“企业如果想选择一个适合自己的容灾方案,首先要明确业务连续性系统的建设目标,其次要实现数据的集中和IT架构的整合与简化,最后要制定详细的业务连续性计划,包括组织、人员以及执行等方面的问题。”
可靠性是第一位的
实施容灾的一个重要前提是建立一个高效、可靠的灾备中心。在灾备中心里,除了服务器、存储、网络等IT设备以外,机房的物理基础设施,包括供配电、制冷、监控等也十分重要。由于机房空间日益紧张,能源消耗越来越大,提高机房的效率,特别是制冷效率对用户来说是一个严峻的挑战。
捷联克莱门特数据中心空调节能事业部经理郝凤云表示:“近几年来,数据中心大型化的趋势越来越明显。为提高数据中心的制冷效率,空调系统也发生了巨大的变化。在冷源方面,捷联克莱门特有一些独特的技术。比如,我们在2003年就推出了第一台磁悬浮冷水机组。磁悬浮冷水机组采用变频两极压缩,其效率比常规的离心机更高,可以更好地节省能源。”
对于灾备中心来说,可靠性是第一位的。高效的冷却系统可以避免设备因过热而宕机。世纪互联、北京市计算中心等都采用了捷联克莱门特的冷却系统。在现代化的数据中心里,基于模块化理念的一体化机房解决方案已成为主流。
灾备的几种方式:
1、主备镜像
两个数据中心服务器部署完全一样,每次网站发布都要在两个数据中心同时发布,保证运行系统版本一致。两个数据中心有主备之分,数据通过准实时的同步系统从主站不断同步到备站。主站发生灾害性故障导致完全不可用,则将域名解析切换到备站。这种方案纯粹是为了容灾。
2、业务互补,数据同步
如某网站美国机房和国内机房部署的服务在业务上互补,美国机房部署买家服务,国内机房部署卖家服务,海外用户(主要是买家)访问美国机房,国内用户(主要是卖家)访问国内机房。主要业务数据互相实时同步,因为数据在两个机房同时写入,可能会发生冲突。
3、主主镜像
部署和发布模式与主备一样,但是多个数据中心是同时启用的,根据用户地域将域名解析到不同的机房,数据实时同步。如新浪微博。
4、一写多读
数据写入只发生在一个数据中心,但是为了加快地区用户访问,会将数据同步到其他数据中心供只读访问。这种方案适用于读多写少的网站。比如wikipedia。
引用链接:>
从其对系统的保护程度来分,可以将容灾系统分为:数据容灾和应用容灾
数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。
所谓数据容灾,就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个可用复制。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的数据。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。采用的主要技术是数据备份和数据复制技术。数据容灾技术,又称为异地数据复制技术,按照其实现的技术方式来说,主要可以分为同步传输方式和异步传输方式(各厂商在技术用语上可能有所不同),另外,也有如“半同步”这样的方式。半同步传输方式基本与同步传输方式相同,只是在Read占I/O比重比较大时,相对同步传输方式,可以略微提高I/O的速度。而根据容灾的距离,数据容灾又可以分成远程数据容灾和近程数据容灾方式。下面,我们将主要按同步传输方式和异步传输方式对数据容灾展开讨论,其中也会涉及到远程容灾和近程容灾的概念,并作相应的分析。
所谓应用容灾,是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份),在灾难情况下,远程系统迅速接管业务运行。数据容灾是抗御灾难的保障,而应用容灾则是容灾系统建设的目标。建立这样一个系统是相对比较复杂的,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP等资源,以及各资源之间的良好协调。主要的技术包括负载均衡、集群技术。数据容灾是应用容灾的基础,应用容灾是数据容灾的目标。在选择容灾系统的构造时,还要建立多层次的广域网络故障切换机制。本地的高可用系统指在多个服务器运行一个或多种应用的情况下,应确保任意服务器出现任何故障时,其运行的应用不能中断,应用程序和系统应能迅速切换到其它服务器上运行,即本地系统集群和热备份。在远程的容灾系统中,要实现完整的应用容灾,既要包含本地系统的安全机制、远程的数据复制机制,还应具有广域网范围的远程故障切换能力和故障诊断能力。也就是说,一旦故障发生,系统要有强大的故障诊断和切换策略制订机制,确保快速的反应和迅速的业务接管。实际上,广域网范围的高可用能力与本地系统的高可用能力应形成一个整体,实现多级的故障切换和恢复机制,确保系统在各个范围的可靠和安全。
集群系统是在冗余的通常可用性系统基础之上,运行高可靠性软件而构成。高可靠性软件用于自动检测系统的运行状态,在一台服务器出现故障的情况下,自动地把设定的服务转到另一台服务器上。当运行服务器提供的服务不可用时,备份服务器自动接替运行服务器的工作而不用重新启动系统,而当运行服务器恢复正常后,按照使用者的设定以自动或手动方式将服务切换到运行服务上运行。备份服务器除了在运行服务器出现故障时接替其服务,还可以执行其他应用程序。因此,一台性能配备充分的主机可同时作为某一服务的运行服务器和另一服务的备份服务器使用,即两台服务器互为备份。一台主机可以运行多个服务,也可作为多个服务的备份服务器。
数据容灾系统,对于IT而言,就是为计算机信息系统提供的一个能应付各种灾难的环境。当计算机系统在遭受如火灾、水灾、地震、战争等不可抗拒的自然灾难以及计算机犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为 *** 作错误等人为灾难时,容灾系统将保证用户数据的安全性(数据容灾),甚至,一个更加完善的容灾系统,还能提供不间断的应用服务(应用容灾)。可以说,容灾系统是数据存储备份的最高层次。
详细的预案这里不阐述。说说简单的方法:
如果只是简单的域控和文件共享,则可以直接备份AD信息(管理服务器--计划任务)和定期备份共享文件,需要手动 *** 作将其备份到另外的磁盘或者电脑,恢复起来比较繁琐。
使用备份软件(比如easyrecovery),添加一块硬盘实行磁盘备份,这样最保险,恢复速度快不容易出错。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)