孙宇聪:评判云服务靠谱程度

孙宇聪:评判云服务靠谱程度,第1张

孙宇聪:评判云服务靠谱程度

云服务真的可靠吗?

对于这个问题,相信每个人都有不同的答案。今天要讲的是如何客观的回答这个问题,结合了Coding的一些实践和思考。

关于广泛范围内的“可靠”有几个要点。

第一点是可用性,全天候可用。可靠的云服务必须具有非常高的可用性。

第二点是访问控制。可控性一定要好。您可以锁定非云服务。云服务如何实现良好的可控性是困难的。

第三点是容灾,但是软件会有问题。如何积极面对这个问题,是任何云厂商都应该诚实面对的问题。

可用性

首先说一下可用性。可用性的标准只有一个,即SLA,服务水平协议,更多时候是SLO,只是客观。如果某个东西高可用,那就问他几个9,敢不敢拿出来。

真的看这张图,三个9基本是国内云服务的基本线。也就是说,**云服务至少要有3个9才叫做基本可用**,才是合格的产品。如果你做不到这一点,你的东西就只是玩具。刷脸之前先回去练好内功。从3个9到4个9,即99.99%可用,每年只有52.6分钟不可用。

以前Google在全球的搜索可用性在5个9到6个9之间,每个小节点在5个9到6个9以内。仔细想想,这其实是一个很可怕的概念。**因为里面包含了一切可能的意外**,不管什么不可抗力,都是扯淡。地震、洪水、台风、建筑物倒塌,5分钟内恢复服务。

相比之下,国内大部分IDC机房都是按照99%设计的,一年至少有3天不可用。这3天是让你元旦、春节、国庆过的,留点时间给你机动(笑)。这里用不了,就用不了。如果让爷爷告诉奶奶,就不能用了。

所以SLO直接反映了云服务的可靠性:

从99%到3个9,基本可以靠堆人和运气解决;

从三个9到四个9,考验的是运维自动化和容灾能力;

来自四个9的基本测试是服务基础设施和业务设计的能力。

三个9到四个9之间我们也在努力,这个还是很难的。如果某个云服务商在评论里加了一句“不可抗力除外”,是非常不合适的。

那么如何提高可用性:

冗余设计。首先要做所谓的**“无状态微服务”**摆脱单点故障。首先是“微服务”。服务的分解越简单,错误面就越小,故障模式就越固定。然后就是“无状态”,这样就可以无限扩张。这个很难。很多时候拆了才发现最后还有一个数据库。这个数据库不可能是无状态的。永远只能有一个数据库,并且只有一个数据库实例,所以可用性永远不会提高。

采用无状态微服务的架构,需要达到N+2。很多时候很多厂商连N都不知道(因为没做过压力测试和性能分析)。怎么能谈N+2呢?

设计渐变部署,二是**支持灰度发布**。如果一个服务想要向前发展,任何软件组件都会改变。更新会直接增加你的系统出现问题的可能性。为了提高可用性,**必须降低出版成本**。只有当我们可以说,我推出了一个新功能,它只会被少数用户使用,其他用户不会受此影响。只有这样,你的整个系统的可用性才能从整体上得到提高,

集群设计:第三点是**区分集群管理和应用管理的概念,并将资源分配与服务分配分开。**

为自动化而设计,最后一点是**自动化**。可靠的云服务从设计之初就将人为因素排除在运营之外。整个系统应该是完全自动化的,不需要你的干预。云服务刚开始的时候,买了两三台服务器,服务器放在那里,每天有人盯着,才正常运行。这个还是可以的,但是规模化之后显然是不可能了。这是最关键的一点。到现在,任何云服务内部都是非常复杂的。就像这部漫画。当每个人 *** 作它的时候,面前有无数个按钮和无数种可能。除了问题,一个人是不可能马上想通,马上解决的。只能自动化。

其实更多的时候,问题是人为 *** 作造成的。不可避免的会有人参与更新一个软件或者一个服务器。不做自动化,早晚会出问题。

任何可靠的云服务提供商至少应该做到以下几点:

第一个SLA必须达到四个9。如果你达不到这四个9,基本上就说明这个服务是个玩具,没有办法依靠你。

二是一个数量级甚至两个数量级以上的预研。

第三是自动化。这是实践中的经验。

可控性

接下来,我们来看可控性。门禁的重点是纵深防御。比如,你想想从你家到公司办公室要经过多少道门,每道门的存在都是一层防御,每道门都有不同的开锁方式来阻挡不同的人。

云服务也是如此。访问控制越好,云服务就越安全。从**最基本的人身安全**开始。俗话说,没有一个软件的招数能比得上一把螺丝刀。判断一个云服务是否可靠,先看他们有没有做物理安全。如果没有,这个服务就是扯淡。

如果一个云服务思考过这个问题,说明他真的意识到了安全的重要性。柜子锁不能太多,指纹识别,声纹识别,人脸识别,虹膜识别,姿态识别等等。(笑)

接下来,我们来看看逻辑访问控制机制。

第一点:秘密管理。

任何云服务都有一堆秘密。该密码可能是服务器的根密码或交换机的密码。如何保管和分发这些东西,直接体现了一个云服务厂商的可靠程度。

任何一个云服务商都不可能把所有的秘密都寄托在一个人身上,也不可能让全公司的人都知道。如何做好秘密管理是一个重点。编码使用GPG多重收件人加密,只有在另一个供应商能够向你解释清楚的情况下,这个云服务才是可靠的。

第二点:审计记录。

任何云服务都要看他的可靠性,就问他有没有审计记录制度,怎么实施。审计记录应该是独立于所有其他业务组件的关键组件,它应该记录系统中发生的所有事情。审计记录是唯一真实可靠的数据来源。

第三点: *** 作系统的权限分级。

任何云服务厂商都有这个运营后台,这个运营后台必须做一个权限分析。谁能看到统计分析,我们网站有多少新用户,趋势是什么。有些东西是敏感数据,除了少数有限运维的人,没有人能接触到用户的数据。无论什么细节都是**严格控制的**,而且公司里大多数人绝对没有任何代码权限。

门禁够吗?还有很长的路要走。我想做好。有以下几点:

第一点:细粒度/基于角色的访问控制。

很多云服务从外面看像碉堡,但只要连上公司网络,就可以随意更改数据库(笑)。

如果一个公司认为自己的内网绝对安全,那么它的服务绝对不可靠。ACCESSs控制首先必须基于角色,**每个角色赋予固定的访问权限**,其次必须**更细粒度**,具体到每个HTTP处理程序,每个RPC都必须有权限验证,否则就是扯淡。

第二点:身份委托。

大部分云服务都是设计成一堆超级管理员进程,可以改变所有数据,做所有事情。每一个bug都会影响整个服务的数据安全。身份委托只是改变了这个东西,在入口处(与用户直接接触的地方)发送一个令牌。**以后所有的 *** 作都要拿这个令牌来 *** 作用户数据**,没有令牌是无法更改的。这大大降低了错误影响所有用户数据的可能性。

第三点:应用级加密

其实大家都知道,加密是性能的损失,但是如果哪个云服务商不做数据加密,说明你真的对这些数据不够关心,基本属于流氓行为。

第四点:关注应用层漏洞

我要介绍一下OWASP,一个开源的网站,里面罗列了市面上一些常见的网络应用的安全漏洞,如何应对,如何防范。这里列出了十个关键问题。如果你不知道这个列表,说明你对安全不够重视。去这个网站看看吧。编码已经和乌云、FreeBuf合作,系统地解决了这个问题。如果哪个厂商不重视这个事情,这个云服务就是不合格的。

灾难恢复

最后,谈谈灾难恢复

云服务。你问他你这个东西好不好用。好用又安全吗?安全。出了问题怎么办?我不知道。没人跟你说清楚。这通常是不可靠的。

0-15分钟:

如果一个云服务出现故障,从故障开始到十五分钟结束还没有恢复,排除大灾可能性的情况下,基本可以认为是不可靠的。

零点到十五分钟的时间是一个很大的关键时间点。他基本上是人力的极限。在收到出错时的自动报警后,他迅速打开电脑,连接VPN,找到问题,并进行处理。基本可以说最快15分钟就是极限了。

即使你的运维团队24小时不闭眼不离开电脑,15分钟内恢复服务也需要两个关键点:**第一常驻,第二热备。**

常驻热备容灾系统,也就是说你必须有一个完全相同的系统随时运行。如果生产系统出现故障,它会自动切换到备用系统。常驻热备是指**随时随地可以切换,随时随地可以启动服务。完全可以不受影响的接手。**

你的一台机器的电源被拔掉,硬盘挂起,宇宙射线击中了你的CPU。还可以自动无缝切换。

还记得之前的雷击和挖光缆吗?很多人说我被雷劈挂了很正常。其实用户在乎的是你做什么。如果你挂了,你就挂了。为什么没有常驻热备系统?你为什么挂电话?小服务要有这个能力,双系统跨云部署。只有这样,我们才有能力进行主从式自动故障转移。可靠的云服务提供商会告诉你这些。

15分钟-3小时:

这里的3小时是一个虚数,你可以根据自己业务的重要程度自己定义。3小时是什么意思?无论你有什么样的问题,如果你不能在3小时内修复,你的网站就会消失。大家对你这个云服务商能力的信任度基本为零。想想吧。如果编码突然挂机,突然不能访问,等他回来,基本上就告别互联网了。对大家的打击和损失是无法承受的。

十五分钟到三个小时,这是我们目前设定的一个标准。无论什么灾难,如果三个小时内不能恢复服务,说明我们的工作不到位。这一点没有捷径可走。唯一的就是要有应急记录,随时演练。

我们随时假设一个场景,外星人入侵,攻破XXX(笑)。你可以帮我模拟和还原Coding的系统。这是比较高级的演练。还有小演练,三五个人聚在一起。一台机器无法重启怎么办?都是战备演练,不断练习,不断准备。

要做到这一点:不变的基础设施。**可重复的部署**。

很多云,包括编码,以前都是这样的。我入手一台新机后,有人安装了一些软件。之后,我辞职了。突然有一天,机器挂了,我没有表白。除了修理这台机器,什么也做不了。如果你想要灾难恢复,你必须让这个东西可复制。**清楚知道这台机器上安装了什么,为什么要安装。**

做不到这一点的云服务提供商,没有资格说我们是可靠的云服务。

最后说一句**备份系统**。备份系统似乎是一件非常简单的事情。它运行的时候一般不会管,然后解决问题了吗?!看来备份系统一定备份了你要的数据。即使他备份了所有的数据,似乎也永远不会丢失什么。

每个备份系统耐久性指标。也就是备份系统的可靠性。不管什么介质,都有可能挂机,写在硬盘上,硬盘可能会坏,写在磁带上,磁带会坏,写在纸上,纸可能会烂。就算这些不差,你也可能是用宇宙射线打了这个硬盘。硬盘的某个位置被任何强磁场改变,你仍然无法访问整个东西。不考虑这些,就硬说一个备份系统100%可靠,是自欺欺人。

编码也没有一个好的备份系统。最近在搞AWSGlacier,有一个很大的磁带库。如果你在里面放了东西,它会自动转移到磁盘和磁带上进行定期维护。AWSGlacier有一个算法,关于每个硬盘坏的频率和每个磁带坏的频率。最后得出结论,其耐久性可以达到119秒。

如果一个云厂商不愿意关注这样的系统,你就不太在乎用户的数据。

有了备份,最重要的是还原[/s2/]。如果一个备份系统不能在任何时候进行细粒度的恢复,那么它是没有用的。关键时刻,他必须掉链子,想都别想。

最后,很多人说,这样的阴天,哪个服务可靠,哪个安全。我想我只能和你分享。编码做的还不够。很多东西都在探索。希望和大家多交流,让云服务更可靠。

注:本文根据孙在SegmentFaultD-Day北京市场演讲内容整理,授权发布于“高效运维”微信官方账号。10月11日,SegmentFault将在上海举办D-Day,以Docker为主题。

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zz/765350.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-02
下一篇 2022-05-02

发表评论

登录后才能评论

评论列表(0条)

保存