2月26日,数据恢复工作已经开展了三天三夜。当天中午,第一批次的数据拿到,导入数据验证正常。但他们很快发现,他们扫描出来的最新一份数据是截止到2月17日的数据拷贝,完整性尚不确定。
“也就是说,即便这份数据完整,那17号到23号当天的数据也是缺失的。”徐勇州解释,“这个事情,好的一面是明确地告诉我们数据还在,恢复有希望。但是只找回一部分数据意义不大,我们需要完整的数据。”
扫描仍在继续尝试,工程师们逐步发现了更多数据的踪迹。到了周三深夜,新的问题再次出现:工程师们发现,现有的数据备份中,缺少大文件数据,而这些大文件极有可能是微盟最核心的业务数据。它们没有被扫描出来。
“用绝望来形容当时的心情都不夸张,核心数据如果没有,等于前期的工作都白做了,其他数据恢复了都没意义。”徐勇州说。
事实上,此时扫描出的数据大约是微盟数据整体的30%左右,已经符合甚至超过了此前行业对此类事故恢复程度的预期。“这难道真的是一个完不成的任务?”
徐勇州和技术团队不想放弃:核心数据找不回,影响的不止是微盟,还有那些商家的利益。“有一点希望都得试试看。”
徐勇州彻夜未眠。思量再三,决定两条腿走路:一是尝试对磁盘的每一块(block)进行二次扫描;二是让腾讯云的 *** 作系统团队从OS底层入手,制定数据恢复方案PlanB,这需要极其庞大数量的尝试和数据验证,“方案一能成功是最理想的,方案二就意味着数据恢复的时间不确定,业务停摆,继续失血。”
周四上午,第一台服务器的第一块扫描成功,导回数据库查看是完整的。“方案一可行!大家信心一下子又起来了。”
从可行到成功,中间仍有艰难险阻。数据公司提取出来的单一的块,从体积来看还是达不到微盟核心文件的大小。这意味着,要获得完整数据,需要进行数据“拼接”。
就好像整块拼图被打散扔进了大海里,一块一块打捞上来是第一步,拼接是第二步。不同的是,拼图时还能够根据形状来判断哪些可以放在下一块,而拼接数据块,根本无法通过肉眼识别,只能靠一块块去扫描,寻找相似度高的拼接到一起,再重新扫描看断点是否能重合。
庆幸的是微盟的备份机制较为完备,数据的覆盖度和完整性检查等工作非常细致。徐勇州发现,文件类型只有一种,那么就能很容易判断出哪块是开头,拿着开头去找剩下的块,把工作量从“NN”降低到“1N”。
但“1N”的工作量也不小。最大的一个文件,由7块碎片组成。找到开头以后,工程师开始扫描其他有相似性的块。运气好的时候,相似度可能只有一块,运气不好的时候 ,有二三十块。每进行一次拼接,都需要把数据块从头到尾扫描一遍,验证是否匹配。这需要大量的计算力。为了加快扫描和验证,腾讯云服务器团队还临时从上海机房调拨了100多台服务器进行算力支持。
徐勇州已经不记得这样的“打捞、拼接、扫描、验证,重新打捞、拼接、扫描、验证”进行了多少次,只记得每一次都是四五个小时的煎熬。“大家每隔一会儿就在腾讯会议上吼,好了没,好了没,快看看!”
终于,一块又一块的数据被拼接出来,核心数据逐渐被修复。“太不容易了,心情真的跟过山车一样。”
2月28日,深夜,数据修复胜利在望。
“做到100分,在云上迎接重生的微盟”
虽然最初大家并不敢断言数据能否修复,随着两边团队的共同攻坚,大家关注的焦点逐渐变成数据能不能做到100%的修复。
然而,即便是方法论经过了验证,但就像写程序一样,在一些细微的地方总会有一些意想不到的bug出现。
2月29日凌晨,恢复到最后一台服务器时,徐勇州和技术团队盘查发现,前面找回来的那些数据只有整体数据量的70%-80%。按照前面核心数据恢复的方法推演,如果逻辑成立的话,此时恢复的数据应该是100%。
剩下的数据去哪了?到底是哪个环节出了问题?“我们的目标是要做100分,哪怕失掉5分,对一个商家来说可能就是全部。”徐勇州和团队连夜把所有的数据又重新盘点了一遍,把验证的逻辑再推导了一遍:扫描了多少?提取了多少?哪些校验过?哪些没有?
又是一夜未眠。3月1日凌晨,终于在另一个的区段中,被遗漏的数据被“打捞”了出来。原来有一部分数据在提取时因为环境等各种原因被疏忽了,在把所有的数据都汇总整理和对齐后,很快找到了对应的那段未提取区段,然后又是进行紧张的“打捞、拼接、扫描、验证”,但这时的团队已经是技术娴熟,胸有成竹。
3月1日晚,微盟发布公告称,数据已经全面找回。同时宣布基础设施全力上云。

根据微盟公告,微盟将采取以下措施提升对数据安全的保障:首先在权限管理方面,使用腾讯云CAM权限系统进行云资源管理,严格执行分级授权和最小集权制度,对高危险动作执行二次授权制度;使用腾讯云堡垒机替换自建堡垒机,进行细粒度许可权分级和授权管理。
其次,在北京、上海、南京等地区建立全备份的冷备系统架构,借助腾讯云IaaS的底层服务能力,建立高可用的同城双活架构;所有非结构化数据使用腾讯COS对象存储系统进行归档保存并启用多异地复制功能。
最后,借助腾讯云数据库MySQL的数据高可用和安全体系,逐步放弃自建数据库服务,迁移到腾讯云数据库(CDB),提升数据库跨可用区和易地灾备的能力,同时,将原来合作的黑石10物理机全面升级黑石20,全面使用云主机。
在徐勇州看来,微盟事故的发生对其他企业的数据安全保护也敲响了警钟,数据安全事件背后折射出的是,仅仅依靠单点防护难以达到真正的安全防护效果,而构建基于全生命周期的安全防护成为必然选择。
微盟公告发出以后,腾讯云技术团队在微信群里收到了微盟团队的集体致谢。那个全程见证事件进展的超长腾讯会议的会议号,被团队提议作为一个永久的番号保留。
快速配置云服务器的具体步骤取决于您使用的具体云计算平台和 *** 作系统。一般来说,以下步骤可以帮助您快速配置一个云服务器:
选择云服务提供商:根据自己的需求选择合适的云服务提供商。常见的云服务提供商有 Amazon Web Services (AWS)、Microsoft Azure、Google Cloud Platform (GCP)、阿里云等。
选择服务器实例类型:根据实际需要选择合适的服务器实例类型,通常可以根据 CPU 核数、内存、存储等配置进行选择。
配置安全组:设置安全组规则以允许需要访问该服务器的网络流量通过,并禁止非授权的流量访问。
选择 *** 作系统:选择合适的 *** 作系统,通常可选 Linux 或 Windows *** 作系统,并购买相应的授权。
启动服务器:按照向导创建服务实例并启动服务器,获取并保存服务器登录信息和 IP 地址等重要信息。
至于免费云服务器的使用,一些云服务提供商如 AWS、GCP 和阿里云等都提供了一定的免费额度或试用期,您可以在其官网注册并使用这些免费资源。在使用免费云服务器时,建议根据自己的需求选择合适的服务,并遵守相关的使用规则和使用条款。
请注意,快速配置云服务器所需要的相关技能和经验取决于您的实际情况,如果您在 *** 作过程中遇到问题,建议查阅相关的文档和社区资源或者联系云服务提供商的技术支持人员以获取帮助。
无法连接到云服务器怎么办?首先检查一下本地网络是否有问题,然后去ping一下云服务器的Ip是否能ping通,要是不能ping通,说明云服务器运行出现异常,可以直接凭IP联系机房运营商技术去检查。一般情况下,如果服务器IP被封,我们PING测试应该可以看到超时节点居多,但如果 PING都正常,指是服务器SSH无法连接。还可以检查一下原因:
1检查云服务器是否到期,过期没有续费的话肯定是无法打开;
2检查服务器web系统,确定不是端口出现问题,有可能是web环境中Nginx或MySQL故障;
3云服务器CPU资源是否超负载,如果占用资源超过配置,是会被限制暂停的;
4服务器IP或者域名被封,如果云主机搭建的是不允许的内容,很容易被检测出来;
5官方维护,也有可能是云服务商服务器出现问题而进行故障维护,联系商家确定。
服务器运维的日常工作内容:
1、负责服务器的硬件配置、软件安装、机房上下架等技术维护工作;
2、负责虚拟化技术产品物理机配置、管理和日常运行监控和维护;
3、负责独立主机或虚拟应用产品的开通使用、日常维护、故障诊断和排除;
4、提供独立主机或虚拟应用客户产品 *** 作和应用方面的技术支持;
5、监视分管的服务器,及时发现问题,并积极解决问题;
云帮手,管理便捷体现在:
有远程登录桌面功能,文件传输功能;
日志巡查功能;
一键环境部署,搭建php、数据库、ftp功能;
云帮手不仅仅可以远程登录,还有很多管理云主机的功能。
像主机系统漏洞检测修复;
实时查看主机资源使用状态监控啊;
批量集中管理主机等等。
云帮手下载体验地址
云主机是一种类似VPS主机的虚拟化技术, VPS是采用虚拟软件,VZ或VM在一台主机上虚拟出多个类似独立主机的部分,能够实现单机多用户,每个部分都可以做单独的 *** 作系统。云主机是利用虚拟化技术在一组集群服务器上划分出来的,类似于独立主,它有独立的IP,内存、硬盘等,在使用上与服务器一模一样,可以直接在本地电脑通过远程连接的方式来 *** 作与管理。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)