多个机房光缆被挖断,40%服务器停服,26秒恢复?!

发布时间:2023-05-27 06:28:01 作者:久夕 阅读量:5350

互联网时代,服务器机房可谓心脏,大型机房出故障是小概率事件。但即便如此,依然可能出现自然灾害、断电、光缆被挖断等黑天鹅事件。

  互联网时代,服务器机房可谓心脏,大型机房出故障是小概率事件。但即便如此,依然可能出现自然灾害、断电、光缆被挖断等黑天鹅事件。

  有人斗胆下了个战书:如果多个机房的光缆同时被挖断,40%的服务器突然无法工作,结果会怎样?

  结果,居然还真的有人敢来应战。此人便是蚂蚁金服副CTO胡喜。

  据报道,在9月20日的云栖ATEC主论坛上,蚂蚁金服副CTO胡喜在现场特别模拟了剪断支付宝位于一个城市中两个模拟机房的光缆。

  一旦机房发生故障,会怎么办?

  首先,设想一下服务器机房如果发生了故障,我们的生活会出现什么样的变化?

  断网了,或许打不通网页,或许拨不出电话,或许各种失联……

  有人说如果服务器机房发生变化,在支付宝领域,遇到的最大困扰就是转账失败。

  转账失败?付不了帐?买不了东东,这可肿么办?

  蚂蚁金服正是这样做了这样一次尝试性实验,此次实验被差评君(ID:Chaping321)全程记录。

  现场在模拟支付宝转账的同时,程序员剪断了位于杭州一个模拟机房的光纤,当光纤被剪断后,这个模拟机房所负责区域的任何业务都不能处理。这就是转账失败的原因。

  蚂蚁金服副CTO胡喜现场解释,这是演习。

  然而,在真实环境下,如果支付宝部署在两个城市的两个机房同时出问题,据官方宣称,跑在这两个机房上的支付宝账户,恢复正常的速度是分钟级。精确地说,只需要26秒,模拟环境中的支付宝就能完全恢复正常。

  分分钟就能完全恢复,这完全颠覆了宕机停服几个小时的传统印象。

  为什么能在这么短的时间,能让故障排除,迅速恢复到正常工作的情况?

  据悉,这是因为这一机房架构叫“三地五中心”,即在三座城市部署五个机房,一旦其中一个或两个机房发生故障,其底层技术系统会将故障城市的流量全部切换到运行正常的机房,并且能做到数据保持一致且零丢失。

  目前,互联网和金融科技行业普遍采用的是“两地三中心”部署架构,即在一个城市设两个机房,在另一个城市设一个冷备机房。

  而在这个实验中,城市A的两个机房是服务大众的,不管是转账、缴费还是查账全部都由这两个机房提供服务,而且两个机房是同步在处理数据且数据一致的。但在城市B的备份机房只是做备份而已,并不参与服务大众这一活动。

  一旦城市A的两个机房被自然灾害等毁坏就不能继续对外服务,那只能让程序员熬夜去切换另一个城市的备份数据。但是由于B城市的机房常年没有工作(提供服务),整个机器都处于“冷冻人”的状态,所以切换前还需要校验数据,再预热等等复杂的操作后才能让服务再次畅通。

  这就是为什么很多App服务器挂掉的时候,要花很久时间才能恢复的原因。

  据悉,上图是支付宝的城市级故障自动容灾系统,是它支撑了26秒的灾后恢复。

  灾备方案有备无患

  目前来看,主要的数据备份方式如下:

  定期磁带备份:包括远程磁带库、光盘库备份和远程关键数据+磁带备份。

  数据库备份:就是在与主数据库所在生产机相分离的备份机上建立主数据库的一个拷贝。

  网络数据:这种方式是对生产系统的数据库数据和所需跟踪的重要目标文件的更新进行监控与跟踪,并将更新日志实时通过网络传送到备份系统,备份系统则根据日志对磁盘进行更新。

  远程镜像:通过高速光纤通道线路和磁盘控制技术将镜像磁盘延伸到远离生产机的地方,镜像磁盘数据与主磁盘数据完全一致,更新方式为同步或异步。

  这些措施能够在系统发生故障后进行系统恢复,但是这些措施一般只能处理计算机单点故障,对区域性、毁灭性灾难比如地震、火灾等则束手无策,也不具备灾难恢复能力。

  灾备场景涵盖面广,方案复杂,传统数据中心容灾方案存在CAPEX、OPEX高昂、数据同步策略复杂、灾难恢复效果有限等问题。企业有必要采用多云灾备策略,以保证业务连续性及关键数据可靠性。我们就需要建立异地容灾中心,做数据的远程备份,在灾难发生之后要确保原有的数据不会丢失或者遭到破坏。建立的异地容灾中心可以简单地把它理解成一个远程的数据备份中心。

  如今,数据中心相关行业越发重视灾备方案,业界已有许多优秀的灾备方案问世。7月,华为云Multi cloud混合云灾备解决方案;8月,浪潮推出并展示了基于Openstack的“同城双活、多云数据中心灾备解决方案”….期待,未来越来越多的灾备方案,能让数据更安全,用户更安心。

  

***本网站图片,文字之类版权申明,因为网站可以由注册用户自行上传图片或文字,本网站无法鉴别所上传图片或文字的知识版权,如果侵犯,请及时通知我们,本网站将在第一时间及时删除。

我要评论

网友评论


评论时间:2023-07-15 09:25:02

1.4关虚拟主机发布网站流程 系数据组织技术个人阿里云服务器报价

最新文章

 2023-12-25 22:44:35   admin

活动发布区版规

 2023-05-27 22:03:52   御风而行

容器、无服务器、虚拟机:安全性差...

 2023-05-27 19:08:41   小绵羊0123

科技巨头布局云端 服务器 网络硬...

 2023-05-27 18:17:46   姐姐的跟屁虫

钉钉因系统访问流量激增,宕机1小...

热门阅读

 2022-07-23 00:34:02   freeatom

常见ftp命令 FTP命令使用详...

 2022-07-21 02:17:02   ares

双硬盘组建Raid0磁盘阵列图文...

 2022-07-20 06:17:02   mankeung123

用友软件客户端连接不上服务器的解...

 2022-07-23 00:51:02   antonfxb

WebService实例

 2022-07-13 05:38:02   苯小孩

开发、运维不可不看的Linux调...

 2022-07-20 18:51:02   nightstone

如何使用Charles抓取Web...

随机文章

 2021-12-26 05:38:02   爱UUD哒

为什么服务器托管比租用费用高?

 2022-03-17 05:38:02   longmei

如何使用nslookup命令检查...

 2022-03-28 05:38:03   han890926

Nginx 配置实例

 2022-07-19 04:51:02   ※幽魂※

哪些网络工具可用于公共云监控?

 2022-07-19 09:34:02   congyee

PHP视频教程下载

 2022-07-19 10:17:02   qwerr

DHCP服务器搭建与配置

热评文章

 2022-07-19 20:17:02   dengyu0429

linux vi使用及详细介绍

 2022-07-20 01:00:05   激动的舌头

Linux视频教程:用户管理命令...

 2022-07-21 20:51:02   jessica-an

创建本地FTP站点

 2022-02-07 05:38:03   jasonkidd

WEB服务器配置详解

 2022-07-20 04:51:02   wolfssss

ACL权限-默认与递归(4)

 2022-07-22 15:00:05   淡水珊瑚

Linux下 Samba Ser...
全球云服务器
Catfish(鲶鱼) Blog V 4.7.3