支付宝出故障 异地多活凸显重要性

日期: 2015-05-27 作者:唐琼瑶 来源:TechTarget中国

昨日下午,众多用户打开网页或手机支付宝时,无法登陆,显示网络不正常等情况。晚间,支付宝发布声明并道歉,因市政施工导致杭州市某地光缆被挖断,导致了支付宝一个主要机房被影响,随后全国部分用户无法使用支付宝。 虽然昨日晚间7点半左右支付宝恢复正常使用,众多网友担心资金安全受到影响。支付宝称:“任何一个交易,同时都会有多份记录,数据可靠性极高。

如果有用户出现交易不同步的情况,后续都会得到妥善解决。” 事情发生后第一时间,支付宝工程师紧急将用户请求切换至国内其他机房。那为什么需要几个小时才完成切换工作?支付宝解释,其异地多活的系统架构没有因光缆被挖断而影响全部用户;同时,紧急将故障机房的流量切换至了其他……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

昨日下午,众多用户打开网页或手机支付宝时,无法登陆,显示网络不正常等情况。晚间,支付宝发布声明并道歉,因市政施工导致杭州市某地光缆被挖断,导致了支付宝一个主要机房被影响,随后全国部分用户无法使用支付宝。

虽然昨日晚间7点半左右支付宝恢复正常使用,众多网友担心资金安全受到影响。支付宝称:“任何一个交易,同时都会有多份记录,数据可靠性极高。如果有用户出现交易不同步的情况,后续都会得到妥善解决。”

事情发生后第一时间,支付宝工程师紧急将用户请求切换至国内其他机房。那为什么需要几个小时才完成切换工作?支付宝解释,其异地多活的系统架构没有因光缆被挖断而影响全部用户;同时,紧急将故障机房的流量切换至了其他机房。作为一个金融系统,对切换中数据与资金安全性的要求极高,因此切换速度上没有做到更快。

那么有什么预防机制,防止类似情况发生?支付宝表示,会继续推进技术的升级改造,继续完善异地多活的系统架构。未来,即使再次出现光缆被挖断等意外情况,进行异地切换时,也尽量做到让用户最小感知甚至无感知。


给支付宝的几条建议


作为一个与大众生活息息相关的金融产品与工具,支付宝一出问题将会产生严重后果,给自己与众人造成金钱损失。所以IT支撑系统应该有备份与冗余。在光缆被挖断时及时发现,迅速切换,并立即通过社交渠道告知用户事情经过。

一、经常测试备份系统

不仅仅是数据备份,还要测试整个系统从原始备份中恢复。

二、制定所能容忍的宕机时间

虽然核心业务服务器宕机不经常发生,所以面向它们可能存在的宕机而大规模部署保护策略收益有限。小规模的灾难,如用户丢失文档、某台服务器、邮件或整个数据库损坏等情况每天发生,更应该引起潜在客户的注意。

三、异地灾备系统开展实战演练

支付宝系统结构复杂且覆盖面极广,共涉及数十个大类业务及上百个子类业务。对如此庞大的业务进行灾备实战切换的复杂度极高,需要严谨的流程管理和统一策划。