再回首:2011年国外大型厂商宕机事件

日期: 2012-06-14 来源:TechTarget中国

  亚马逊云安全事件

  2011年4月21日凌晨,亚马逊公司在北弗吉尼亚州的云计算中心宕机,这导致包括回答服务Quora、新闻服务Reddit、Hootsuite和位置跟踪服务FourSquare在内的一些网站受到了影响。

  这些网站都依靠亚马逊的这个云计算中心提供服务。Quora网站周四上午和下午在英国都无法访问。这个网站完全由亚马逊的EC2(弹性云计算)服务托管,就像FourSquare和许多其它网站一样。

  受到影响,Hootsuite网站的响应速度很慢,而Reddit网站的搜索服务不能使用。Reddit网站称,亚马逊目前正出现服务下降的情况。亚马逊云服务中断持续将近4天,截止编者发稿时,Hootsuite、Reddit、FourSquare、Quora等网站已经基本恢复正常。

  根据分析,亚马逊的云计算状态网页目前显示故障发生在北弗吉尼亚州的云计算中心。这个中心为许多Web 2.0公司提供服务。这次宕机故障发生在美国西海岸的大约凌晨1点40分,英国夏令时上午9点40分,并且从那时起一直有故障。

  分析人士称,北弗吉尼亚州云计算中心是亚马逊经营的许多云计算中心之一,按照常规,系统的设计之处应用会考虑,一个中心宕机不会中断其它的云计算中心,也不会影响使用那个服务的用户。

  此次,亚马逊云计算中心没有绕过北弗吉尼亚州云计算中心的故障把工作量转移到许多其它的云计算中心,令人生疑。服务器宕机,这在人们预想当中,没有那么严重。最简单的,双机热备,一台服务器宕机,另外一台服务器在短时间内可以启动,并不会影响用户的服务。但是,亚马逊的云计算中心这次不同,宕机影响了这么多用户的正常云服务,而且引起用户服务中断的,还是亚马逊引以为傲的弹性云,这对于云计算服务商刚刚建立起来的信任,绝对是一次沉重的打击。

  经过一番紧急的抢救,亚马逊的云服务恢复了正常。但是,这个事件留给用户的恶劣影响有些深远,用户大呼“伤不起”。

  好在亚马逊的态度还算坦诚。4月30日,亚马逊为宕机事件向用户发表了5700多字的道歉信,声称亚马逊公司已经知道漏洞和设计缺陷所在的地方,它希望通过修复那些漏洞和缺陷提高EC2(亚马逊ElasticComputeCloud服务)的竞争力。亚马逊已经对EC2做了一些修复和调整,并打算在未来几周里扩大部署,以便对所有的服务进行改善,避免类似的事件再度出现。

  在赔偿方面,亚马逊表示,将向在此次故障中受到影响的用户提供10天服务的点数(Credit),这些点数将自动充值到受影响的用户帐号当中。但是,对于以后如何避免出现类似事件,并没有提到任何法律上的保证。

  据了解,亚马逊云服务中断持续了近4天,但是在法律上却没有违反亚马逊EC2服务的服务等级协议(简称SLA)。亚马逊的解释是,亚马逊出现故障的是EBS和RDS服务,而不是EC2服务,从法律上讲,它并没有违反服务等级协议。并且,对于亚马逊提出的应对宕机事件的建议——多点备份,仅仅是一个技术规范并非合同保障。这些,似乎都不能给云服务的用户带来信心。

  表面看来,亚马逊宕机事件似乎有一个完美结局:厂商及时修复漏洞,书面道歉,赔偿损失。但是,用户心理上对云服务的恐惧似乎并不那么容易康复,未来,亚马逊可能不仅仅要在技术上、还需要在制度和法律上给予用户更多的保证,才能才能渐渐修复被此次宕机事件损坏的名声。

  Rackspace云服务中断事件2009年6月,Rackspace遭受了严重的云服务中断故障。供电设备跳闸,备份发电机失效,不少机架上服务器停机。这场事故造成了严重的后果。

  为了挽回公司声誉,Rackspace更新了所有博客,并在其中详细讨论了整个经过。但用户并不乐意接受。

  同年11月,Rackspace再次发生重大的服务中断后。事实上,它的用户是完全有机会在服务中断后公开指责这位供应商的,但用户却表示“该事故并不是什么大事。”看来Rackspace不是走好运,而是持续提供了充足更新并快速修复了这些错误。

  在服务中断致使其业务脱机15到20分钟后,博客服务提供商Posterous的创建者之一Sachin Agarwal就发表了自己的观点。Agarwal对此并不生气,相反,他表示Rackspace在这件事上做得“很透明”,处理问题也很及时到位。

  看来,如果没有严重数据的丢失,并且服务快速恢复,用户依旧保持愉快的使用体验。对于所谓的“100%正常运行”,大多数用户似乎不会因为偶尔的小事故而放弃供应商,只是不要将问题堆积起来。

  Salesforce.com服务器宕机

  2010年1月,几乎6万8千名的Salesforce.com用户经历了至少1个小时的服务器宕机。

  Salesforce.com由于自身数据中心的“系统性错误”,包括备份在内的全部服务发生了短暂瘫痪的情况。这也露出了Salesforce.com不愿公开的锁定策略:旗下的PaaS平台、Force.com不能在Salesforce.com之外使用。所以一旦Salesforce.com出现问题,Force.com同样会出现问题。所以服务发生较长时间中断,问题将变得很棘手。

  这场服务中断还没有对公司造成很大影响,它同VMware合作的VMforce在今年春季引起很大反响,同时Salesforce.com首席执行官在服务中断出现后的一个月内又开始宣称Salesforce.com是“最大的云计算企业”。

  这次中断事故让人们开始质疑Salesfore.com的软件锁定行为,即将该公司的Force.com平台绑定到Salesforce.com自身的服务。但总之,这次事件只是又一次地提醒人们:百分之百可靠的云计算服务目前还不存在。

  小结:早在2010年5月份,埃森哲与中国电子学会共同发布了一份名为《中国云计算发展的务实之路》的报告。报告指出,安全问题是全球对云计算最大的质疑。而这种担忧在中国尤为突出,”以至于首席信息官们如履薄冰,特别是面对公有云服务时”。

  云安全问题一直是全球政府和企业都较为头痛的难题,如果能够跨越这一关,那么,云服务则能够顺利地得到大范围应用,反之则止步不前。所以,可以断定宕机事件的发生,在很大程度上,将使得其在全球特别是在中国推广云服务业务更加困难。这正是,国内很多企业和政府更加相信私有云的安全性。

  但是,如果仅仅从这些云服务宕机事件,就得出结论:云计算一无是处,不该被推广!这似乎有些太过于武断。安全事件,并不仅仅是云计算的专利,任何IT系统都将承受来自安全方面的压力,不管是来自于天灾,还是人祸。

  宕机事件使得人们进一步思考,公有云面临的安全问题。尽管公共云拥有众所周知的成本优势,但是用户不得不提防其存在的安全性、法规遵从和服务质量的隐患。既然数据由第三方托管,客户就希望服务提供商保证数据安全,既不丢失也不被非法访问,遵从法规对存储系统和数据保存位置的要求,并通过网络提供低延迟、高可用的服务。

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

相关推荐