预防数据中心系统宕机:学会从错误中吸取教训

日期: 2011-08-04 作者:Michael Coté翻译:王启 来源:TechTarget中国 英文

TechTarget《预防数据中心宕机》系列专家答疑一共三部分,我们昨天讲了《预防数据中心系统宕机:做好计划是关键》,本文是该系列答疑的第二部分,第三部分请看《预防数据中心系统宕机:请把IT人员当人看!》。   我分析那些著名的宕机事故时,发现系统中有一种古怪的模式,能导致它们试图自动自我修复时发生故障,例如亚马逊的云计算中心宕机事故。在这些事故中,系统某些部分瘫痪,然后云试图发挥自我修复能力,却驱使过度,结果系统出故障了。我还发现了一点,在你的网络中,节点和活动部分越多,越容易发生问题。

因为虚拟化、云计算和其他IT设备的发展,IT需要管理越来越多的设备。即使故障比率一样,一旦发生故障,波及到……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

TechTarget《预防数据中心宕机》系列专家答疑一共三部分,我们昨天讲了预防数据中心系统宕机:做好计划是关键,本文是该系列答疑的第二部分,第三部分请看预防数据中心系统宕机:请把IT人员当人看!

  我分析那些著名的宕机事故时,发现系统中有一种古怪的模式,能导致它们试图自动自我修复时发生故障,例如亚马逊的云计算中心宕机事故。在这些事故中,系统某些部分瘫痪,然后云试图发挥自我修复能力,却驱使过度,结果系统出故障了。我还发现了一点,在你的网络中,节点和活动部分越多,越容易发生问题。因为虚拟化、云计算和其他IT设备的发展,IT需要管理越来越多的设备。即使故障比率一样,一旦发生故障,波及到的设备会更多。

  在某种程度上,宕机问题缘于缺乏计划,但这样说也有失公允。在进程变得缓慢而且成本高昂前,你没有太多时间计划。像NASA这样的大型组织可以花大量时间金钱来保证正常运行(就算这样它们也会不时出错),其他组织可没这么幸运。有一个坚如磐石的IT系统是奢侈的,大多数公司并不打算给IT足够的预算。

  在某种程度上,宕机对于那些“超级IT侠”来说是令人兴奋的,可以把这种事类比成英雄漫画:系统因为某种诡异的原因宕机了,无人可解,只有一个“The One”能够拯救公司!不管是程序员还是管理员,都会因为能够为系统进行良好的故障检修而受到嘉奖。毕竟,如果系统从来都不出问题的话,IT人员就没什么事干了,所以事实上IT设备的问题保住了很多人的饭碗。

  当然,如果IT服务不断地出问题,IT人员自然要接受惩罚,要不挨骂,要不降薪或者解雇,他们自己也会丧失信心。但是,只有出现问题,才能学会应对问题。从宕机中,我们能学到很多东西。必须要避免的是:杜绝那些只知道应付过去的错误,却不知道考虑将来问题的方针政策。如果你去看一下IT以外行业的政策,你会发现无数错误已经被证实了——就像机场安全一样。

  宕机首先会影响客户的满意度,不管是对于企业内部,还是对于外部客户。IT部门试图在内部向企业证明他们的力量,当时宕机却证明了企业的真实想法:IT就是烧钱的。过去几年,Google、亚马逊、Facebook等等,都成为了文化的一部分,我们已经见识到了IT在社会生活中,已经成为了人们的重要满意来源。

  每次内部的IT设备坏了,企业都想知道IT部门出了什么问题。他们会想:“这难道有多难吗?”此时他们却忘了,那些自认为简单的定制和不合理要求都是谁丢给IT的。

  外部客户对于宕机会更加火大。他们有很多备用选项,这样等于给他们更多取消服务的借口,量化资产负债表就变得麻烦了。假如你是客户,你每个月付钱,也没什么所谓的“客户忠诚度”,因为没有更好的选项才选择了他们。一旦他们的IT服务出了问题,你就不能很快得到自己想要的,你生气了,于是想要换别的服务商。大多数企业没法让客户产生忠诚,一旦宕机,就很难保住客户。

  测试是减少宕机的方法之一,我喜欢Netflix的Chaos Monkey方法——运行系统时,随机破坏其中一部分组件。这种方法看起来极端,但是可以有效提高测试和应对故障的能力。我们还没办法重建系统,但是这种方法还是很吸引人的。

翻译

王启
王启

相关推荐