预防数据中心系统宕机：学会从错误中吸取教训

TechTarget《预防数据中心宕机》系列专家答疑一共三部分，我们昨天讲了《预防数据中心系统宕机：做好计划是关键》，本文是该系列答疑的第二部分，第三部分请看《预防数据中心系统宕机：请把IT人员当人看！》。　　我分析那些著名的宕机事故时，发现系统中有一种古怪的模式，能导致它们试图自动自我修复时发生故障，例如亚马逊的云计算中心宕机事故。在这些事故中，系统某些部分瘫痪，然后云试图发挥自我修复能力，却驱使过度，结果系统出故障了。我还发现了一点，在你的网络中，节点和活动部分越多，越容易发生问题。

因为虚拟化、云计算和其他IT设备的发展，IT需要管理越来越多的设备。即使故障比率一样，一旦发生故障，波及到……

查看全文

我们一直都在努力坚持原创.......请不要一声不吭，就悄悄拿走。

我原创，你原创，我们的内容世界才会更加精彩！

【所有原创内容版权均属TechTarget，欢迎大家转发分享。但未经授权，严禁任何媒体（平面媒体、网络媒体、自媒体等）以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget

官方微博

TechTarget中国

取消回复

TechTarget《预防数据中心宕机》系列专家答疑一共三部分，我们昨天讲了《预防数据中心系统宕机：做好计划是关键》，本文是该系列答疑的第二部分，第三部分请看《预防数据中心系统宕机：请把IT人员当人看！》。

　　我分析那些著名的宕机事故时，发现系统中有一种古怪的模式，能导致它们试图自动自我修复时发生故障，例如亚马逊的云计算中心宕机事故。在这些事故中，系统某些部分瘫痪，然后云试图发挥自我修复能力，却驱使过度，结果系统出故障了。我还发现了一点，在你的网络中，节点和活动部分越多，越容易发生问题。因为虚拟化、云计算和其他IT设备的发展，IT需要管理越来越多的设备。即使故障比率一样，一旦发生故障，波及到的设备会更多。

　　在某种程度上，宕机问题缘于缺乏计划，但这样说也有失公允。在进程变得缓慢而且成本高昂前，你没有太多时间计划。像NASA这样的大型组织可以花大量时间金钱来保证正常运行（就算这样它们也会不时出错），其他组织可没这么幸运。有一个坚如磐石的IT系统是奢侈的，大多数公司并不打算给IT足够的预算。

　　在某种程度上，宕机对于那些“超级IT侠”来说是令人兴奋的，可以把这种事类比成英雄漫画：系统因为某种诡异的原因宕机了，无人可解，只有一个“The One”能够拯救公司！不管是程序员还是管理员，都会因为能够为系统进行良好的故障检修而受到嘉奖。毕竟，如果系统从来都不出问题的话，IT人员就没什么事干了，所以事实上IT设备的问题保住了很多人的饭碗。

　　当然，如果IT服务不断地出问题，IT人员自然要接受惩罚，要不挨骂，要不降薪或者解雇，他们自己也会丧失信心。但是，只有出现问题，才能学会应对问题。从宕机中，我们能学到很多东西。必须要避免的是：杜绝那些只知道应付过去的错误，却不知道考虑将来问题的方针政策。如果你去看一下IT以外行业的政策，你会发现无数错误已经被证实了——就像机场安全一样。

　　宕机首先会影响客户的满意度，不管是对于企业内部，还是对于外部客户。IT部门试图在内部向企业证明他们的力量，当时宕机却证明了企业的真实想法：IT就是烧钱的。过去几年，Google、亚马逊、Facebook等等，都成为了文化的一部分，我们已经见识到了IT在社会生活中，已经成为了人们的重要满意来源。

　　每次内部的IT设备坏了，企业都想知道IT部门出了什么问题。他们会想：“这难道有多难吗？”此时他们却忘了，那些自认为简单的定制和不合理要求都是谁丢给IT的。

　　外部客户对于宕机会更加火大。他们有很多备用选项，这样等于给他们更多取消服务的借口，量化资产负债表就变得麻烦了。假如你是客户，你每个月付钱，也没什么所谓的“客户忠诚度”，因为没有更好的选项才选择了他们。一旦他们的IT服务出了问题，你就不能很快得到自己想要的，你生气了，于是想要换别的服务商。大多数企业没法让客户产生忠诚，一旦宕机，就很难保住客户。

　　测试是减少宕机的方法之一，我喜欢Netflix的Chaos Monkey方法——运行系统时，随机破坏其中一部分组件。这种方法看起来极端，但是可以有效提高测试和应对故障的能力。我们还没办法重建系统，但是这种方法还是很吸引人的。

作者

: Michael Coté

翻译

: 王启

预防数据中心系统宕机：学会从错误中吸取教训

取消回复

作者

Michael Coté

翻译

王启

相关推荐

迁移云端，关于容量规划、灾难恢复你都想好了吗？

IT业务连续性规划：托管方式与云端有何不同？

数据中心灾难恢复报告：六大隐患点你中枪了吗

2016年IT目标：DevOps及自动化