避免数据中心停机:运用适当的电源设计和调试

日期: 2017-07-12 作者:Robert McFarlane翻译:朱文浩 来源:TechTarget中国 英文

数据中心的中断问题持续困扰着IT人员。执行数据中心调试或审计,拥有坚实的电源设计,以保护您的组织免受宕机影响。 在其他众多知名公司之上的美联航、达美航空和西南航空公司—最近遭受了主数据中心的中断。而他们的过于公开的关机处理又给IT管理人员的问题清单上增加了另一项烦恼。

据报道,许多这些数据中心的事故是由于电力故障引起的,这并没有很出乎意料。根据Uptime Institute的研究,发动机发电机系统是数据中心主要的电力来源,应采用公用事业电力作为经济的选择。然而,公用事业电力中断“并不被认为是一种故障,而是一种预期的运行状况,相关站点必须做好准备。” 换句话说,大多数企业数据中心都可能会发生这……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

数据中心的中断问题持续困扰着IT人员。执行数据中心调试或审计,拥有坚实的电源设计,以保护您的组织免受宕机影响。

在其他众多知名公司之上的美联航、达美航空和西南航空公司—最近遭受了主数据中心的中断。而他们的过于公开的关机处理又给IT管理人员的问题清单上增加了另一项烦恼。

据报道,许多这些数据中心的事故是由于电力故障引起的,这并没有很出乎意料。根据Uptime Institute的研究,发动机发电机系统是数据中心主要的电力来源,应采用公用事业电力作为经济的选择。然而,公用事业电力中断“并不被认为是一种故障,而是一种预期的运行状况,相关站点必须做好准备。”

换句话说,大多数企业数据中心都可能会发生这样的电源中断。对于在其职业生涯之中担心这种事情的CIO来说,这可能是资助部分所需改进的机会。但是,请注意:简单地增加冗余设备并非解决之道。

关键任务数据中心电源设计的挑战

企业数据中心最大的漏洞是隐藏的缺陷和安装错误。简单地复制设备和真正的关键任务的设计之间的差异是巨大的。然而,为潜在的故障点检查数据中心电源设计是一个艰巨的过程。考虑聘请高素质的独立专家为您的组织执行此任务。

您可以通过设计和安装来不断审视全新或更新的设施,但另一个问题是在现有设施在使用过程中进行漏洞补救。当您纠正漏洞时,您对操作的公开可能导致事故。但是,即使您不进行风险更正,需了解潜在的故障可能在哪里,以尽量减少数据中心中断的风险。

并不安全的备用电源

记录最详尽的电力故障中断之一发生在旧金山的365 Main。该公司拥有冗余不间断电源(UPS)系统和发电机,以满足客户对不间断供电的期望。但是在2007年7月24日,墨菲法案(Murphy's Law)不请自来。

首先是电源故障。数据中心的UPS保持供电,直到发电机启动。但是不久之后,这些发电机一个接一个地关闭,造成数据中心中断,这几个小时影响了公司的高阶客户。

尽管数据中心拥有坚实的电力系统设计,但数据中心运营商并没有通过调试测试来揭示发电机控制中的问题—固件。相比于反复测试故障和在负载下重启发动机,管理员选择依赖于备份电源和冗余的虚构的安全性。

许多现代UPS系统可以指示服务器在电池寿命降到预设阈值以下时开始受控停机。虽然(此方法)不是很理想,但实现此功能远比在重新启动时遇到严重问题要更好。

如果您可以修复漏洞,请制订详细的计划,了解如何解决此漏洞,以及如何处理补救过程可能导致的潜在故障。例如,如果管理员发出火灾报警器,应该有人与他一起处理这种情况,并避免倾倒气体防火系统和自动停机。并且,如果计划在工作期间关闭火灾报警器,通知设施,安全和消防部门,并确保有人用便携式灭火器待命。如果存在冷却故障的潜在可能,则计划启动选择性停机以减少热负荷并放置便携式空调作为预防措施。

通过调试尽可能减少数据中心的中断风险

即使数据中心电源设计是完美的,仍然可能会出现错误,管理员只能通过调试来识别。 调试代理不仅查看安装的正确性,并验证正确的设置和调整,但也可能会尝试破坏系统。要完成测试,代理使用一组脚本,在模拟条件下运行基础设施系统,并关闭各种元素,就好像它们发生故障一样。

调试过程还包括负载下的总电源关闭,并且可能会在单个设备中引入额外的故障,具体取决于用于设计意图的可用性级别。该过程还应识别不清楚的标记和无保护或难以达成的关键控制,例如关闭电源紧急按钮没有保护盖和警报不响。

对于新设施来说,在设计开发阶段开始投产。如果您使用独立的调试代理,在完成项目设计之前,请确保代理识别并补救出大部分的潜在缺陷。这不仅减少了数据中心中断的可能性,而且避免了大规模更改订单成本的潜在可能。

在现有的数据中心,多次关机来查找问题是过于危险的,这是说完全意义上的调试是无法实现的。在这种情况下,请考虑使用数据中心审计,其中涉及到关键系统的设计审查和现场测量、测试和检查等的组合过程。虽然它不会暴露每种潜在的情况,但它可以暴露绝大多数的漏洞,并为实践中提供补救的办法和路径。

相关推荐

  • 航空公司数据中心频宕机:仅靠DR远远不够

    去年达美航空公司的宕机在平静的航空业掀起了涟漪,而后宕机事件可谓前赴后继。IT中断给乘客带来不好的用户体验外,也让航空公司遭受巨大的经济损失。那么航空公司有没有从这一起起事件中获得一些经验教训呢?