使用双电源服务器提供2N冗余

2009-1-5    | |
打印本文章
RSS

导读:本文介绍使用双电源服务器帮助数据中心达到2N冗余,并且学习UPS、PDU和双电源服务器。

关键词:双电源 服务器 冗余 UPS PDU

正在加载数据... 【TechTarget中国原创】电源是数据中心的基础要素之一,通常由服务器管理员负责管理。而且,断电或低质量电源是造成数据中心服务器停机的一大主要因素。这里,我指的不是公用电源故障,而是电源分布系统的操作和管理的通病。

【TechTarget中国原创】电源是数据中心的基础要素之一,通常由服务器管理员负责管理。而且,断电或低质量电源是造成数据中心服务器停机的一大主要因素。这里,我指的不是公用电源故障,而是电源分布系统的操作和管理的通病。

  在数据中心,有如下几个关键的基本电源组成部分:

  1. 公用电源和主电源板
  2. 备用发电机和自动转换开关(ATS)
  3. 不间断电源(UPS)和支路维护板(maintenance bypass panel)
  4. 电源分配单元(PDU)
  5. 机架级PDU
  6. 服务器的内部电源

  在大多数情况下,服务器管理员都不会涉及到前四项的设计或操作。不过,他们会直接掌管着机架级PDU和服务器电源。大多数电源故障都发生在这里。

  双电源服务器的实际情况

  在关键任务环境下,双电源服务器是比较普遍的做法,它可以提高数据中心的可靠性。然而,尽管服务器管理员想尽可能地充分利用双电源提高冗余,但有时这些双电源服务器并未得到合理地部署。有时,不合理的操作实际上反而会降低电源的冗余。

  在“完美”的安装执行中(如,Tier 4数据中心),应该有两条完全独立的电源线路,每条线路分别由上述6个部分组成。而且,每条线路必须能够独立承载整个数据中心的负载。这就是我们所说的2N冗余。2N冗余意味着电源故障绝不会中断数据中心设备的运行。

  当然,并不是每个人都那么走运能操作一个Tier 4数据中心。尽管我们谁都想拥有完全的电源冗余,但鉴于成本因素,我们通常不得不采取一些折中的做法。由于受到成本预算的限制,所以通常尽管服务器有双电源,但其它5项却没有两条完全独立的线路。

  服务器管理员对冗余的理解通常有偏差

  在本文前面已提到,管理员直接负责服务器和机架级PDU的安装和管理。通常,每个机架只有一个PDU。因此,双电源服务器的冗余度就仅限于服务器电源本身的故障。

  然而,更普遍的情况是有两个机架级PDU,服务器的两条电源线分别插到不同的PDU上。这让大多数管理员有了一种冗余的错觉,实际上其中也隐藏着电源故障的威胁。

  通常,服务器安装和操作环境的两个机架级PDU都是可用的。当两个电源都正常时,双电源会分担服务器负载,大概各占50%。当其中一个发生故障或失去电源输入时,剩下的一个电源必须承担100%的负载。因此,最佳的做法应该是PDU的负载不要超过短路开关的跳闸值。

  即使每个PDU的负载只占它最大额定负载的60%,也可能会出现问题。实际上,即使PDU有测流计显示负载达到额定功率的60%,大多数管理员也会以为机架级PDU还可以承载更多的服务器,因为现在“才使用了60%的功率”。实际上这已经超载了,但很多管理员没有意识到这一点。

  为什么呢?如果服务器的电源发生故障,那么剩下的电源和PDU就要承担服务器的全部负载。这意味着120%的PDU功率负载会落到剩下的那个PDU身上,短路开关会跳闸,关闭机架内所有设备。这是一个典型的串联故障。同样,如果添加服务器或其它设备使负载超过其中任何一个PDU的跳闸负载值,也会出现这样的问题。

  正确地执行双电源服务器

  要确保双电源服务器和双PDU机架的安全,唯一的办法是不要超过机架PDU额定值的40%。PDU和它的供电电路必须总是受到断电开关的保护。根据UL和NEMA的规范要求,只有不超过PDU额定值的80%才是安全的。

  例如,一个额定值为20安的PDU,负载不能超过16安。这就是说,在一个双PDU机架里,所有设备负载不应该超过16安。因此,每个PDU应该只有8安的负载,以免出现超负荷。

  现在,很多机架的PDU都没有测流计,有时是因为它们太老式,有时是因为预算不足。不过,即便是有测流计,有些管理员也不会意识到如果它们负载超过了40%,就会有串联电源故障的危险。另外,由于服务器随时都有可能更新和添加,所以危险会不知不觉地越来越高,直到问题出现时已为时已晚。从这一点来看,很多人都误以为它们是“完全冗余的”。

  如果你有幸能避免这个错误的观点,我建议你检查一下每个机架级PDU的使用情况。如果没有PDU测流计,可以考虑一下升级。如果你的机架数量较多,那么可以考虑远程监测(通过SNMP或网络)PDU。这可以减轻你手动监测成百上千PDU的沉重负担。实际上,上述方法适用于电路中的所有部分。

  总之,在执行冗余时如果要确定当其中一条线路发生故障时另一条线路是否能承担全部的负载,就审查一下负载结构,主动监测和管理所有PDU的负载程度和电路中其它所有要素。更改PDU布置可能会需要一些停机时间。不过,和其它任何电路维护一样,如果要实现真正的2N冗余,一定的停机时间可能是必要的。要么是一些计划内停机时间,要么是意外的断电停机风险,你可以任选一种。

查看全文
 
据国外媒体报道,CRN网站周二评出了2009年上半年IT市场发生的10件大事,其中包括甲骨文收购Sun、Conficker蠕虫感染900万台计算机,以及微软确定Windows 7发布日期等。
 
调查显示,29%的受访者表示,数据中心电源消耗和冷却问题已经引起了管理层的注意,并且把它们作为减少经营成本的一个途径,这种情况并不让人感到意外。
 
从1988年开始,事务处理执行委员会(TPC)就开始创立衡量系统事务处理性能的基准。该组织已经创立了九个基准,分别针对IT行业的不同需求。TPC能源规范是其工作中的又一个重大进展。
 
数据中心供电系统的可靠性是至关重要的。可以想见,无论IT设备多么精密、系统的功能多么优越、可靠性多么高,一旦停电,再好的系统也无法运转。
 
电力供给是数据中心的命脉,而各数据中心对电力的需求正逐年增加。这是因为数据中心增加了功能强大、数量众多的服务器,而这意味着所需电能也更多。
最新更新
专家答疑
技巧
Robert Macfarlane
随着数据中心规模的扩大和刀片服务器的引入,散热成为令许多数据中心管理人员头疼的问题。服务器过过热不仅会影响服务器的工作效率,还会增加数据中心的能源消耗。
Robert Crawford
当我在C语言里写一个CICS程序,算术运算(arithmetic operations)在CICS执行里不能工作。我收到了来自CICS和程序的两个值。单独这个附加的状态不工作,这是怎么回事呢?
Charles King
建立与运营一个数据中心所包含的资本及运营开支的详细成本有哪些?一般说来,有一些问题你需要考虑到以下几方面。

登录TechTarget中国

关闭
本服务仅向TechTarget中国的会员开放,请登录或立即免费注册
登录Email
请输入您的登录Email
密码
下次自动登录