高可用性数据中心的UPS设计和部署配置之比较性评估-解决方案-行业资讯-电源在线网

作者：克里斯-莱夫勒（Chris Loeffler）

伊顿公司刀片UPS及数据中心应用领域产品经理

执行摘要

UPS（不间断电源系统）在确保IT可靠性方面扮演着至关重要的角色。因此，它们自身的可靠性也同样是一个关键的考量因素。一旦UPS发生故障，则执行关键任务的电力负载可能会有风险。

那么，对于优化UPS可用性，企业要采取哪些措施？根据本白皮书的内容，对此问题的常见回答并非是最佳选择。归根结底，UPS的可靠性更多地有赖于电源系统的整体设计，而并非UPS本身的设计（如UPS是否采用在线互动式或双转换技术）。而最终，提高UPS可用性的办法无疑就是将包括UPS和整个电源保护方案在内的整体修复时间缩至最短，将冗余扩至最大。

此外，在本白皮书中，我们也将颠覆“零部件越多则故障可能性越高”这一传统的观念，阐述何以模块化UPS设计能够提供出众可靠性的原因。

平均无故障时间（MTBF）之惑

一直以来，MTBF（平均无故障时间）是UPS生产商用来测量和说明UPS可靠性的关键度量标准。不过，用MTBF来预测UPS的可用性实际上却难具说服力。

为了说明这一点，我们来举一个例子，假设一台UPS的MTBF是200,000小时，非专业人士可能简单地以为该设备可以无故障运行200,000小时（约为23年）。但是，事实上UPS生产商不可能也不会对产品进行为期23年的无故障运行测试。相反，他们只是根据UPS组件的预计使用寿命先行计算出一个MTBF值。然后，在其出货量增长到具有统计学意义时，会根据这批设备实际的性能数据替换到某些初步的预估值。尽管这些修正后的数据可能存在误导性。比如，假如2,500台UPS在5年的研究期内运行良好，那么得到的MTBF值可能会相当高。但是，如果这些系统中有一个组件的使用寿命只有6年，那么在5年研究期过后的一年，它们中的90%可能会发生故障。

而且，MTBF的测量至今还没有一个通用的标准。多年来，许多的政府机构不断要求生产商根据最新版的MIL-HDBK-217F手册提供计算数据，但是许多的商业客户却采用Telcordia (Bellcore) SR-332标准流程。近期，经技术行业总结发现，这些测量方法虽然颇有用处，却并非是制造商评定产品可靠性的唯一方法。也因此，如今的生产商逐渐将注意力放在了可靠性设计（DFR）上。过往标准主要关注单个电气组件及其与产品设计中采用的电路之间的关系，而DFR则侧重于产品在各种条件下的预定或预期用途。

不过，最终还是没有对测量供电负载的UPS运行情况给出一个标准方案。也因而，将一家生产商的UPS与另一家的UPS就MTBF数值进行比较时仍很难实现。

用可用性来测量关键电源后备系统更加具有实质意义。鉴于UPS在数据中心所占据的重要作用，能否快速更换旧零件或故障零件就显得至关重要。可用性表示的是MTBF与另一度量单位MTTR（平均故障修复时间）相互之间的关系。MTTR（平均故障修复时间）是指从发现故障、给予响应到完全修复所需的耗时。

可用性的数值一般由多个数字9构成的百分比数表示，表明特定系统在一年使用期限内正常运行的时间比例。举例说明，一台UPS的MTBF是500,000小时，MTTR是4小时，那么，它的可用性为0.999992或者99.9992%（500,000 ÷ 500,004）。这也就是说，该台UPS每年的预期宕机时间是4.2分钟。

然而，单独来讲，尽管可用性比MTBF更能说明UPS的可靠性，但是在一些重要方面仍存在不足。具体来说，可用性无法说明例行保养的耗时。如果一个系统每年都必须安排进行检查、重新校准或常规维护，它实际的运行可用性会比上面公式得出的数值来的低。

UPS设计和内部电源通路

尽管UPS内电源通路数量的增多会使成本增加，但是这可以确保一旦某些系统组件（譬如整流器、逆变器或内部备用电池）发生故障，关键负载的供电免于中断。

UPS从设计类型上基本分为四类：

· 当UPS检测到停电故障时，后备式UPS可以切断IT设备（ITE）的市电供电，为系统提供电源保护。不过，一些备用电源系统会在过压或欠压时提供局部的电源保护，对电池电源的使用较为有限。可见，虽然后备式UPS可提高效率和降低成本，但有时提供的电源保护并不全面。

· 在线互动式UPS通常视情况适度调节电压之后，再对受保护设备供电。不过，在线互动式UPS必须使用电池电源来防止各种频率异常现象和停电情况。

· 双转换UPS可以将关键负载与市电电源完全隔绝，从而确保为IT设备提供洁净、可靠的电力。双转换UPS比后备式UPS和在线互动式UPS更耗能，因此它们在数据中心或设备间内的散热量更高。

· 带有多运行模式的双转换UPS通常在高效模式下运行，既省钱又节能。在保证供电质量后，它们会自动切换至双转换模式的更高电源保护级别。此外，大多数带有多运行模式的双转换UPS使用模块化标准部件设计，通过缩短执行维护和维修的用时来提高系统的可用性。

这些UPS设计的不同之处在于其内部的电源通路。后备式UPS通常有两条电源通路，由一个电源开关同时控制。因此，如果电源开关故障，那么IT设备便会断电。大多数的备用电源系统功率在2 kVA以下，因此故障只会对一部分的IT设备造成影响。

图1：使用标准后备式UPS供电，一旦电源开关故障，则IT设备便会断电。

在线互动式UPS通常有两条完全独立的电源通路，其中一条通路使用电源接口。如果电源接口发生故障，则UPS将由电池供电以确保将所有连接的设备从容关闭。部分顶级的在线互动式系统也会包含一个静态旁路通路，可以自动旁路UPS中发生故障的组件，将IT设备直接连接至市电电源。

图2：标准在线互动式UPS的电源通路

大多数的双转换UPS有两条电源通路，一条由市电电源或发电机供电，一条则由电池电源供电，此外UPS内还包括：

· 自动静态旁路开关可以旁路发生故障的整流器或逆变器，并由市电电源直接供电IT设备

· 手动维护旁路设备允许技术人员在不中断受保护负载供电的情况下对系统进行维修

图3：标准双转换UPS的电源通路

一些带有多运行模式的双转换UPS除了具备标准双转换UPS的两条电源通路之外，还包括一个自动维护旁路设备，可在UPS进行维修或维护时自动旁路逆变器。此外，如果在模块化冗余设计中使用带有多运行模式的双转换UPS，它可以自动选择是否要将负载连接旁路，确保在执行维护时由UPS的备用电源供电系统。如此可以缩短MTTR，并降低维护和维修期内宕机或意外断电的风险。

图4：带有多运行模式的高效双转换UPS的电源通路

提高UPS电源通路可用性的策略

提高UPS电源通路的可靠性的方法有很多：

· 添加并联电池组：使用单组串联电池的UPS其无法正常供电负载的风险会大大加强。举例来说，一台大型的UPS有40个电池串联连接（即一个电池的正极与相邻电池的负极相连）。如果这些电池其中一个出了问题，那么整串电池组就会故障，从而导致UPS无法正常供电。如果在UPS上再额外并联一串由40个电池正负级串联连接的电池组的话，假设其中一串电池组发生故障，那么UPS仍可由另一串正常的电池组供电一段时间，从而有时间连接备用发电机供电或者从容关闭负载设备。

图5：有两串并联电池组供电的UPS其因电池故障导致UPS无法正常供电的可能性会有所降低

· 安装发电机：电池供电只能解决一时的燃眉之急。如果面临长时间的断电情况，即使使用了最长时效的电池组可能也是“有心无力”。因此，在长时间的停电情况下，使用发电机最为备用供电电源较为理想。

图6：配有应急发电机的UPS电源通路

· 确保UPS包含一个自动静态旁路开关：在UPS内部出现故障时或者由UPS供电的负载出现严重过载或短路情况时，UPS的自动静态旁路开关会旁路整流器和逆变器，由市电电源或发电机直接向IT设备供电。在故障情况下，静态旁路开关切换供电电源仅耗时3-8毫秒，因此不会影响IT设备的正常供电。

图7：内置静态开关的UPS电源通路

通过并联安装UPS提高可用性

冗余的设计逻辑，不仅适用于电源保护方案，同样亦适用于UPS设计。在电源设计中构建多条电源通路能够从根本上提高系统的可靠性。

图8：系统和子系统可靠性。资料来源：美国国防部

从图8中，我们可以归纳出两个简单却十分重要的观点。第一点，串联连接的电源通路组件（比如子系统A、子系统C和子系统D），削弱了系统的整体可靠性；第二点，并联冗余的电源通路组件（比如子系统B），增强了整体可用性。这是因为，如果子系统A、子系统C或者子系统D有一个发生故障，整条电源通路便无法正常工作。相反，由3个组件并联的子系统B，如果其中一个故障，则另外两个组件进行“接手”，确保整个系统如常运行。

换言之，“短板效应”同样适用于此：电源供应链的最终性能受限于其最弱的一环。因此，在供应链的每一点上添加多个冗余可以提高其整体的可靠性。因此，最可靠的输电系统通常包括了从总电源至用电负载的多条相互独立的电源通路，相互尽可能避免重叠。采用冗余配置的电源系统，当组件发生故障或者进行例行维护时都不会导致IT设备关闭。

图9：市电电源到UPS间分支出多条电源通路供电IT设备，从而通过增加冗余来提高系统的可靠性

并联UPS架构

在UPS行业领域，系统并联部署的方式有很多。最常见的两种方式是串并联组合部署的架构或者是全冗余并联部署的架构。

图10：正常运行（上）和存在故障运行（下）的串并联组合部署的系统架构

当需要使用两个不同型号或者是由两个不同厂商生产的UPS系统支持基本负载时，有时会使用串联冗余的配置架构，它们无法在冗余配置中并联。但是使用串并联组合部署的架构可以帮助你克服这种限制。

不过，采用串并联组合部署架构的系统提供的冗余十分有限，同时还要求有几件关键事件发生才能在故障期间为负载提供保护。这些事件包括：

1.) 故障系统必须检测到发生的故障

2.) 故障系统必须能够安全切换到系统内置的静态开关

3.) 故障系统必须将故障组件从输出电源总线上断开

4.) 备用电源系统必须能够应（负载供电）要求立即支持满负载运行

此外，若采用串并联组合部署架构的系统，用户还需承担无负载UPS的运行和维护费用。

一般来说，全冗余并联架构具备的可靠性更高，不过这也取决于其实施的形式。某些UPS声称具有并联架构，但实际上只是有限的几个组件进行并联。这也就是说，虽然在一个类似的零件出现故障时系统可以提供一定的冗余，但是系统中没有独立的子系统。一旦子系统发生故障，那么整个UPS便需要关闭进行维修。

图11：部分内置冗余的并联架构

其它的UPS设计还包括带有独立子系统的UPS和带有点对点并机能力的UPS，就是说由UPS自身进行控制，而不是使用主控制器，这就赋予了UPS最高的可靠性级别。并联架构的设计旨在不增加降低设计复杂程度的情况下尽可能地消除单点故障。因此，并联架构可以使用独立子系统和点对点控制，提供最少故障点最高可靠性的系统设计。

图12：每个UPS带有点对点控制和独立子系统的并联冗余架构

当然，组件数量和连接点较多的并联冗余UPS配置其潜在的故障点也更多，因而MTBF较短。也因此，IT经理时常会认为，如果并联架构中UPS的数量越少，那么系统的可靠性也就越高。虽然向UPS架构不断增加组件，终究会达到回报趋减的一个点，但是，相对于配置较少UPS的系统，一个设计谨慎、包含更多UPS的系统必然会提供更高的可用性。

为了说明这一点，我们假定两个采用并联冗余设计的系统架构样本为60 kW负载提供保护。第一个架构包含2个传统的60 kW的UPS，第二个使用的是6个由模块化标准组件构成的12 kW的UPS。

现在我们假设下，如果发生硬件故障，这会对这两种配置有何影响：

· 采用两个60 kW UPS为负载提供保护的架构仅可由受过培训的专业人员进行维修。即使专业的维修人员可以承诺在4小时内到达现场，系统宕机的总耗时可能也将达到6-8小时。而且，如果维修人员随身未带有需要更换的零部件，那么宕机时间可能就会延长至24小时。在这段时期内，由于缺少UPS冗余，IT设备的风险指数就会很高。

· 反观使用6个12 kW UPS的系统，其使用热插拔电子组件和电池模块，假设最终用户手上有可更换的零部件的话，他们便可在几分钟内自行更换故障的组件。

图13：两个使用并联冗余为60 kW负载提供电源保护的系统架构

电池方面的考量进一步提供了佐证。一般UPS电池的使用寿命是4年。因而，采用60 kW UPS配置的系统架构可能会因为电池相关问题每四年至少有6个小时未能提供冗余。但是对于采用12 kW UPS配置的系统架构，其每四年可能约只有1个小时未能提供冗余。

对电池是如此，对风机、电容器等的电子机械组件同样也是如此，所要考虑的一般都是UPS内磨损零件或是消耗品。使用热插拔件设计的UPS产品很少会发生宕机。因此，即使采用6个12 kW UPS配置的系统架构比采用2个60 kW UPS配置的系统架构的零件故障MTBF更短，但是它的MTTR也相对较短，因而最终的可用性还是相对较佳。

电池如何影响可靠性

UPS的设计理念决定了其使用电池电源的频率，而电池使用频率又与电池的运行时间和使用寿命直接相关。

后备式UPS会频繁切换至电池供电模式，这会减少电池的运行时间并缩短使用寿命。而且，在频繁切换供电模式的过程中会存在短暂的断电，可能会使IT系统关闭。同时，输出电压调整范围较宽，会导致IT电源关闭。

在线互动式UPS比后备式UPS能够更好地提供电源异常保护，然而当在正常模式和调节模式之间进行转换时或者为应对发动机启动时的电压不稳定，必须依靠电池进行供电。

双转换UPS的电池使用则更为适度。在较宽的输入电压容限范围内，UPS整流器和逆变器会共同调节输出电压，而不需要借助于电池进行供电。此外，从正常供电模式转换至电池供电模式的切换时间很短，因此不必担心IT系统会出现供电中断的情况。

带有多运行模式的新型高效双转换UPS，其使用电池的时间和频率与双转换UPS相似，在某些情况下可能要来得更低。而且，这些UPS在正常运行模式下效率可高达99%。效率更高就相当于电池的运行时间更长，运行温度更低，这两点都有助于延长电池的使用寿命。

图14：不同UPS设计的标准电源使用模式

总结：电源系统可用性最大化的六个关键步骤

1. 高品质UPS的标准化设计：选择资历出众、拥有诸多成功案例的业界厂商。UPS的设计应当包括内置关键组件冗余，采用多条电源通路，使用性能优越的组件，同时在生产过程中对质量进行严格把关。

2. 选择内置有多条电源通路的UPS：良好的UPS设计应当能提供多条电源通路进行额外冗余，包括静态旁路开关，手动维护旁路或自动维护旁路。

3. 寻找可满足您IT设备需求的UPS：一些UPS的价格虽低，但却无法正常支援用电负载，这就会导致IT设备被重置、数据被破坏甚至设备被关闭。带有多运行模式的高效双转换UPS可以在IT设备和工业设备容许的电压和频率范围内对电源进行很好地净化。

4. 部署冗余并联UPS：如此可以对电源通路、电子组件和电池模块进行冗余，从而提供最高的可靠性保护。

5. 注重可以缩短MTTR的各种特性：选择模块化系统设计，UPS应使用便于维修的零部件，比如热插拔电池和电子组件。从根本上来说，MTTR比MTBF对可用性的影响更大。

6. 选择使用电池可能性最小的UPS：频繁使用电池供电的UPS，其电池的运行时间和使用寿命会相对缩减。带有多运行模式的高效双转换UPS使用电池的可能性更小，有助于延长电池的使用寿命。■