作者:克里斯-莱夫勒(Chris Loeffler)
伊顿公司刀片UPS及数据中心应用领域产品经理
执行摘要
UPS(不间断电源系统)在确保IT可靠性方面扮演着至关重要的角色。因此,它们自身的可靠性也同样是一个关键的考量因素。一旦UPS发生故障,则执行关键任务的电力负载可能会有风险。
那么,对于优化UPS可用性,企业要采取哪些措施?根据本白皮书的内容,对此问题的常见回答并非是最佳选择。归根结底,UPS的可靠性更多地有赖于电源系统的整体设计,而并非UPS本身的设计(如UPS是否采用在线互动式或双转换技术)。而最终,提高UPS可用性的办法无疑就是将包括UPS和整个电源保护方案在内的整体修复时间缩至最短,将冗余扩至最大。
此外,在本白皮书中,我们也将颠覆“零部件越多则故障可能性越高”这一传统的观念,阐述何以模块化UPS设计能够提供出众可靠性的原因。
平均无故障时间(MTBF)之惑
一直以来,MTBF(平均无故障时间)是UPS生产商用来测量和说明UPS可靠性的关键度量标准。不过,用MTBF来预测UPS的可用性实际上却难具说服力。
为了说明这一点,我们来举一个例子,假设一台UPS的MTBF是200,000小时,非专业人士可能简单地以为该设备可以无故障运行200,000小时(约为23年)。但是,事实上UPS生产商不可能也不会对产品进行为期23年的无故障运行测试。相反,他们只是根据UPS组件的预计使用寿命先行计算出一个MTBF值。然后,在其出货量增长到具有统计学意义时,会根据这批设备实际的性能数据替换到某些初步的预估值。尽管这些修正后的数据可能存在误导性。比如,假如2,500台UPS在5年的研究期内运行良好,那么得到的MTBF值可能会相当高。但是,如果这些系统中有一个组件的使用寿命只有6年,那么在5年研究期过后的一年,它们中的90%可能会发生故障。
而且,MTBF的测量至今还没有一个通用的标准。多年来,许多的政府机构不断要求生产商根据最新版的MIL-HDBK-217F手册提供计算数据,但是许多的商业客户却采用Telcordia (Bellcore) SR-332标准流程。近期,经技术行业总结发现,这些测量方法虽然颇有用处,却并非是制造商评定产品可靠性的唯一方法。也因此,如今的生产商逐渐将注意力放在了可靠性设计(DFR)上。过往标准主要关注单个电气组件及其与产品设计中采用的电路之间的关系,而DFR则侧重于产品在各种条件下的预定或预期用途。
不过,最终还是没有对测量供电负载的UPS运行情况给出一个标准方案。也因而,将一家生产商的UPS与另一家的UPS就MTBF数值进行比较时仍很难实现。
用可用性来测量关键电源后备系统更加具有实质意义。鉴于UPS在数据中心所占据的重要作用,能否快速更换旧零件或故障零件就显得至关重要。可用性表示的是MTBF与另一度量单位MTTR(平均故障修复时间)相互之间的关系。MTTR(平均故障修复时间)是指从发现故障、给予响应到完全修复所需的耗时。
可用性的数值一般由多个数字9构成的百分比数表示,表明特定系统在一年使用期限内正常运行的时间比例。举例说明,一台UPS的MTBF是500,000小时,MTTR是4小时,那么,它的可用性为0.999992或者99.9992%(500,000 ÷ 500,004)。这也就是说,该台UPS每年的预期宕机时间是4.2分钟。
然而,单独来讲,尽管可用性比MTBF更能说明UPS的可靠性,但是在一些重要方面仍存在不足。具体来说,可用性无法说明例行保养的耗时。如果一个系统每年都必须安排进行检查、重新校准或常规维护,它实际的运行可用性会比上面公式得出的数值来的低。
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 总8页
http:www.cps800.com/news/2011-5/2011518111837.html