数据中心的基础管理技术
UPS市电供应出现故障时,若在后备电池容量范围内仍不能恢复市电,系统运行人员须通知有关人员对运行系统的数据进行保存,尽量降低辅助系统、显示器等非核心设备的耗电以最大限度地保证核心系统的运行。
1、作业管理。
①操作实施过程应严格按照工作步骤执行,应有监护人对操作进行监护、监督,并逐条落实工作票的安全措施。
②操作过程中应开启日志记录,并进行归档。
③要控制在机房工作的人数,在机房内禁止做与工作无关的事情。
④施工人员用电必须申请,经批准后,按照规定使用电源,不得乱拉电源线、插座。
⑤严禁日常作业使用信息机房内ups电源供电。
⑥设备使用完毕后应注销或锁定系统,以避免不当使用。
⑦工作完成后,应立即进行测试检查,确认是否达到作业目的,合格后清理工作现场。
2、设备管理。
①设备标签。
·信息机房内设备均应贴上标签,注明设备名称、设备编码、责任人、投运时间等,对多用途设备应额外标注用途。
·标签应选用不易损坏的材料,必须打印不允许手写。
②设备台账。在信息机房内所有设备,都必须登记入册,包括设备的型号、采购日期、配置等。设备登记列账应由专人负责,定期盘查,做到设备台账与实物相符、条理清楚。
③设备调人和运出。
·设备进人信息机房前,必须由设备管理员向运维负责人提出申请,经审批同意后,由运维负责人安排设备位置及安装时间,并在规定的时间内,将设备放置指定位置。
·设备如需运出,由设备管理员向达维负责人申请,经运维负责人同意后,方可运出。
④设备日常维护。
·建立设备专管责任制,精心维护、精心操作,确保设备安全可靠运行。
·认真监控设备运行情况,发现异常应及时向设备管理员和信息部门负责人报告,并做好现场状态信息的记录。
·接到设备停运通知应填写工作票,根据设备停运安排和注意事项,进行数据备份、设备停运并挂上设备停运标志,还要登记设备停运时间。
·停运设备重新投运需经信息部门负责人批准方可执行,并登记复运时间。
·设备发生故障,启动相应的故障处理应急预案,在得到信息部门负责人通知后方可进行故障处理工作。
·对设备硬件进行维修作业时,维修操作必须严格按照维修手册或说明中的操作规程进行,严禁带电作业,不得在通电情况下进行设备的更换、拆卸、焊接(热插拔设备除外)。
·更换部件或设备工作变更时,全程工作必须至少有两人以上参加,工作完成后及时做好维修记录。
·对不能处理的故障或无把握处理的故障,报相关领导后再处理。
3、UPS管理。
①做好UPS测试预案,定期做好UPS系统的测试和电源的切换。
②严格按照后备电池的运行方式和寿命,做好后备电池的定期充放电和更换。
③UPS市电供应出现故障时,若在后备电池容量范围内仍不能恢复市电,系统运行人员须通知有关人员对运行系统的数据进行保存,尽量降低辅助系统、显示器等非核心设备的耗电以最大限度地保证核心系统的运行。
④UPS本身发生故障时,应采用市电直接供电以保证系统的正常运行。
⑤利用UPS的监控管理功能和故障报警功能,保证在UPS故障情况下,发出告警并及时对设备进行相关操作。
4、事件与缺陷管理。
①事件(故障)管理。
·发生故障后,值班人员应立即报告信息部门负责人,同时信息部门组织人员对故障进行处理,并记录处理过程,故障处理过程要在保障安全性的基础上,恢复系统的可用性,必要时,应启动应急预案。
·信息部门应对故障影响的范围和严重程度做出判断,所有故障须通报相关主管领导;对不能立即排除的故障,应通知相关用户并向相关领导进行汇报。
·信息部门应制定系统关键点故障处理的应急预案,并通过演练完善应急预案。
②缺陷管理。
运维人员发现缺陷后应及时报告运维负责人,对缺陷进行定性并记人缺陷记录。
·危急缺陷或严重缺陷由运维人员15分钟内报告信息部门负责人,并通知设备管理员和系统管理员。运维人员应立即分析缺陷原因,提出解决办法。30分钟内无法解决的缺陷,应及时联系相关设备厂商协助解决。
·一般缺陷由运维人员及时处理或添加至缺陷处理计划中,并填写运行日志。
·在缺陷没有得到处理以前,应加强监视或采取必要措施,防止进一步恶化。已经记录的缺陷,如在监视过程中有进一步恶化的趋势,应及时上报。
·缺陷消缺后,由运维负责人对缺陷进行消缺检查。
·缺陷消除后,运维人员需填写缺陷处理报告并及时注销记录。
·定期对末消除的缺陷进行清理,并对处理完的缺陷汇总、归档。■