一、机房维护的必要性
机房内的设备对工作环境有着非同一般的要求。
1、机房设备十分爱干净,对灰尘特别“感冒”。如果设备长期处于灰尘漫舞的环境中工作,很容易发生故障,因为灰尘会不知不觉地渗入设备的控制框中,并直接覆盖到它的电子线路中。时间一长,设备内部的工作电路就会散热不良,长此以往自然就容易出现故障。
2、设备都害怕潮湿。设备内部有电子线路,如果电子线路中的各个元器件长期在潮湿环境中工作,其电气性能会逐步下降,而且还有可能产生漏电现象,引发火灾事故。
3、设备对环境温度十分敏感。高于40℃的环境或低于0℃的环境会降低设备的工作效率,使它的潜能得不到充分发挥,从而减少使用寿命。
4、机房的硬件设备品牌过多、产品供应商过多,厂家售后保障措施不到位等等原因,导致设备使用一段时间后,设备故障不断、损坏率不断攀升,最终不得不对原有设备进行大面积更新,出现重复投资、浪费严重的现象。
对于客户而言,往往因为专注于业务或者受成本所限,缺乏专业的机房维护人员以及充足的备件。如果说小故障尚可解决,那么,一旦机房发生突如其来的大故障,客户便会措手不及,或者无法找到症结所在,或者没有可更换的备件。此时,损失已经造成了。
为了做好机房设备的维护工作,我公司维修中心配备相应的人力、物力(工具、通讯设备等),确保中心机房正常运作,通过对机房环境支撑系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,通过保养延长设备生命周期,降低故障率。
确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护公司的产品维修和技术支持,并快速解决故障。
二、机房维护内容
1、机房监控设备维护管理:供配电监测系统、空调环境检测系统、门禁设备系统、漏水 检测、保安监控设备(包含摄像头、硬盘录像机)、监控主机;
2、机房空调与配电设备维护管理:精密空调机组、新风设备;UPS及电池、主配电柜、UPS 配电柜;
3、机房消防设备维护管理:各种探测器、手动报警按钮和报警控制器,灭火剂的控制装 置;
4、机房供水水路、电路及照明线路的维护管理:水、电路管线及接口的检查维修。
5、机房基础维护管理:机柜线路的整理、标签检查更换、机房除尘清洁、地板、墙面、 吊顶、门窗及有关配套的维护管理
6、机房主机设备维护管理:计算机服务器(包括PC服务器、存储服务器);网络设备(路 由及交换设备等);KVM系统;
7、机房运维管理体系建设:完善机房运维规范,优化机房运维体系;
三、机房维护具体需求
1、机房监控设备:
1)每季度一次设备的除尘、清理,扫净监控设备显露的尘土,对摄像机、防护罩、门禁、监控采集模块等部件要卸下彻底吹风除尘,之后用无水酒精棉将各个擦干净,调整摄像头清晰度,防止由于机器运转、静电等因素将尘土吸入监控设备机体内,确保机器正常运行。同时检查监控机房通风、散热、净尘、供电等设施。室外温度应在-20 ℃~+60℃,相对湿度应在10%~100%;室内温度应控制在+5℃~+35℃,相对湿度应控制在10%~80%,留给机房监控设备一个良好的运行环境。
2)根据监控系统各部份设备的使用说明,每月检测其各项技术参数及监控系统传输线路质量,处理故障隐患,协助监控主管设定使用级别等各种数据,确保各部份设备各项功能良好,能够正常运行。
3)对容易老化的监控设备部件每月一次进行全面检查,一旦发现老化现象应及时更换、维修,如视频头、采集模块等。
4)对易吸尘部份每季度定期清理一次,如监视器、漏水检测主机、门禁主机等暴露在空气中,由于屏幕的静电作用,会有许多灰尘被吸附在监视器表面,影响画面的清晰度,要定期擦拭监视器,校对监视器的颜色及亮度。
5) 对长时间工作的监控设备每月定期维护一次,如硬盘录像机长时间工作会产生较多的热量,一旦其电风扇有故障,会影响排热,以免硬盘录像机工作不正常。
6) 对监控系统及设备的运行情况进行监控,分析运行情况,及时发现并排除故障。如:网络设备、服务器系统、监控终端及各种终端外设。桌面系统的运行检查,网络及桌面系 统的病毒防御。
7)每月定期对监控系统和设备进行优化:合理安排监控中心的监控网络需求,如带宽、IP地址等限制。提供每月一次的监控系统网络性能检测,包括网络的连通性、稳定性及带宽的利用率等;实时检测所有可能影响监控网络设备的外来网络攻击,实时监控各服务器运行状态、流量及入侵监控等。对异常情况,进行核查,并进行相关的处理。根据用户需要进行监控网络的规划、优化;协助处理服务器软硬件故障及进行相关硬件软件的拆装等。
8)提供每月一次的定期信息服务:每月第一个工作日,将上月抢修、维修、维护、保养记录表以电子文档的形式报送监控中心负责人。
2、 机房空调与配电设备
2.1机房空调及新风维护
2.1.1控制系统的维护
对空调系统的维护人员而言,在巡视时第一步就是看空调系统是否在正常运行,因此我们首先要做以下的一些工作。
1)从空调系统的显示屏上检查空调系统的各项功能及参数是否正常;
2)如有报警的情况要检查报警记录,并分析报警原因;
3)检查温度、湿度传感器的工作状态是否正常;
4)对压缩机和加湿器的运行参数要做到心中有数,特别是在每天早上的第一次巡检时,要把前一天晚上压缩机的运行参数和以前的同一时段的参数进行对比,看是否有大的变化,根据参数的变化可以判断计算机机房中的计算机设备运行状况是否有较大的变化,以便合理地调配空调系统的运行台次和调整空调的运行参数。当然,对目前而言有些比较老的空调系统还不能够读出这些参数,这就需要晚上值班的工作人员多观察和记录。
2.1.2压缩机的巡回检查及维护
1)听—用听声音的方法,能较正确的判断出压缩机的运转情况。因为压缩机运转时,它的响声应是均匀而有节奏的。如果它的响声失去节奏声,而出现了不均匀噪音时,即表示压缩机的内部机件或气缸工作情况有了不正常的变化。
2)摸—用手摸的方法,可知其发热程度,能够大概判断是否在超过规定压力、规定温度的情况下运行压缩机。
3)看—主要是从视镜观察制冷剂的液面,看是否缺少制冷剂。
4)量—主要是测量在压缩机运行时的电流及吸、排气压力,能够比较准确判断压缩机的运行状况。 当然对压缩机我们还需要检查高、低压保护开关、干燥过滤器等其他附件。
2.1.3冷凝器的巡回检查及维护
1)对专业空调冷凝器的维护相当于对空调室外机的维护,因此我们首先需要检查冷凝器的固定情况,看对冷凝器的固定件是否有松动的迹象,以免对冷媒管线及室外机造成损坏。
2)检查冷媒管线有无破损的情况(当然从压缩机的工作状况及其它的一些性能参数也能够判断冷媒管线是否破损),检查冷媒管线的保温状况,特别是在北方地区的冬天,这是一件比较重要的工作,如果环境温度太低而冷媒管线的保温状况又不好的话,对空调系统的正常运转有一定的影响。
3)检查风扇的运行状况:主要检查风扇的轴承、底座、电机等的工作情况,在风扇运行时是否有异常震动机风扇的扇也在转动时是否在同一个平面上。
4)检查冷凝器下面是否有杂物影响风道的畅通,从而影响冷凝器的冷凝效果;检查冷凝器的翅片有无破损的状况。
5)检查冷凝器工作时的电流是否正常,从工作电流也能够进一步判断风扇的工作情况是否正常。
6)检查调速开关是否正常,一般的空调的冷凝器都有两个调速开关,分为温度和压力调速,现在比较新的控制技术采用双压力调速控制,因此我们在检查调速开关时主要是看在规定的压力范围内,调速开关能否正常控制风扇的启动和停止。
2.1.4蒸发器、膨胀阀的巡回检查及维护
蒸发器、膨胀阀的维护主要是检查蒸发器盘管是否清洁,是否有结霜的现象出现,以及蒸发器排水托盘排水是否畅通,如蒸发器盘管上有比较严重的结霜现象或在压缩机运转时盘管上的温度较高的话(通常状况下,蒸发器盘管的温度应该比环境温度低10℃左右),就应当检查压缩机的高、低压,如果压力正常的话,就应考虑膨胀阀的开启量是否合适。当然出现这种现象也有可能是其它环境的原因引起的,比如空调的制冷量不够、风机故障引起风速过慢等原因造成的。
2.1.5加湿系统的巡检及维护
1)由于各个地方的空气环境不同,对加湿器的使用和影响也不一样,但我们在日常的维护工作中同样要做的事情是观察加上罐内是否有沉淀物质,如有就要及时冲洗,因为现在空调的加湿罐一般都是电极式的,如沉淀物过多而又不及时冲洗的话,就容易在电极上结垢从而影响加湿罐的使用寿命。当然现在有些加湿罐的电极是可以更换的。
2)检查上水和排水电磁阀的工作情况是否正常。在加湿系统工作的过程中,有一种情况经常出现,但又不容易判断,即在空调系统正常工作的时候,由于某种原因出现了一段时间的停水,后又恢复供水,在恢复供水后加湿罐不能够正常上水,出现这种现象的原因有多种,并且在大多数空调器的控制系统中直接对加湿系统复位通常是不能够解决问题的;根据我们多年来的维护来看,引起这种现象的主要原因是停水后的空气进到进水电磁阀前端,对进水电磁阀的正常开启造成了一定的影响,解决这种现象有两种比较有用的办法,一是卸开进水口,排掉空气,二是关掉加湿系统的电源,重新给电磁阀上电也基本上能够解决这类问题。
3)检查加湿罐排水管道是否畅通,以便在需要排水和对加湿罐进行维修时顺利进行。
4)检查蒸汽管道是否畅通,保证加湿系统的水蒸汽能够正常为计算机设备加湿。
5)检查漏水探测器是否正常,这对加湿系统来说是比较重要的一环,因为排水管道如果不畅通的话就容易形成出现漏水的情况,如漏水探测器不正常的话,就易出现事故。当然,对一般的空调系统而言,漏水探测器是选件,如空调系统未配有漏水探测器,那么我们更要注意监测排水管道是否畅通,同时也要做好机房防水墙的维护工作。
2.1.6空气循环系统的巡回检查及维护
对空气循环系统我们主要是考虑空调系统的过滤器、风机、隔风栅及到计算机设备的风道等因素。因此我们在日常维护工作中要做好以下的一些工作:
1)计算机机房的设备经常有设备移动的现象,而设备的移动一般又不是由空调设备的维护人员去完成,因此我们在设备移动后应及时检查机房内的气流状况,看是否有气流短路的现象发生,同时在新设备的位置是否存在送风阻力过大的情况。如有上述现象应及时调整,如果实在调整不过来,应建议设备移到新的合适的位置。
2)检查空调过滤器是否干净,如脏了就应及时更换或清洗。
3)检查风机的运行状况:主要是检查风机各部件的紧固情况及平衡,检查轴承、皮带、共振等情况;对风机的检查应该特别仔细,因为蒸发器的热交换过程主要是由在风机的作用下使快速流动的气流经过低温的蒸发器盘管来完成的,从而使空调达到制冷的效果,所以风机的是否正常运行是空调系统是否正常运行的最后体现;对风机而言当然最重要的就是电机了,因此我们在日常维护中首先就应查看其皮带的状况、主从动轮是否在同一面上等;皮带调整的松紧程度要合适,太松容易打滑,太紧对皮带的磨损太快,皮带的松紧跟外部对静压得需求也有比较大的关系,当然这种调整是在空调系统控制的范围之内进行的;现在部分比较先进的空调系统采用了一体化的风机,就解决了皮带调整的问题。
4)测量电机运转电流,看是否在规定的范围内,根据测得的参数也能够判断电机是否是正常运转。
5)测量温、湿度值,与面板上显示得值进行比较,如有较大的误差,应进行温度、湿度的校正,如误差过大应分析原因。出现这种情况从我们的维和经验来看有两种原因:一是控制板出现故障,二是温度、湿度探头出现故障需要更换。
6)检查隔风栅的关闭情况是针对已经停机的空调而言的,这也是我们在日常维护工作中比较容易遗漏的一个环节,但也是一个比较重要的环节,因为一台空调停止运行,如果隔风栅未关闭其温度、湿度探头检测到的是其它空调的出口的温度和湿度,在空调下一次开启时控制系统就会根据其先前检测到的参数而对空调系统的运行情况做出控制,这时空调控制系统就会对压缩机、加湿、除湿系统地运行情况做出错误的指令。现在大多数空调设计时都没有考虑这种状况对空调系统的影响,因为这种影响的时间较短,在较短的时间内系统会根据新的信息达到正常的运行状况,所以没有设计隔风栅,这种影响虽然较小,但我们认为在要求很高的计算机机房中我们最好不要让系统出现一段时间的错误运行,因此我们可以为空调系统人为地增加隔风栅。
7)检查计算机及其它需要制冷的设备进风侧的风压是否正常,因为随着计算机设备的搬迁和增加,地板下面的线缆的增加有可能就影响空调系统的风压,从而造成计算机及其它设备跟前的静压不够,这就需要我们设备维护和管理人员对空调系统的风道做出相应的调整或增加空调设备。 2.2 UPS及电池维护 2.2.1测试及记录主机运行参数。
2.2 机房配电设备维护
2.2.1 UPS维护
(1)UPS电源在正常使用情况下,主机的维护工作很少,主要是防尘和定期除尘。特别是气候干燥的地区,空气中的灰粒较多,机内的风机会将灰尘带入机内沉积、当遇空气潮湿时会引起主机控制紊乱造成主机工作失常,并发生不准确告警,大量灰尘也会造成器件散热不好。一般每季度应彻底清洁一次。其次就是在除尘时,检查各连接件和插接件有无松动和接触不牢的情况。
(2)虽说储能电池组目前都采用了免维护电池,但这只是免除了以往的测比、配比、定时添加蒸馏水的工作。但外因工作状态对电池的影响并没有 改变,不正常工作状态对电池造成的影响没有 变,这部分的维护检修工作仍是非常重要的,UPS电源系统的大量维修检修工作主要在电池部分。
1)储能电池的工作全部是在浮充状态,在这种情况下至少应每年进行一次放电。放电前应先对电池组进行均衡充电,以达全组电池的均衡。要清楚放电前电池组已存在的落后电池。放电过程中如有一只达到放电终止电压时,应停止放电,继续放电先消除落后电池后再放。
2)核对性放电,不是首先追求放出容量的百分之多少,而是要关注发现和处理落后电池,经对落后电池处理后再作核对性放电实验。这样可防止事故,以免放电中落后电池恶化为反极电池。
3)平时每组电池至少应有8只电池作标示电池,作为了解全电池组工作情况的参考, 对标示电池应定期测量并做好记录。
4)日常维护中需经常检查的项目有:清洁并检测电池两端电压、温度;连接处有无松动,腐蚀现象、检测连接条压降;电池外观是否完好,有无壳变形和渗漏;极柱、安全阀周围是否有酸雾逸出;主机设备是否正常。
5)免维护电池要维护,不是什么无稽之谈,应从广义的维护立场出发,做到运行、日常管理的周到、细致和规范性,保证设备(包括主机设备)保持良好的运行状况,从而延长使用年限;保证直流母线经常保持合格的电压和电池的放电容量;保证电池运行和人员的安全可靠。这就是电池维护的目的,也是电池运行规程中包括的内容和进行规则。
(3)当UPS电池系统出现故障时,应先查明原因,分清是负载还是UPS电源系统;是主机还是电池组。虽说UPS主机有故障自检功能,但它对面而不对点,对更换配件很方便,但要维修故障点,仍需做大量的分析、检测工作。另外如自检部分发生故障,显示的故障内容则可能有误。
(4)对主机出现击穿,断保险或烧毁器件的故障,一定要查明原因并排除故障后才能重新启动,否则会接连发生相同的故障。
(5)当电池组中发现电压反极、压降大、压差大和酸雾泄漏现象的电池时,应及时采用相应的方法恢复和修复,对不能恢复和修复的要更换,但不能把不同容量、不同性能、不同厂家的电池联在一起,否则可能会对整组电池带来不利影响。对寿命已过期的电池组要及时更换,以免影响到主机。
(6)再好的设备也有寿命,也会出现各类故障,但维护工作做的好可以延长寿命,减少故障的发生,这和人的寿命长短、生老病死是一样的道理。不要因为高智能、免维护而忽略了本应进行的维护工作,预防在任何时候都是安全运行的重要保障。通信用阀控式密封铅蓄电池组中各单电池的开路电压之差不大于20mV;在通信用阀控式密封铅蓄电池的使用维护规定中,要求各单电池的浮充电压之差应当在平均电压的±50mV之内,即允许浮充电压的最高值与最低值相差不大于100mV。前一要求通常是可以满足的,后一要求在电池寿命中后期是比较难达到的。一般正常使用的UPS,其电池寿命在5年左右,但目前国内有相当部分UPS电池在投入使用不到1年就开始出现问题,值得注意的是许多使用单位由于缺乏必要的测试维护手段,根本不清楚自己系统UPS蓄电池的健康状况,为UPS系统正常工作留下隐患。
实践证明,用万用表测量UPS电池的浮充端电压是无法判定旧电池是否已经失效。所以一般要离线或在线测量电池的端电压,被测电池的端电压为12V左右(对12V电池而言),最低不能低于10.5V。不足10.5V的电池即为欠压或已经失效的电池。若这种电池在经过充电或激活充电后端电压仍达不到12V,即为失效电池。
2.2.2 根据实际情况进行电池核对性容量测试;
2.2.3 用专用仪器对后备用蓄电池组逐个测量,进行充放电维护及调整充电电流,确保电 池正常工作;
2.2.4 检查风机及风道情况并清洁,主机外观清洁、内部除尘;
2.2.5检查记录输出波形、谐波含量、零地电压等,
2.2.6清洁系统主设备及电池等,
2.2.7查清各参数是否正确或切合实际,能及时发现事故隐患
2.2.8 UPS各项功能测试,如检查逆变器、整流器等启停、电池管理功能,有条件进行UPS 同市电的切换试验。
2.2.9 检查主机、电池及相关配电引线及端子的接触情况是否可靠,并测量记录压降及温 升,有条件地进行相关紧固工作等。
2.2.10观察可能出现的元件老化或损坏现象、电容是否有膨胀或漏液迹象、磁性元件是 否过热或分层迹象
2.2.11 并机系统进行单机运行测试,热备份系统负荷切换测试等
2.3 低压配电柜维护
2.3.1低压配电柜带电清洗维护:
2.3.2检查电气盘柜的部分触点、接线柱等有氧化锈蚀;
2.3.3电气设备外壳用手触摸感觉温度异常高;
2.3.4检查有些电气设备的内部有无声音异常;
2.3.5清理绝缘子表面沉积了污秽物质等;
2.3.6接线柱加固,标签更换,
2.3.7测试输入输出频率;电流电压等
3.机房消防设备的维护
3.1检查火灾报警控制器的自检、消音、复位功能以及主备电源切换功能;
3.2检查报警探测器、手动报警按钮、火灾警报装置外观;
3.3气体灭火控制器工作状态;
3.4储瓶间环境、气体瓶组或储罐、选择阀、驱动装置等组件外观;
3.5应急灯和疏散指示标志工作状态。
3.6火灾报警探测器、手动报警按钮、报警控制器、联动控制设备的试验报警功能。
3.7气体灭火控制设备的试验模拟自动启动
4、机房供水水路、电路及照明线路的维护
4.1镇流器、灯管更换;灯盘校正,开关更换,
4.2线头氧化处理,标签巡查更换,漏保实验
4.3 检查机房进出水管接头是否有液漏现象
4.4水管阀门检查、加固及更换
5、机房基础维护
5.1吊顶表面清洁;板材松动、翘起修复,变形、损坏更换;龙骨调平等
5.2墙面污迹清理,裂缝修补
5.3玻璃清洗,不锈钢清洗,玻璃胶修整,地弹簧校正,拉手螺丝加固
5.4静电地板清洗清洁,地面除尘;缝隙调整;平整度调整;损坏更换
5.5接地电阻测试;主接地点除锈、土壤降阻、接头紧固;防雷器检测;接地线触点防氧化加固。
5.6线路测试;模块、光纤配线检查;标签检查;整理凌乱线缆;对甲方所发生的故障及时排除;编写更新文档、表格和对应表来显示其物理链路
5.7机柜除尘、清洁;机柜及网络设备整理,包括交换机、配线架和网线的重新整理、排序,并重新标上统一的编号
6、机房主机设备维护
6.1提供计算机专业知识咨询、操作;
6.2网络进行全面维护、升级硬件设备建立计算机信息卡,并以标签的形式粘贴在计算机主机上。信息卡内容包括:机器名、机器编号、使用人、机器配置、IP地址、备注等。
6.3安装杀毒软件、病毒防火墙,定期为计算机查杀毒和病毒库升级服务
7、机房运维管理体系建设:完善机房运维规范,优化机房运维体系;
结合中心机房业务工作及信息化建设实际,制定《机房主机设备维护制度》、《机房环境系统维护制度》、《电气设备操作手册》等用于完善机房运维,在已有的流程制度基础上,进一步细化完善,使之成为一整套高效、合理、适用的机房运维管理流程。
结合中心机房业务工作及信息化建设实际,制定《机房主机设备维护制度》、《机房环境系统维护制度》、《电气设备操作手册》等用于完善机房运维,在已有的流程制度基础上,进一步细化完善,使之成为一整套高效、合理、适用的机房运维管理流程
四、维护服务质量
1、提供专用电话技术咨询,如果电话技术支持不能解决问题,服务提供商将派出技术人员到现场协助解决,根据系统故障的程度提供不同的响应时间和故障排除时间:
故障程度
响应时间
故障排除时间(工作小时)
一般故障
≤1小时
≤6小时(市区内)
严重故障
≤30分钟
≤2小时(市区内)
系统紧急故障
立即
≤1小时
2、对本项目涉及的设备进行1年4次(即每季度一次)的定期检测、保养、可预防性的对设备进行检测,并且出具检修报告及时向用户方汇报设备运行状态,报告由用户方确认,双方存底备查。任何故障的维修响应时间为全天24小时。
3、设备或材料产生损坏时,服务商负责送设备至原厂进行维修或更换,当维修或更换设备所需要的时间超过3个工作日(计算机服务器、网络设备等须在1个工作日内),则必须提供档次不低于送修设备的备件。在维护期间,提供保修服务(保修服务包括维护、检测、设备免费维修和更换,提供的更换件不低于需要维修或现使用的产品档次),涉及到的相关维修路途、车费、手续等费用均包含在本投标费用中。维修工作要求10个工作日内处理完成,确实难以在短期内解决的,可以与用户方协商先行使用替代设备或材料,延长处理时间。
4、在用户因其它项目建设,提出协助请求时(如长时间停电、系统切换、调整网络结构、线路迁移等),服务提供商必须派专业技术人员到现场监控设备的运行情况,做好相关配合工作。
5、在服务期内,由运维服务商指定具有相关机房维保资质的服务人员实施定期检查设备状况,对机房出现的故障及时进行检查、提供处理方案,并解决,消除隐患。