完善的機(jī)房監(jiān)控體系應(yīng)該具備三大特點(diǎn):可以完成從設(shè)備運(yùn)轉(zhuǎn)狀況到機(jī)柜微環(huán)境再到機(jī)房全體環(huán)境這樣多層次的監(jiān)控;可以有豐富的閾值設(shè)置以監(jiān)測出危機(jī)的存在,并能有豐富的預(yù)警方法和預(yù)警流程保證相關(guān)人員可以收到警訊,達(dá)到預(yù)警的目的;具備網(wǎng)絡(luò)化、智能化,可以隨時隨地經(jīng)過網(wǎng)絡(luò)查看機(jī)房內(nèi)的狀況。
然而,傳統(tǒng)機(jī)房環(huán)境監(jiān)控是把重點(diǎn)放在對機(jī)房全體環(huán)境、空調(diào)及配電柜的監(jiān)控上,而忽視了對設(shè)備內(nèi)部的監(jiān)控。另外,傳統(tǒng)機(jī)房環(huán)境監(jiān)控體系也缺少豐富的閾值、預(yù)警方法和預(yù)警流程設(shè)置,不能在真正意義上完成預(yù)警功用。
機(jī)房監(jiān)控的三大特點(diǎn)
為了改變傳統(tǒng)機(jī)房環(huán)境監(jiān)控的現(xiàn)狀,需求引入三大新理念加以改進(jìn)。
對設(shè)備內(nèi)部進(jìn)行監(jiān)控
機(jī)房監(jiān)控的目的在于保護(hù)機(jī)房內(nèi)IT體系的正常、有用運(yùn)轉(zhuǎn),在事故產(chǎn)生之前偵測出潛在危機(jī),并經(jīng)過各種方法將警情信息發(fā)送給相關(guān)人員及時進(jìn)行處理。因此,機(jī)房監(jiān)控的核心應(yīng)該是對IT體系運(yùn)轉(zhuǎn)狀態(tài)的監(jiān)控,而最直接有用的監(jiān)控應(yīng)該是直接對IT設(shè)備運(yùn)轉(zhuǎn)狀態(tài)進(jìn)行監(jiān)控。
IT設(shè)備內(nèi)部的運(yùn)轉(zhuǎn)環(huán)境,例如服務(wù)器內(nèi)風(fēng)扇轉(zhuǎn)速與CPU溫度等是最直接、最迅速影響IT設(shè)備正常運(yùn)轉(zhuǎn)的要素。有時候即便機(jī)房內(nèi)空調(diào)運(yùn)轉(zhuǎn)正常,機(jī)房全體環(huán)境參數(shù)值也在預(yù)設(shè)范圍內(nèi),但某服務(wù)器卻因?yàn)槟撤N原因出現(xiàn)服務(wù)器內(nèi)風(fēng)扇的轉(zhuǎn)速不正常、CPU過熱。如果只監(jiān)控機(jī)房全體環(huán)境,此時機(jī)房的管理人員是不會得到這種危險信息的,整個體系就會因?yàn)樵摲?wù)器潛在危機(jī)沒有得到及時處理而意外癱瘓。
多層次的機(jī)房監(jiān)控
完善的機(jī)房監(jiān)控體系應(yīng)該是可以完成對從設(shè)備運(yùn)轉(zhuǎn)狀況到機(jī)柜微環(huán)境再到機(jī)房全體環(huán)境這樣多層次的監(jiān)控,并能重點(diǎn)完成對設(shè)備內(nèi)部的監(jiān)控。
咱們都知道,機(jī)柜內(nèi)的微環(huán)境是設(shè)備正常運(yùn)轉(zhuǎn)所需求的物理環(huán)境。機(jī)柜微環(huán)境參數(shù)最能表現(xiàn)設(shè)備所在的實(shí)踐運(yùn)轉(zhuǎn)物理環(huán)境的狀況,所以完成對機(jī)柜內(nèi)微環(huán)境的監(jiān)控也相當(dāng)重要。機(jī)房各個點(diǎn)的環(huán)境參數(shù)值是不同的,因此機(jī)房內(nèi)全體環(huán)境監(jiān)測的參數(shù)不能表現(xiàn)各機(jī)柜微環(huán)境參數(shù),更不能表現(xiàn)重要設(shè)備內(nèi)部的環(huán)境。也就是說,即便機(jī)房全體環(huán)境參數(shù)正常,IT設(shè)備所在處的環(huán)境也不一定正常。所以說機(jī)房的全體環(huán)境監(jiān)控的重要性次于對設(shè)備的監(jiān)控和對機(jī)柜內(nèi)微環(huán)境的監(jiān)控。
空調(diào)機(jī)的運(yùn)轉(zhuǎn)是為了降低機(jī)房內(nèi)的溫度,使機(jī)房內(nèi)的全體溫濕度保持在一個合適的范圍內(nèi),機(jī)房各個點(diǎn)的溫度參數(shù)值是不同的??照{(diào)機(jī)出風(fēng)口的溫度值不能說明機(jī)房的全體溫度和機(jī)柜微環(huán)境溫度,空調(diào)的正常運(yùn)轉(zhuǎn)不能說明設(shè)備就能正常運(yùn)轉(zhuǎn)。因此對空調(diào)的監(jiān)控不能代表甚至替代對設(shè)備的監(jiān)控。
漏水監(jiān)測體系是為了監(jiān)測機(jī)房內(nèi)是否有漏水,以避免因漏水影響設(shè)備的正常運(yùn)轉(zhuǎn)。線式探測器是成線型布置在機(jī)房或許漏水的最低處,而實(shí)踐上點(diǎn)式漏水探測器相同可以反映機(jī)房的漏水狀況且比線式探測器經(jīng)濟(jì)實(shí)惠、安裝方便、維護(hù)簡單。
機(jī)房內(nèi)設(shè)備由于非常重要,一般都是采用UPS供電,而且UPS是雙供電,只要對UPS進(jìn)行監(jiān)控就能確保設(shè)備正常供電而且能反映市電的狀況。因此,對電源的有用監(jiān)控是在不添加任何投資的狀況下經(jīng)過協(xié)議完成對UPS的監(jiān)控,經(jīng)過監(jiān)控其電壓、電流、電池使用狀況、市電狀況來確保設(shè)備的正常運(yùn)轉(zhuǎn)。
機(jī)房監(jiān)控的預(yù)警功用
報警(alarm)是報告事件的產(chǎn)生,是在毛病或危害產(chǎn)生之后向管理人員發(fā)送警訊,及時地發(fā)送警訊可以縮短毛病修復(fù)時間(MTTR),最大程度地保障體系運(yùn)轉(zhuǎn)。但毛病仍是不可避免地產(chǎn)生了,影響了體系的正常運(yùn)轉(zhuǎn)。
預(yù)警(alert)則是在毛病或危害產(chǎn)生之前向管理人員報告潛在危機(jī),提示相關(guān)人員進(jìn)行處理,是事前的,可以避免事故的產(chǎn)生。有用的預(yù)警可以添加體系平均無毛病工作時間(MTBF),并可以根據(jù)危機(jī)狀況自動延伸到報警。
預(yù)警與報警的區(qū)別就在于它是事前預(yù)防性報警,機(jī)房監(jiān)控體系只有具有杰出的預(yù)警功用才能偵測出潛在危機(jī)并分層次逐步擴(kuò)展警訊發(fā)送范圍,有用地避免事故的產(chǎn)生,將損失降低到最小。越來越多的機(jī)房管理人員也開始意識到預(yù)警的重要性,因此機(jī)房監(jiān)控體系必須有預(yù)警功用。
那么,機(jī)房監(jiān)控該怎么完成預(yù)警功用呢?首先,可以經(jīng)過靈敏的閾值設(shè)置多種偵測方法,確保能及時地發(fā)現(xiàn)潛在危機(jī);其次,經(jīng)過設(shè)置多種預(yù)警的方法,確保所有相關(guān)人員不管在何時何地都能收到警訊;再次,設(shè)置多個預(yù)警流程,確保不同的相關(guān)人員在不同時間接收到不同程度的警訊。
這樣,一旦有危機(jī)出現(xiàn),立刻將信息發(fā)送給相關(guān)人員直至危機(jī)得到有用處理,完成真正意義的預(yù)警功用,最大程度地保護(hù)體系的運(yùn)轉(zhuǎn)。
這種將網(wǎng)絡(luò)運(yùn)維和機(jī)房的配電電源監(jiān)控、環(huán)境監(jiān)控、和安全視頻監(jiān)控結(jié)合在一起監(jiān)控,基于TCP/IP及SNMP,就可以高度的集中管理,不僅可以將單個機(jī)房內(nèi)各種動力設(shè)備與環(huán)境設(shè)備的各種狀態(tài)信息、報警信息、控制命令與歷史數(shù)據(jù)等進(jìn)行完整的集中監(jiān)控,而且可以將分布在全國各地的多個機(jī)房完成跨區(qū)域的集中監(jiān)控。用戶只需登錄一套體系就完成對整個資源的管理,免去了登錄多套體系的麻煩。
為避免外人非法闖入實(shí)施破壞和盜竊行為,可根據(jù)機(jī)房現(xiàn)場環(huán)境合理配置門禁和紅外等探測器完成防盜報警。如果生后報警會將聯(lián)動打開輔助攝像燈光,攝像機(jī)會自動切換到相應(yīng)位置并開始錄像,同時經(jīng)過短信,郵件等多種產(chǎn)生向用戶發(fā)出報警。真正完成無人值守、集中化、自動化的機(jī)房維護(hù)管理。