666IDC高防服務(wù)器 全年24小時(shí)30秒售后回復(fù) 有問(wèn)題找我
概述:獨(dú)立經(jīng)營(yíng)福州,福州,福州,電信高防機(jī)房
高防服務(wù)器咨詢(xún)QQ:97533890 九七五三三八九零 TEL:19906907316
服務(wù)器“異常”的幾個(gè)可能性預(yù)警請(qǐng)重視!
提到服務(wù)器宕機(jī)檢測(cè),大家會(huì)想到,宕機(jī)
本信息已過(guò)期,發(fā)布者可在"已發(fā)商機(jī)"里點(diǎn)擊"重發(fā)"。
刷新時(shí)間:
2022-03-16 10:47:34 點(diǎn)擊12681次
分類(lèi):
銷(xiāo)售服務(wù)區(qū)域:
全國(guó)
收費(fèi):
- 1850
聯(lián)系電話(huà):
18759554972
獨(dú)立經(jīng)營(yíng)福州,福州,福州,電信高防機(jī)房
高防服務(wù)器咨詢(xún)QQ:97533890 九七五三三八九零 TEL:19906907316
服務(wù)器“異!钡膸讉(gè)可能性預(yù)警請(qǐng)重視!
提到服務(wù)器宕機(jī)檢測(cè),大家會(huì)想到,宕機(jī)能夠很快知道,這個(gè)有什么可做的?實(shí)際上,很多時(shí)候服務(wù)器宕機(jī),并不總是被及時(shí)感知。服務(wù)器宕機(jī),ping或者ssh這是最簡(jiǎn)單的做法,但真正的工程實(shí)踐,沒(méi)這么簡(jiǎn)單。
想要獲知服務(wù)器宕機(jī)怎么辦?可以通過(guò)服務(wù)器宕機(jī)實(shí)時(shí)檢測(cè):
1)發(fā)現(xiàn)宕機(jī)
2)提前告警。
3)告知宕機(jī)的詳細(xì)原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。
4)自動(dòng)報(bào)修生成工單。
我們知道,進(jìn)行全網(wǎng)物理機(jī)宕機(jī)準(zhǔn)確探測(cè)與實(shí)時(shí)發(fā)現(xiàn),可以給宕機(jī)分析提供第一現(xiàn)場(chǎng),獲取第一現(xiàn)場(chǎng)的日志。也可以盡早將宕機(jī)數(shù)據(jù)推送給業(yè)務(wù)或運(yùn)營(yíng)感知并處理,如自動(dòng)報(bào)修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降到最低。
更重要的是,準(zhǔn)確的宕機(jī)發(fā)現(xiàn)數(shù)據(jù)可以為宕機(jī)預(yù)測(cè)提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機(jī)預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運(yùn)營(yíng)部門(mén)進(jìn)行整體分析,提升處理效率。
那么,如何可以準(zhǔn)確發(fā)現(xiàn)宕機(jī),減少誤報(bào)呢?我們可以有以下操作,比如:
心跳源檢測(cè)異常
顧名思義,通過(guò)心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會(huì)有三類(lèi)消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長(zhǎng)連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報(bào)一次,但當(dāng)NC異常時(shí),長(zhǎng)連接感知后,立即上報(bào)異常,并修改路由表。所以心跳異常做到秒級(jí)感知。
update消息,在有心跳發(fā)生變化情況下都會(huì)有,心跳異常和心跳恢復(fù)正常時(shí)都會(huì)發(fā)起,是主要的心跳來(lái)源。
delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長(zhǎng)。
insert消息,在新增加機(jī)器, 或者重裝后重新上位的機(jī)器發(fā)起,該消息對(duì)宕機(jī)發(fā)現(xiàn)價(jià)值不大,配合uptime使用。
心跳源檢測(cè)任務(wù)邏輯,主要是監(jiān)聽(tīng)并緩存uptime消息,同時(shí)避免時(shí)間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。
異常排除
排除非物理機(jī)器,將系統(tǒng)中暫時(shí)不關(guān)注的VM等產(chǎn)生的異常信息排除掉。
排除非業(yè)務(wù)狀態(tài)的機(jī)器,如裝機(jī)狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷(xiāo)毀中,重啟中,無(wú)管控狀態(tài),只監(jiān)控正常狀態(tài)的機(jī)器。
排除非正在工作的機(jī)器,如非working狀態(tài)機(jī)器。
網(wǎng)絡(luò)干擾排除
宕機(jī)分析中,較多誤報(bào)是由于網(wǎng)絡(luò)問(wèn)題干擾,無(wú)法準(zhǔn)確判斷出物理機(jī)是否宕機(jī),有可能是網(wǎng)絡(luò)問(wèn)題。
排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報(bào),包括機(jī)房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過(guò)探測(cè)丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問(wèn)題。
服務(wù)器本身未丟包的誤報(bào),除了需要過(guò)濾出網(wǎng)絡(luò)問(wèn)題,還要通過(guò)丟包數(shù)據(jù)分析,過(guò)濾掉SA誤報(bào)問(wèn)題, SA異常會(huì)上報(bào)心跳異常,被誤理解為宕機(jī)。
icmp及tcp丟包分析,icmp采集頻率為固定數(shù)秒,tcp采集頻率固定數(shù)秒,包括多個(gè)不同大小包(16,32,64,128,256等)的丟包情況,根據(jù)分析時(shí)間窗內(nèi)兩項(xiàng)數(shù)據(jù)的丟包情況
特殊情況干擾排除
個(gè)別機(jī)房有時(shí)候會(huì)出現(xiàn)大面積風(fēng)暴式的無(wú)故心跳異常,同時(shí)網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報(bào),一般根據(jù)具體case具體進(jìn)行針對(duì)性的分析。如根據(jù)監(jiān)控每個(gè)機(jī)房的上報(bào)頻率,排除干擾。
進(jìn)一步識(shí)別誤報(bào)
至此,大部分干擾已經(jīng)過(guò)濾掉,但仍有一部分誤報(bào)隱藏其中。比如心跳異常,ping異常,都合乎宕機(jī)判斷的邏輯,會(huì)導(dǎo)致誤判成宕機(jī),如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認(rèn)為不是異常,需要排除掉。再例如服務(wù)器并沒(méi)有掛掉,但是IO延時(shí)和資源占用率各項(xiàng)指標(biāo)都不正常等場(chǎng)景。針對(duì)以上等情況,增加uptime判斷以及帶外日志分析排查。
宕機(jī)時(shí)間點(diǎn)探測(cè)uptime確定是否發(fā)生重啟。
進(jìn)一步通過(guò)分析日志是否連續(xù),判斷是否發(fā)生重啟。
日志重啟特征值匹配,確認(rèn)是否發(fā)生重啟。
如果還不能確定,使用uptime的時(shí)間窗技術(shù)進(jìn)行重啟。
仍不能確定的待處理,進(jìn)入長(zhǎng)尾處理名單。
長(zhǎng)尾再次處理
未確認(rèn)的待處理的,會(huì)加入到長(zhǎng)尾列表中,像這種分鐘級(jí)的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機(jī),死到連網(wǎng)絡(luò)都不通的場(chǎng)景。會(huì)觀(guān)察一段時(shí)間,一個(gè)固定時(shí)間窗內(nèi)仍未恢復(fù)或重啟的話(huà),就暫時(shí)報(bào)宕機(jī)。后期會(huì)把這種死機(jī)單獨(dú)找劃分歸類(lèi)。
[本信息來(lái)自于今日推薦網(wǎng)]
高防服務(wù)器咨詢(xún)QQ:97533890 九七五三三八九零 TEL:19906907316
服務(wù)器“異!钡膸讉(gè)可能性預(yù)警請(qǐng)重視!
提到服務(wù)器宕機(jī)檢測(cè),大家會(huì)想到,宕機(jī)能夠很快知道,這個(gè)有什么可做的?實(shí)際上,很多時(shí)候服務(wù)器宕機(jī),并不總是被及時(shí)感知。服務(wù)器宕機(jī),ping或者ssh這是最簡(jiǎn)單的做法,但真正的工程實(shí)踐,沒(méi)這么簡(jiǎn)單。
想要獲知服務(wù)器宕機(jī)怎么辦?可以通過(guò)服務(wù)器宕機(jī)實(shí)時(shí)檢測(cè):
1)發(fā)現(xiàn)宕機(jī)
2)提前告警。
3)告知宕機(jī)的詳細(xì)原因,如硬件故障,內(nèi)核bug,網(wǎng)絡(luò)異常等等。
4)自動(dòng)報(bào)修生成工單。
我們知道,進(jìn)行全網(wǎng)物理機(jī)宕機(jī)準(zhǔn)確探測(cè)與實(shí)時(shí)發(fā)現(xiàn),可以給宕機(jī)分析提供第一現(xiàn)場(chǎng),獲取第一現(xiàn)場(chǎng)的日志。也可以盡早將宕機(jī)數(shù)據(jù)推送給業(yè)務(wù)或運(yùn)營(yíng)感知并處理,如自動(dòng)報(bào)修,業(yè)務(wù)遷移等,從而盡可能將業(yè)務(wù)影響降到最低。
更重要的是,準(zhǔn)確的宕機(jī)發(fā)現(xiàn)數(shù)據(jù)可以為宕機(jī)預(yù)測(cè)提供準(zhǔn)確的標(biāo)注數(shù)據(jù),為后期宕機(jī)預(yù)測(cè)提供數(shù)據(jù)基礎(chǔ),并且這些數(shù)據(jù)提供給運(yùn)營(yíng)部門(mén)進(jìn)行整體分析,提升處理效率。
那么,如何可以準(zhǔn)確發(fā)現(xiàn)宕機(jī),減少誤報(bào)呢?我們可以有以下操作,比如:
心跳源檢測(cè)異常
顧名思義,通過(guò)心跳源,初步發(fā)現(xiàn)異常。通常心跳變化會(huì)有三類(lèi)消息,update消息,delete消息和insert消息。心跳邏輯在于,正常情況下SA服務(wù)端與NC建立長(zhǎng)連接,每數(shù)秒緩存一次心跳,每幾分鐘打包上報(bào)一次,但當(dāng)NC異常時(shí),長(zhǎng)連接感知后,立即上報(bào)異常,并修改路由表。所以心跳異常做到秒級(jí)感知。
update消息,在有心跳發(fā)生變化情況下都會(huì)有,心跳異常和心跳恢復(fù)正常時(shí)都會(huì)發(fā)起,是主要的心跳來(lái)源。
delete消息,在心跳異常,并且SA判斷ping不通,且ssh不通情況下發(fā)起,刪除該條消息,避免延遲太長(zhǎng)。
insert消息,在新增加機(jī)器, 或者重裝后重新上位的機(jī)器發(fā)起,該消息對(duì)宕機(jī)發(fā)現(xiàn)價(jià)值不大,配合uptime使用。
心跳源檢測(cè)任務(wù)邏輯,主要是監(jiān)聽(tīng)并緩存uptime消息,同時(shí)避免時(shí)間窗內(nèi)多次消息沖突,導(dǎo)致信息被覆蓋。
異常排除
排除非物理機(jī)器,將系統(tǒng)中暫時(shí)不關(guān)注的VM等產(chǎn)生的異常信息排除掉。
排除非業(yè)務(wù)狀態(tài)的機(jī)器,如裝機(jī)狀態(tài)中的,包括生產(chǎn)中,維修中,遷移中,重裝中,銷(xiāo)毀中,重啟中,無(wú)管控狀態(tài),只監(jiān)控正常狀態(tài)的機(jī)器。
排除非正在工作的機(jī)器,如非working狀態(tài)機(jī)器。
網(wǎng)絡(luò)干擾排除
宕機(jī)分析中,較多誤報(bào)是由于網(wǎng)絡(luò)問(wèn)題干擾,無(wú)法準(zhǔn)確判斷出物理機(jī)是否宕機(jī),有可能是網(wǎng)絡(luò)問(wèn)題。
排除上聯(lián)網(wǎng)絡(luò)設(shè)備異常導(dǎo)致的誤報(bào),包括機(jī)房斷網(wǎng)演練,小面積網(wǎng)絡(luò)故障,上聯(lián)網(wǎng)絡(luò)故障,如通過(guò)探測(cè)丟包情況,使用一些邏輯初步判斷網(wǎng)絡(luò)問(wèn)題。
服務(wù)器本身未丟包的誤報(bào),除了需要過(guò)濾出網(wǎng)絡(luò)問(wèn)題,還要通過(guò)丟包數(shù)據(jù)分析,過(guò)濾掉SA誤報(bào)問(wèn)題, SA異常會(huì)上報(bào)心跳異常,被誤理解為宕機(jī)。
icmp及tcp丟包分析,icmp采集頻率為固定數(shù)秒,tcp采集頻率固定數(shù)秒,包括多個(gè)不同大小包(16,32,64,128,256等)的丟包情況,根據(jù)分析時(shí)間窗內(nèi)兩項(xiàng)數(shù)據(jù)的丟包情況
特殊情況干擾排除
個(gè)別機(jī)房有時(shí)候會(huì)出現(xiàn)大面積風(fēng)暴式的無(wú)故心跳異常,同時(shí)網(wǎng)絡(luò)ping包異常,但上聯(lián)網(wǎng)絡(luò)設(shè)備ping包正常,這種誤報(bào),一般根據(jù)具體case具體進(jìn)行針對(duì)性的分析。如根據(jù)監(jiān)控每個(gè)機(jī)房的上報(bào)頻率,排除干擾。
進(jìn)一步識(shí)別誤報(bào)
至此,大部分干擾已經(jīng)過(guò)濾掉,但仍有一部分誤報(bào)隱藏其中。比如心跳異常,ping異常,都合乎宕機(jī)判斷的邏輯,會(huì)導(dǎo)致誤判成宕機(jī),如導(dǎo)致網(wǎng)卡被打爆,或者重試率高,這種是業(yè)務(wù)原因?qū)е戮W(wǎng)絡(luò)異常,但業(yè)務(wù)認(rèn)為不是異常,需要排除掉。再例如服務(wù)器并沒(méi)有掛掉,但是IO延時(shí)和資源占用率各項(xiàng)指標(biāo)都不正常等場(chǎng)景。針對(duì)以上等情況,增加uptime判斷以及帶外日志分析排查。
宕機(jī)時(shí)間點(diǎn)探測(cè)uptime確定是否發(fā)生重啟。
進(jìn)一步通過(guò)分析日志是否連續(xù),判斷是否發(fā)生重啟。
日志重啟特征值匹配,確認(rèn)是否發(fā)生重啟。
如果還不能確定,使用uptime的時(shí)間窗技術(shù)進(jìn)行重啟。
仍不能確定的待處理,進(jìn)入長(zhǎng)尾處理名單。
長(zhǎng)尾再次處理
未確認(rèn)的待處理的,會(huì)加入到長(zhǎng)尾列表中,像這種分鐘級(jí)的心跳異常,ping異常,但串口日志一直正常輸出的情況,一般就是某種死機(jī),死到連網(wǎng)絡(luò)都不通的場(chǎng)景。會(huì)觀(guān)察一段時(shí)間,一個(gè)固定時(shí)間窗內(nèi)仍未恢復(fù)或重啟的話(huà),就暫時(shí)報(bào)宕機(jī)。后期會(huì)把這種死機(jī)單獨(dú)找劃分歸類(lèi)。

- w666idc發(fā)布的信息
- 福州機(jī)房服務(wù)器托管 大帶寬接入扛大流量攻擊 彈性防御上限高
- 服務(wù)器 云主機(jī) 虛擬服務(wù)...
- 福州高防服務(wù)器制定專(zhuān)用防護(hù)策略有效死扛CC攻擊
- 666IDC一手運(yùn)營(yíng)→福州福州福州高防← 視頻/直播百兆獨(dú)享/BC/游戲掛站 QP游戲/本地QP/房卡QP/金幣類(lèi)QP游戲/電玩QP游戲 ====================== 咨詢(xún)QQ:97533890 ====================== 福州高防服務(wù)...
- 福州高防服務(wù)器死扛800G大流量攻擊!
- 五星級(jí)機(jī)房 機(jī)房帶寬1200G直連CHINANET骨干網(wǎng) T級(jí) NP萬(wàn)M防火墻集群設(shè)備+黑洞牽引防火墻,確保機(jī)房網(wǎng)絡(luò)安全。 雙路供電,市電雙路供電;UPS;柴油發(fā)電機(jī)組,實(shí)現(xiàn)無(wú)縫隙、不間斷電力供應(yīng)。 7*24*365全年...
- 網(wǎng)絡(luò)游戲首選網(wǎng)絡(luò)穩(wěn)定的高防服務(wù)器
- 扣扣:97533890 福建省電信骨干節(jié)點(diǎn)信五星級(jí)機(jī)房,冗余帶寬充足,易于擴(kuò)展,可隨時(shí)提供千兆以?xún)?nèi)各級(jí)別帶寬升級(jí); 機(jī)房引入的電信和網(wǎng)通網(wǎng)絡(luò)均為省級(jí)骨干節(jié)點(diǎn)網(wǎng)絡(luò),到國(guó)內(nèi)各個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)互通性非常好,最...
網(wǎng)絡(luò)服務(wù)重發(fā)信息
- 天津網(wǎng)絡(luò)服務(wù)器回收;天津電腦線(xiàn)路板回收;龍騰科技高價(jià)回收
- 閔行區(qū)收購(gòu)報(bào)廢服務(wù)器板卡回收積壓電子元器件公司
- 吳江帕金斯發(fā)電機(jī)回收網(wǎng)絡(luò)服務(wù)平臺(tái)(吳江發(fā)電機(jī)組回收價(jià)格)
- 福樂(lè)偉臥螺整機(jī)離心機(jī)維修保養(yǎng)
- HDDL-1S多次脈沖電纜故障測(cè)試儀價(jià)格 武漢華頂電力
- 北京UPS電源回收高價(jià)回收蓄電池二手服務(wù)器回收
- 張北縣安裝監(jiān)控修監(jiān)控維修電腦裝軟件安裝攝像頭上門(mén)服務(wù)
- 東碩機(jī)械GF20型數(shù)控鋼筋彎箍機(jī) 雙腳踏鋼筋彎箍成型機(jī)