服務(wù)器集群的故障檢測(三)
- 作者:新網(wǎng)
- 來源:新網(wǎng)
- 瀏覽:100
- 2018-02-24 17:17:38
如果資源在當(dāng)前主機(jī)節(jié)點上,是不可操作的,并且還不同重新啟動,則集群服務(wù)會認(rèn)為此資源發(fā)生了故障,而群集服務(wù)按照以下方式檢測資源的故障,廢話不多說一起看看吧!
如果資源在當(dāng)前主機(jī)節(jié)點上,是不可操作的,并且還不同重新啟動,則集群服務(wù)會認(rèn)為此資源發(fā)生了故障,而群集服務(wù)按照以下方式檢測資源的故障,廢話不多說一起看看吧!
<
div>(1)在周期性的時間間隔內(nèi),集群服務(wù)檢查資源以了解資源是否可操作。集群服務(wù)通過定期調(diào)用資源監(jiān)視器來完成此項任務(wù)。反過來,資源監(jiān)視器則依賴于每個資源的資源主動態(tài)鏈接庫( DLL)執(zhí)行一段過程以檢測資源是否正常工作。資源 DLL 通過資源監(jiān)視器將結(jié)果傳給集群服務(wù)。可以通過設(shè)置“Looks Alive”和“ls Alive ,輪詢間隔來指定集群服務(wù)檢資資源故障的頻率。集群服務(wù)在每個“ls Alive ”時間間隔內(nèi)請求對資源 的狀態(tài)進(jìn)行比“Looks Al ive" 間隔內(nèi)所傲的更徹底的檢查。“ls Alive”輪詢問隔通常比“Looks Alive”輪詢問隔長。
(2)如果資源 DLL 報告資源不可操作,那么集群服務(wù)會嘗試重新啟動資源??梢灾付悍?wù)在一給定時間間隅內(nèi)嘗試重新啟動資源的次數(shù)如果集群服務(wù)在指定的時間向陸內(nèi)所做的嘗試的數(shù)量超過了最大重新啟動嘗試次數(shù),但是資源仍不可操作,那么集群服務(wù)會認(rèn)為資源出了故障。
可以配置是否故障資源引起包含該資源的組故障轉(zhuǎn)移到其他節(jié)點。如果故障資源配肯為引起包含該資源的組故障轉(zhuǎn)移到其他節(jié)點,那么集群服務(wù)將嘗試故障轉(zhuǎn)移。如果故障轉(zhuǎn)移嘗試次數(shù)坦過組的闕值而資源仍然處在故障狀態(tài),則集群服務(wù)將嘗試資源的重新啟動。在資源的“故障重試周期”屬性(所有資源的一個一般屬性)指定的周期結(jié)束后,將做重新啟動嘗試。集群服務(wù)開始對資源嘗試重新啟動然后故障轉(zhuǎn)移。
雖然“故障重試周期”屬性的單位是ms,但按分鐘順序選擇值。還可以選擇比資源重新啟動周期屬性值大的或者相等的值并強(qiáng)制執(zhí)行這個規(guī)則。