服務(wù)器集群的故障檢測(二)
- 作者:新網(wǎng)
- 來源:新網(wǎng)
- 瀏覽:100
- 2018-02-24 17:16:47
在集群節(jié)點(diǎn)之間的通信,允許集群服務(wù)器監(jiān)測節(jié)點(diǎn)故障和狀態(tài)改變,并且將集群作為一個實體進(jìn)行管理,通過心跳通信,每個節(jié)點(diǎn)都可以檢查其他節(jié)點(diǎn),以及他們的應(yīng)用程序可用性。
在集群節(jié)點(diǎn)之間的通信,允許集群服務(wù)器監(jiān)測節(jié)點(diǎn)故障和狀態(tài)改變,并且將集群作為一個實體進(jìn)行管理,通過心跳通信,每個節(jié)點(diǎn)都可以檢查其他節(jié)點(diǎn),以及他們的應(yīng)用程序可用性。
<
div>做出響應(yīng),則正常工作的服務(wù)器會啟動故障轉(zhuǎn)移過穩(wěn)(包括對故障服務(wù)器擁有的資源和應(yīng)用程序的所有權(quán)進(jìn)行仲裁)。仲裁是使用質(zhì)詢和辯護(hù)協(xié)議來執(zhí)行的。換而言之,如果某個節(jié)點(diǎn)似乎發(fā)生了故障,則會在給定的時間內(nèi)允許它以幾種方式中的任何一種表明它仍處于正常運(yùn)行當(dāng)中,并且可以向其他正常的節(jié)點(diǎn)通信。如果它無法證明自己正在正常運(yùn)行,則此時會將它移出集群。
多種事件都可能導(dǎo)致節(jié)點(diǎn)無法響應(yīng)心跳消息,如計算機(jī)故障、網(wǎng)絡(luò)接口故障、網(wǎng)絡(luò)放障,甚于在可能是由于少有的高峰活動期。通常來說,當(dāng)所有節(jié)點(diǎn)進(jìn)行通信時,配置
數(shù)據(jù)庫管理器會向每個節(jié)點(diǎn)發(fā)送全局性的配置數(shù)據(jù)庫更新。當(dāng)心跳通信失敗時,日志管理錦還會將配置數(shù)據(jù)庫的變更保存到仲裁資源中。這保證了幸存的節(jié)點(diǎn)可以在恢復(fù)過程中訪問最新的集群配置和本地節(jié)點(diǎn)的注冊表數(shù)據(jù)。
要注意的是,故障檢測算法相當(dāng)保守。換句話說,它會盡量多地給那些明顯發(fā)生故障的節(jié)點(diǎn)以質(zhì)詢的機(jī)會,然后才會進(jìn)入故障轉(zhuǎn)移過程。如果導(dǎo)致心跳響應(yīng)失敗的原因是暫時的,避免故障轉(zhuǎn)移所可能造成的潛在影響當(dāng)然是再好不過了。但是,由于無法知道這樣的節(jié)點(diǎn)還將沉默多長時間,故該節(jié)點(diǎn)可能遭受長時期的故障影響。因此,在經(jīng)過一個合理的時間段后就應(yīng)該啟動故障轉(zhuǎn)移過程。
以上就是小編總結(jié)的相關(guān)知識點(diǎn),希望這篇文章可以幫助大家。