CodeCharge TAIWAN

發表於 : **2012-08-29 17:14:53**

http://vlife.pixnet.net/blog/post/46550240

Q: 首先談這個問題的正確解法，一台 ESXi host 要停機維修，上面的 VMs 怎麼辦？有什麼辦法可以快速移轉 VM 到其它 ESXi host？

A: Maintenance Mode。

Description:
你必須先進入維護模式，vCenter Server 才知道你這台機器是要停機維修，進一步採取措施。這很重要，一旦 host 宣告要進入 Maintenance mode，代表了 DRS 必須馬上要有後續因應動作：將所有 VM 撤出這台機器。假設你啟用了 DRS，由於 vMotion 會自動化 (Fully automated 選項)，你並不需要擔心 Cluster 裡的 VM，因為他們會被自動分配到合適的 host 上去運行，此期間服務並不會中斷，也不需要自己手動一台一台 vMotion。對於 "預期性的計畫停機"，DRS 可以說是最好的因應之道。

但是在這個例子中，由於公司購買的版本是 Essential Plus，有 vMotion、HA 功能但沒有 DRS，怎麼辦？若是在 HA Cluster 讓 ESXi host 宣告 Maintenance Mode，代表的意義是什麼？請注意，HA 並不會觸發 vMotion，沒這回事，兩者功能目的並不相同，我們一般說的 "搬"、"飛" 的字眼，其實都是 vMotion，期間並不中斷服務，HA 用於防止 "非預期、非計畫性的故障停機" 帶來的問題 -- 當實體機器臨時掛了，哪裡來得及 vMotion？但許多 VMs 都 on 在這台機器上，總要有個脫困的方法。這也就是為什麼 HA 是採用接管、重新啟動 VM 在其它 ESXi host 的方式來解決，這絕對會產生 Downtime。

以這個例子來說，由於版本限制功能的問題，停機維修並沒有 DRS 可用，若不想中斷服務，必須手動或排程執行 vMotion。若是啟用 HA，關閉 host 的方法讓所有的 VM 重新啟動在另一 ESXi 是可行的，但記得這會造成虛擬機器關閉、重啟，有數分鐘停止服務的時間。(當然 VM 要能符合 vMotion 及 HA 的條件，在此就不多說）

你可能會想，幾分鐘的停機時間算不錯了，不會造成太大的影響。沒錯，我敢說在企業裡 95% 以上的服務是沒有急迫性，連幾分鐘都等待不了的。真正不允許有停機時間的應用不到 5%。問題是，老闆可不這麼想，他說我一秒幾十萬上下，電腦怎可停止服務？於是你被罵了一頓。ESXi 永不當機做不到，但 Guest OS 服務不停頓，卻是辨得到的，那就是再架構 FT / MSCS / APHA 保護關鍵性應用 (但是又要花費龐大支出，你可能又會被罵了一頓）

然後接著你會發現，即使你的 VM 都符合條件，也啟用了 HA，當一台 ESXi 發生故障，VM 卻無法重啟在另一 host 上，於是你灰頭土臉地被罵了第三次。IT 人很辛苦，我暸 (拍肩)，我來告訴你是怎麼一回事。通常發生這樣情形，可能原因是：

1. Configuration

你設定的 Heartbeating、VM monitoring、VM 啟動優先順序、Isolation Respone、有無啟用 Admission Control 等均會造成影響，牽扯範圍甚廣，有機會的話專文介紹之。

2. Admission Control

若是啟用了 HA Admission Control，則它就會嚴格把關，一旦其它 hosts 支撐不了那麼多 VM 啟動，VM 就被禁止開機。這也就是前面所提到的，在 HA Cluster 將 host 宣告爲 Maintenance Mode，代表的就是它的硬體資源不會被計算在內， Cluster 的整體資源減少了。以這個例子來看只有兩台實機，將一台停機維修等於當埸少了一半硬體資源，若是事先沒有規劃妥善，預留資源的話，Admission Control 爲了確保原 host 的 VM 運作正常，當然不答應所有的 VM 全部跑過來。若是關閉 Admission Control，則 VM 都能重新啟動在僅剩的 host 上，但你必須確定資源不會被拖垮，效能每個人都能接受。否則接下來，可能會被罵N次了 >"<

CodeCharge TAIWAN

ESXi host需下線維修，host上的VMs 怎辦?

ESXi host需下線維修，host上的VMs 怎辦?