有一些公司認為虛擬機已經(jīng)是昨兒黃花必須打倒,大家趕緊一切皆容器。軟件開發(fā)和運維活動中,可維護性、正確性、性能的優(yōu)先級是依次降低的,那么對于虛擬機 vs 容器,自然我們也需要從這三方面考察。
有一些公司認為虛擬機已經(jīng)是昨兒黃花必須打倒,大家趕緊一切皆容器。軟件開發(fā)和運維活動中,可維護性、正確性、性能的優(yōu)先級是依次降低的,那么對于虛擬機 vs 容器,自然我們也需要從這三方面考察。
虛擬機—維護性
從 hypervisor 講,Xen/KVM/vSphere/HyperV 都很成熟了,久經(jīng)考驗,BSD 也在湊熱鬧搞 bhyve(FreeBSD) 和 vmm(OpenBSD),最近 unikernel 也在試圖跑在 hypervisor 上,而 AWS/GCE/Azure 等等
云計算巨頭以及 Intel/AMD 等在CPU、磁盤和網(wǎng)絡IO虛擬化技術上的投資顯然不會立馬推翻,Linux 上虛擬機的開源管理方案也已成熟定型:libvirt, OpenStack,沒人吃飽了撐的去弄個 “新的開源” 項目替換它們,雖然我很不喜歡 OpenStack 的亂糟和復雜。VM 的動態(tài)遷移也是成熟技術,出來好多年了,實現(xiàn)原理非常簡單,反正整個 OS 內(nèi)存一鍋端弄過去,不操心少個依賴進程的內(nèi)存沒過去。想用不同版本內(nèi)核? 想要自定義內(nèi)核模塊?想調(diào)整內(nèi)核參數(shù)?期望更安全的隔離?期望如同物理機版幾乎一致的使用體驗?VM 就是虛擬機的縮寫嘛,這些都是拿手戲。
容器— 維護性
Linux 容器,Linux 一貫的作風,慢慢演化,不求仔細設計,然后就是 cgroup, pid/uts/ipc/net/uid namespace 一個個實現(xiàn)出來,湊出一個容器技術,貌似 uid namespace 還是最近剛剛出來的特性。用戶
空間則更是群雄并起,LXC,Docker,rkt,LXD,各有擁蹇,鹿死誰手,還真不好說,在這個局還沒明朗的時候,Mesos、Swarm、Kubernetes、Nomad 又出來一堆攪局的,眼下看來最吸引眼球的 Kubernetes 儼然有 OpenStack 繼任者的感覺,但依然很嫩,沒幾個人敢在生產(chǎn)環(huán)境大規(guī)模使用。
Linux容器里進程的跨機器動態(tài)遷移我還沒聽說,不要說是個服務就得有集群有 HA 嘛,可還真有不少用戶一個服務就單機頂著呢,就算有熱備或者冷備,在線那臺機器內(nèi)存里的東西可寶貴了,輕易不能丟。用Linux容器就不能挑內(nèi)核,不能加載內(nèi)核模塊,不能掛載文件系統(tǒng),不能調(diào)整內(nèi)核參數(shù),不能改網(wǎng)絡配置,等等,不要告訴我你能——你是不是開了 docker run –privileged 了? 你是不是沒 drop capability?你是不是沒有 remap uid?話說某大公司的容器還真就用 –privileged 選項跑的呢。 而 Linux 的隔離不徹底恐怕大部分人都沒意識到,/sys, /dev, /selinux 還有 /proc 下的某些關鍵文件比如 /proc/kcore 沒隔離呢。
Redhat 做的 project Atomic 意識到這些問題,正在積極的給 Docker 加 SELinux 支持,指定 SELinux policy,但 Docker 官方愛搭不理,而且 SELinux 這種高端技術是凡人玩的么? 結局大概依然是 “FAQ 1: 關掉 SELinux”。Linux 容器本來并不局限在一個容器里跑幾個進程,但 Docker 官方為了加強“輕量級”這詞的洗腦效果,搞出個無比腦殘的 single process 理念,被無數(shù)人捧臭腳,所幸有些人慢慢意識到問題,Yelp 搞了個 dumb-init 擦了一半屁股,還有無數(shù) docker image 用 runit、supervisor 之類的做 /sbin/init 替換,但問題在于這要自定義啟動腳本,需要加 ssh/cron/syslog/logrotate 等等邊角料——這已然是解決了無數(shù)遍的問題,還要解決一遍,不覺得麻煩嗎?難道沒有人認為這些包的作者或者打包者更善于處理服務啟動腳本么?像 systemd 那種搞法還算正道,特意考慮容器環(huán)境,跳過一些步驟,但貌似還沒做完善,需要手動刪除一些 .service 文件。
虛擬機 vs 容器
也許有人會說 docker pull/push 多方便啊,docker build 多方便啊,可不要忘了,vm image storage 早在 openstack 里就解決了,自己處理也不是個大事,vm image build 也有 Hashicorp 的 Packer 工具代勞,不是個事。Docker 自豪的官方 docker registry 其實大家最多用用 base os image,那些 app 級別的出于信任以及定制考慮都會自己 build。而 Docker 自豪的 layered storage 也是無數(shù)血淚,aufs overlayfs 坑了多少人?容器社區(qū)最近還特崇拜 immutable deployment,以把容器根文件系統(tǒng)弄做只讀的為榮,全然不管有緊急安全更新或者功能修正怎么處理——什么,你要說 docker rm docker run 再起一批不就完事么?真有這么簡單就好了。
像 Linux kernel 和 git 那種才是正經(jīng) unix 設計的思想,分層堆疊,底層提供mechanism,高層提供 policy,各取所需,可惜人總是易于被洗腦,在接受各種高大上policy的時候全然忘了mechanism還在不在自己手里。
回合二:正確性之爭
強隔離、full OS 體驗、保留 mechanism,這才是正道。另外容器還隱藏了一個坑,/proc/cpuinfo和free命令輸出是host os的,這坑了無數(shù)探測系統(tǒng)資源自動決定默認線程池和內(nèi)存池大小的程序,尤以Java最為普遍。
回合三:性能之爭
容器粉絲津津樂道——啟動容器快,容器的開銷少。 這兩點確實如此但好處真的有那么巨大么?誰有事沒事不停創(chuàng)建虛擬機?誰的虛擬機生命周期平均在分鐘級別?誰的“用完全啟動時間”平均在秒級? 至于說到虛擬機浪費的資源太多,其實也就是個障眼法。理論上服務器的資源利用率平均不應該超過 80%而實際上絕大部分公司的服務器資源利用率應該都不到 50%,大量的CPU、內(nèi)存、本地磁盤都是常年浪費的,所以 VM 的額外開銷不過是浪費了原本就在浪費的資源罷了。就單機的巔峰 I/O 能力來言,VM 確實不敵容器。但平時根本就用不到巔峰狀態(tài), 原本一個 VM 里多進程干的事,非得搞多個容器跑,這容器開銷,這人力開銷怎么算?
關于容器還有一個幻想,那就是可以在物理機上直接跑容器,開銷巨低、管理巨方便,用專用物理機方式提供多租戶強隔離。前面兩點上面已經(jīng)駁過了,話說還有人用 openstack 管理 docker 容器呢。 我只是說一下第三點,在一臺物理機上直接跑容器的一個最容易被忽視的問題:現(xiàn)在用來提供
云服務的物理機一般都是硬件超級牛逼,跑上百個容器都沒問題,但問題在于用戶很可能只需要幾個容器,所以要么跟人共用物理機,要么浪費資源白交錢。哪怕用戶需要上百個容器,出于容災考慮,也不可以把上百容器部署到一臺物理機上,所以還是要么跟人共用物理機,要么浪費資源。
方案
以上是我的觀點,我并不是“容器黑”,而是“實用白”。AWS、Azure、GCE 都主推在虛擬機上跑容器,按虛擬機收費,這非常明智的解決了問題:老的純 VM 基礎設施不用動,計費照舊,單物理機可以被安全的多租戶共用,資源隔離有保證(起碼比共享內(nèi)核強多了),把容器管理軟件如“kubernetes”給用戶,既滿足用戶的容器需求,又不擔心容器的多租戶問題。
所以我認為:以 VM 為基礎,以容器為輔助點,要買就買 VM,自己管理容器,別買 CAAS 直接提供的容器,別看不到底下物理機或者虛擬機。用 VM 還是用容器,冷靜考察自己的應用上容器是否有好處。最后,殘念,VM 開源管理軟件能搞個比 OpenStack 簡單的東西嗎?