Google已經(jīng)實(shí)現(xiàn)世界級(jí)數(shù)據(jù)中心服務(wù)器監(jiān)控,新的技術(shù)可以監(jiān)控世界范圍內(nèi)每臺(tái)服務(wù)器上的每個(gè)任務(wù);其最終目的是通過這些數(shù)據(jù)有選擇對(duì)進(jìn)程進(jìn)行干預(yù)、甚至是關(guān)閉該進(jìn)程讓同CPU上的其它進(jìn)程得以運(yùn)行。
搜索巨頭在技術(shù)論文中詳細(xì)的描述了這一世界級(jí)監(jiān)視技術(shù)的實(shí)現(xiàn)方法,相信使用大型基于Linux云計(jì)算基礎(chǔ)設(shè)施的機(jī)構(gòu)都會(huì)對(duì)此感興趣。
論文中寫道:
性能隔離是云計(jì)算的主要挑戰(zhàn)。不幸的是,Linux缺少對(duì)共享資源(比如:處理器緩存、存儲(chǔ)器總線等)中性能干擾的防御;這樣的話,公有云中的應(yīng)用程序?qū)o法避免來自鄰居們的干擾。
CPI方案使用從硬件性能計(jì)數(shù)器獲得的CPI(cycles-per-instruction,平均指令周期數(shù))數(shù)據(jù)檢測(cè)問題,中斷或者關(guān)閉“問題”進(jìn)程從而達(dá)到預(yù)期的效果,當(dāng)然它會(huì)根據(jù)相同作業(yè)中大量任務(wù)數(shù)據(jù)認(rèn)知這個(gè)任務(wù)的反常與否。
本質(zhì)上講,CPI讓Google可以在集群上萬個(gè)CPU核心中隔離單個(gè)核心上的單個(gè)性能低下任務(wù),對(duì)這個(gè)任務(wù)進(jìn)行檢查并進(jìn)行操作,而造成的CPU開銷甚至不到0.1%。它并不需要特殊的硬件支持,唯一的軟件依賴恰是使用Linux。
CPI允許Google收集任何指定指令的預(yù)期CPU CPI,從這些數(shù)據(jù)中分析出標(biāo)準(zhǔn)的資源配置文件,然后使用這些標(biāo)準(zhǔn)的配置文件去幫助網(wǎng)絡(luò)巨頭確定哪些任務(wù)比一般情況下耗費(fèi)了更多的CPI,從而解放與這些任務(wù)使用相同CPU的其它進(jìn)程。
Google稱,其絕大多數(shù)機(jī)器上都運(yùn)行著多任務(wù)。作業(yè)的處理類型分為實(shí)時(shí)處理和批處理兩種,同時(shí)這些作業(yè)由大量的任務(wù)組成。Google服務(wù)器上96%的任務(wù)都會(huì)與至少10個(gè)的任務(wù)組成一個(gè)作業(yè),而87%左右的任務(wù)會(huì)與100或以上的任務(wù)組成一個(gè)作業(yè)。
但是這些任務(wù)可能會(huì)相互干擾,導(dǎo)致處理器緩存和內(nèi)存分配問題,造成應(yīng)用中的某個(gè)任務(wù)延時(shí)飆升——這正是Google不惜一切代價(jià)都想避免的問題。
為了實(shí)現(xiàn)任務(wù)流下每個(gè)處理器的控制,Google使用CPI監(jiān)視所有運(yùn)行的服務(wù)器。通過測(cè)量處理器硬件計(jì)數(shù)器,然后用CPU_CLK_UNHALTED.REF除以INSTRUCTIONS_RETIRED來獲得CPI數(shù)據(jù)。
通過計(jì)算模式下的perf_event工具,Google每分鐘都會(huì)收集一個(gè)長(zhǎng)為10秒周期的數(shù)據(jù)。系統(tǒng)中總CPU的開銷低于0.1%,并且不會(huì)對(duì)延時(shí)產(chǎn)生影響。
因?yàn)榧盒枰绱罅康钠脚_(tái)運(yùn)行,CPI的目的在于體現(xiàn)各種平臺(tái)下的CPU運(yùn)行情況。CPI的值通過每臺(tái)機(jī)器上的agent進(jìn)行本地分析和測(cè)量。agent通常會(huì)被給予作業(yè)中任務(wù)預(yù)期最常見的CPI分布,所以它可以獨(dú)立的分析出運(yùn)行的正常與否。
如果agent發(fā)現(xiàn)有“victim”任務(wù)受到影響變得緩慢,它將會(huì)每秒一次的對(duì)“antagonist”任務(wù)進(jìn)行干涉。agent會(huì)使用一個(gè)算法來判斷“antagonist”任務(wù)的CPU占用增加與“victim”任務(wù)的遲緩是否曾在關(guān)系,依據(jù)的則是指令的周期數(shù)。
如果agent識(shí)別了一個(gè)“antagonist”并發(fā)現(xiàn)它是個(gè)批量作業(yè),系統(tǒng)將會(huì)“通過CPU hard-capping來強(qiáng)制減少‘antagonist的CPU占用率’”。
鑒于CPI和Omega論文的聯(lián)合作者中都有John Wilkes,Google很有可能是通過Omega(Google大型基礎(chǔ)設(shè)施管理系統(tǒng)的一個(gè)組件)給agent發(fā)布任務(wù)。
“antagonis”任務(wù)的配置文件與CPI數(shù)據(jù)進(jìn)行的是離線的記錄和存儲(chǔ),這樣管理員就可以通過Google的主要網(wǎng)絡(luò)分析工具Dremel進(jìn)行查詢。
Google工程師使用Dremel進(jìn)行性能取證,用以確定“antagonists”任務(wù),在將來他們可能為“antagonists”任務(wù)重新制定策略,讓它們?cè)趩为?dú)的主機(jī)集中運(yùn)行,然后使用這個(gè)調(diào)度進(jìn)度來徹底的避免這個(gè)問題。
其中有一個(gè)需要改進(jìn)的方面是處理多個(gè)“antagonists”,它將會(huì)復(fù)雜化算法;另一個(gè)則是為capping任務(wù)建立的反饋途徑。
論文中寫道:“即使這兩方面還未改善,但是CPI是個(gè)強(qiáng)大的、實(shí)用的工具。”
使用CPI獲得應(yīng)用性能可行信息的開銷比Google其它方案來的更少,這里還存在一個(gè)被稱為“Google-Wide Profiling”可同時(shí)對(duì)硬件和軟件性能進(jìn)行追蹤的平行技術(shù),但是只在Google小范圍的進(jìn)行使用。
從整體上看,CPI提供的不只是管理,更傾向于讓集群運(yùn)行的更加穩(wěn)定、效率。如果你在執(zhí)行搜索或者查看Gmail、通過Google服務(wù)查找地址時(shí)發(fā)現(xiàn)比平常需要更多的時(shí)間,那么你可能就會(huì)被CPI冷酷及無情的當(dāng)做是“antagonists”。