一、擁抱新變化,構建新平臺
陶濤表示,隨著數字經濟的發(fā)展,全球數據量已經進入YB時代(1YB,即1千萬億GB,約為4萬億臺256GB手機的存儲容量)。在數據規(guī)模的爆發(fā)式增長下,中國移動的數據形態(tài)呈現出“多模態(tài)”特點,即各類數據廣泛應用于政府、企業(yè),并逐步發(fā)展為全局、跨域、規(guī);瘧。
同時,隨著數據量的發(fā)展和數據融合的逐步加深,傳統(tǒng)的數據庫、數據倉庫、大數據平臺技術逐漸顯露出“瓶頸”。在數據分散、重復存儲、難于管理等多重困難挑戰(zhàn)下,中國移動緊緊圍繞YB時代生態(tài)、高效處理海量非結構化數據、全面提升數據韌性等數據治理演進方向,打造湖倉一體新型開放式架構。這既是中國移動直面數據孤島挑戰(zhàn)的態(tài)度,也可以看作是協(xié)同各界力量對建設未來新型大數據平臺的嘗試。
湖倉一體架構充分結合了數據湖和數據倉庫的優(yōu)勢,在低成本的數據湖存儲架構之上,繼承了數據倉庫的數據處理和管理功能,形成了一個完整且高效的數據處理體系,實現一份數據和一套任務在湖、倉之上的無縫調度和管理。
二、YB時代,從“存”到“倉”的蝶變
陶濤詳細介紹了湖倉一體技術架構的兩個關鍵,即存算分離與湖倉融合。
存算分離,即存儲和計算使用單獨的集群,按需分別擴展存儲或計算資源,保證整體系統(tǒng)能夠支持更多用戶并發(fā)和更大數據量。
湖倉融合,形成了邏輯統(tǒng)一的一體化數據服務,開發(fā)者只需要提交標準SQL(數據庫語言),即可計算出想要的結果。
湖倉一體作為一種新型開放式架構,能夠充分結合數據湖和數據倉庫的優(yōu)勢,在數據湖低成本的存儲架構之上,繼承數據倉庫的數據處理和管理功能,存儲、轉換、集成結構化和非結構化數據,將不同種類數據融合在一起,并從中提取出有用價值。
陶濤認為,“綠色、集約、智能”是湖倉一體技術架構上的核心優(yōu)勢。面對新的應用需求,一方面湖倉一體產品可從用戶的核心訴求出發(fā)更好地支撐數據存儲與分析;另一方面,湖倉一體架構可支持企業(yè)優(yōu)化自身底層數據治理架構,從而幫助企業(yè)提升“人效”和“能效”,更精準地抓住商業(yè)機會,創(chuàng)造發(fā)展優(yōu)勢。湖倉一體技術所具備的高效的數據處理優(yōu)勢以及經濟、節(jié)能優(yōu)勢,使之在實時數倉、支撐云原生的融合數據底座、降本增效等場景中具有廣泛的應用前景。
基于湖倉一體的架構規(guī)劃,中國移動打造了分布式協(xié)同計算平臺。集群分布在全國九大區(qū)域中心,有機融合了數據湖(Hadoop)和數據倉庫(OLAP)能力,實現物理分散、邏輯統(tǒng)一的一體化數據服務。
湖倉一體技術架構為大數據產業(yè)提供了未來路徑和方法。陶濤強調,對于不同的企業(yè)來說,數據情況、業(yè)務需求各不相同,但對于統(tǒng)一數據存儲、統(tǒng)一數據計算、統(tǒng)一數據管理,實現企業(yè)數據資產應用效能最大化的訴求是一致的。在聯合產業(yè)合作伙伴發(fā)布技術標準、技術白皮書之后,陶濤代表中國移動呼吁產業(yè)合作伙伴共迎變革,共同構建湖倉一體創(chuàng)新生態(tài),推進大數據下一代技術架構廣泛應用。