谷歌將CloudDataflow捐獻(xiàn)給Apache軟件基金會(huì),以此開放更多源代碼。此舉對谷歌來說可謂開了先河,為大數(shù)據(jù)公司提供了新的基于云的數(shù)據(jù)分析方案和集成機(jī)會(huì)。
CloudDataflow是一種用來處理云端大量數(shù)據(jù)的平臺(tái)。它擁有一種基于Java的開源SDK(軟件開發(fā)工具包),這樣一來,就很容易與其他以云為中心的分析和大數(shù)據(jù)工具實(shí)現(xiàn)集成。該平臺(tái)對大數(shù)據(jù)業(yè)務(wù)來說主要的價(jià)值在于,提供了與新出現(xiàn)的技術(shù)保持兼容的優(yōu)點(diǎn),同時(shí)仍可以整合到現(xiàn)有工作流程中。這樣一來,每當(dāng)出現(xiàn)一種新的數(shù)據(jù)處理框架,企業(yè)組織就沒必要重新改動(dòng)其分析基礎(chǔ)設(shè)施或代碼。
雖然DataflowSDK在一年多前就已開源,但谷歌在這周邁出了更大的一步:提議將這個(gè)平臺(tái)變成Apache孵化器項(xiàng)目。此舉為Dataflow的代碼庫最終成為Apache軟件基金會(huì)旗下一個(gè)完備的項(xiàng)目鋪平了道路。谷歌與Cloudera、dataArtisans、Talend、Cask和PayPal共同提出了這個(gè)提議;這項(xiàng)提議如果獲得批準(zhǔn),就更容易以一種開源、與廠商中立的方式,將Dataflow在可擴(kuò)展性和集成方面的功能做入到商業(yè)大數(shù)據(jù)平臺(tái)中。
比如說,Talend就這么說:“充分利用Dataflow框架的開發(fā)人員不會(huì)被某一種特定的數(shù)據(jù)處理運(yùn)行時(shí)環(huán)境‘鎖定’,能夠充分利用新出現(xiàn)的數(shù)據(jù)處理框架,沒必要重寫其Dataflow流水線,因而可以適應(yīng)未來的需要。”對渠道而言,谷歌的提議意味著,云和大數(shù)據(jù)勢必會(huì)更相輔相成地一同發(fā)展,這會(huì)讓開源大數(shù)據(jù)公司更容易確保未來的數(shù)據(jù)分析解決方案具有開放性。