程式碼托管服務(wù)GitLab釋出數(shù)據(jù)科學(xué)團隊的解決方案Meltano,可用於處理數(shù)據(jù)的提取、載入和轉(zhuǎn)換等工作。Meltano并沒有與GitLab原本的服務(wù)綑綁在一起,而是成為一個單獨產(chǎn)品,目的在於填補通用數(shù)據(jù)應(yīng)用在不同部門間的鴻溝,讓企業(yè)達成客戶支援、產(chǎn)品團隊、銷售與行銷等工作。
GitLab提到,他們遇到跟大多數(shù)企業(yè)一樣的問題,在工程部門擁有大量的數(shù)據(jù),但是要將這些數(shù)據(jù)應(yīng)用在實際解決業(yè)務(wù)問題,仍有一大段距離。於是GitLab開發(fā)了Meltano來克服這個難題,Meltano解決方案提供建模、提取、載入、轉(zhuǎn)換、分析、筆記本與協(xié)作等功能,也就是說整個數(shù)據(jù)科學(xué)的生命周期,都是Meltano的支援范圍。
GitLab數(shù)據(jù)分析團隊從外部資源取得了大量數(shù)據(jù),并轉(zhuǎn)換成可用格式,提供給公司內(nèi)的其他業(yè)務(wù)部門使用者,并最終根據(jù)數(shù)據(jù)進行結(jié)果預(yù)測。GitLab表示,與多數(shù)數(shù)據(jù)團隊相同,他們目前還是透過一系列的步驟與各自獨立的工具來完成這個目標(biāo),整個流程并不順暢也沒有達到足夠穩(wěn)定的水準(zhǔn)。
他們希望可以使用最佳實踐的方法,來進行數(shù)據(jù)分析的工作,所有工作都使用開源工具,并能夠進行版本控制,還可以對數(shù)據(jù)到視覺化的分析工作管線進行追蹤。GitLab提到,Meltano的最終目標(biāo)就是要讓企業(yè)內(nèi)每個人都可以輕易上手,并著手進行數(shù)據(jù)分析,而不僅是數(shù)據(jù)科學(xué)家。
GitLab數(shù)據(jù)分析師Emilie Burke提到,許多中小型企業(yè)無法進行數(shù)據(jù)分析的工作,是因為他們團隊中缺乏工程師,只能透過現(xiàn)存的工具產(chǎn)生報告,但是在依賴這些孤立的數(shù)據(jù)時,也就代表無法進行跨功能的分析。他舉例,像是店家進行促銷活動,接收到了許多帳號申請的郵件,但是卻無法與Shopify的數(shù)據(jù)交叉比對,知道那些申請者有在Shopify購買商品,除非後端的數(shù)據(jù)能夠串接起來。
Meltano作為一個開源工具,企業(yè)不需要投入太多的資源來建立數(shù)據(jù)分析團隊。目前Meltano還只支援Postgres,而Snowflake正在開發(fā)中,但是Meltano需要能夠支援更多數(shù)據(jù)庫類型,因此GitLab團隊邀請有意愿的貢獻者可以加入開發(fā)Meltano的行列。