Google宣布推出了資料驗證工具(DVT),這是一個開源的Python命令列工具,可以跨不同環(huán)境進行自動化資料驗證。
Google提到,資料驗證是資料倉儲、資料庫和資料湖搬遷的關鍵步驟,工作包括比較來源和目標表格的結構化和半結構化資料,并在每個搬遷步驟,像是SQL腳本轉換、資料和架構搬遷以及ETL搬遷等,驗證這些步驟是否正確完成。
跨平臺驗證資料雖然重要但是卻非常耗時,用戶可能必須要建構和維護自定義解決方案,才能完成這項工作,而DVT提供了一個標準化的解決方案,可供用戶根據本地端系統(tǒng)中的資料,驗證Google云端中心搬遷的資料,DVT能夠與現(xiàn)有企業(yè)基礎設施和ETL工作管線整合,進行無縫且自動化的驗證。
DVT使用Ibis框架來連接到大量資料來源,Ibis則是一個Python框架,能夠用標準方式存取資料,并且對不同來源的資料進行分析運算,簡單來說,Ibis供用戶方便地使用Python編寫SQL,但在存取資料外,其重點在於分析,除了可用於SQL資料庫,還支援後端各種資料儲存系統(tǒng)。
有了Ibis的支援,DVT能夠連接到大量的資料源上,包括BigQuery、AWS S3、MySQL、Oracle、Spanner、SQL Server以及Teradata等。DVT能執(zhí)行多層資料驗證,從各種表格層級的驗證到列驗證。