中文字幕无码久久精品,13—14同岁无码A片,99热门精品一区二区三区无码,菠萝菠萝蜜在线观看视频高清1

您當(dāng)前的位置是:  首頁(yè) > 資訊 > 國(guó)際 >
 首頁(yè) > 資訊 > 國(guó)際 >

數(shù)據(jù)湖正成為新的數(shù)據(jù)倉(cāng)庫(kù)

2019-07-15 09:50:57   作者:JamesKobielus Wikibon公司研究AI、數(shù)據(jù)科學(xué)和應(yīng)用軟件開(kāi)發(fā)的首席分析師   來(lái)源:云頭條   評(píng)論:0  點(diǎn)擊:


  像AWSLake Formation和Delta Lake這類平臺(tái)正成為用于決策支持和AI驅(qū)動(dòng)型決策自動(dòng)化的治理中心。
  數(shù)據(jù)倉(cāng)庫(kù)是再度扮演重要角色,還是說(shuō)奄奄一息?
  如果你在這個(gè)問(wèn)題上有點(diǎn)困惑,那也情有可原。一方面,數(shù)據(jù)倉(cāng)庫(kù)無(wú)疑似乎炙手可熱。作為一名長(zhǎng)期的行業(yè)觀察人士,我看到這個(gè)行業(yè)創(chuàng)新不斷,創(chuàng)業(yè)活動(dòng)高潮迭起。
  這股趨勢(shì)實(shí)際上始于十年前一體機(jī)(appliance)這種設(shè)備進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)主流,然后隨著幾年前市場(chǎng)轉(zhuǎn)向新一代云數(shù)據(jù)倉(cāng)庫(kù),獲得了新的發(fā)展勢(shì)頭。過(guò)去這幾年,一家云數(shù)據(jù)倉(cāng)庫(kù)供應(yīng)商Snowflake在市場(chǎng)上獲得了異常的關(guān)注。
  數(shù)據(jù)倉(cāng)庫(kù)黯然失色
  另一方面,數(shù)據(jù)倉(cāng)庫(kù)在新的行業(yè)模式面前一次次黯然失色,比如大數(shù)據(jù)、機(jī)器學(xué)習(xí)和AI等新模式。這股趨勢(shì)加深了這種印象:作為一個(gè)企業(yè)IT優(yōu)先事項(xiàng),數(shù)據(jù)倉(cāng)庫(kù)日漸式微,但實(shí)際上大多數(shù)企業(yè)組織現(xiàn)在至少有一個(gè)、常常有多個(gè)數(shù)據(jù)倉(cāng)庫(kù)為各種下游應(yīng)用提供服務(wù)。
  數(shù)據(jù)倉(cāng)庫(kù)依然是核心的企業(yè)工作負(fù)載,這就是為什么幾年前我覺(jué)得我要撰文解釋為什么數(shù)據(jù)倉(cāng)庫(kù)遠(yuǎn)未消亡。這也可以解釋為什么其他觀察人士認(rèn)為他們要重新定義數(shù)據(jù)倉(cāng)庫(kù)概念,好讓數(shù)據(jù)倉(cāng)庫(kù)在數(shù)據(jù)湖和云計(jì)算盛行的時(shí)代繼續(xù)扮演重要角色。
  數(shù)據(jù)倉(cāng)庫(kù)這種實(shí)踐不僅蓬勃發(fā)展,現(xiàn)在還被視為是云計(jì)算行業(yè)一個(gè)值得期待的主要增長(zhǎng)點(diǎn)。然而,如果你一味關(guān)注帶這個(gè)標(biāo)簽進(jìn)入市場(chǎng)的那些平臺(tái)(比如Snowflake),就會(huì)看不到這個(gè)領(lǐng)域的大部分面貌。
  數(shù)據(jù)湖大行其道
  許多人所說(shuō)的“數(shù)據(jù)湖”正迅速發(fā)展成為下一代數(shù)據(jù)倉(cāng)庫(kù)。有必要向不熟悉這個(gè)概念的人介紹一下,數(shù)據(jù)湖是多重結(jié)構(gòu)數(shù)據(jù)的系統(tǒng)或存儲(chǔ)庫(kù),這些數(shù)據(jù)以自然的格式和模式來(lái)存儲(chǔ),通常作為對(duì)象“blob”或文件。
  數(shù)據(jù)湖通常用作所有企業(yè)數(shù)據(jù)的單個(gè)存儲(chǔ)區(qū),包括源系統(tǒng)數(shù)據(jù)和已轉(zhuǎn)換數(shù)據(jù)的原始副本,已轉(zhuǎn)換數(shù)據(jù)用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)。數(shù)據(jù)湖包含分布式文件或?qū)ο蟠鎯?chǔ)、機(jī)器學(xué)習(xí)模型庫(kù)以及高度并行化的處理和存儲(chǔ)資源集群。此外,數(shù)據(jù)湖通常在讀取時(shí)執(zhí)行模式,并使用統(tǒng)計(jì)模型從中提取有意義的關(guān)系和模式,而不是對(duì)它們存儲(chǔ)的對(duì)象執(zhí)行通用模式和語(yǔ)義。
  這一切與為大多數(shù)專業(yè)人員采用的數(shù)據(jù)倉(cāng)庫(kù)方法提供依據(jù)的Inmon和Kimball核心概念不一致。從根本上說(shuō),數(shù)據(jù)倉(cāng)庫(kù)是為了聚合、保留和管理得到官方認(rèn)可、“單一版本真相”的數(shù)據(jù)記錄而存在的。這個(gè)概念與所管理數(shù)據(jù)的特定應(yīng)用領(lǐng)域和具體的特定使用場(chǎng)合無(wú)關(guān)。
  如果你懷疑我在這個(gè)方面的說(shuō)法,不妨看看Bill Inmon對(duì)數(shù)據(jù)倉(cāng)庫(kù)定義的這番討論(http://www.b-eye-network.com/view/16066)以及對(duì)Inmon的框架和Ralph Kimball的框架進(jìn)行的這番比較(https://www.computerweekly.com/tip/Inmon-or-Kimball-Which-approach-is-suitable-for-your-data-warehouse)。數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵通常是為決策提供數(shù)據(jù)驅(qū)動(dòng)型支持,因而可以很好地?cái)U(kuò)展到AI驅(qū)動(dòng)型推理這個(gè)新領(lǐng)域。
  下一代數(shù)據(jù)倉(cāng)庫(kù)
  在過(guò)去的一年,幾則備受矚目的行業(yè)宣布表明了數(shù)據(jù)倉(cāng)庫(kù)的角色已發(fā)生轉(zhuǎn)變。雖然決策支持(又叫商業(yè)智能、報(bào)告和聯(lián)機(jī)分析處理)仍是大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)的核心使用場(chǎng)合,但我們看到了向決策自動(dòng)化的穩(wěn)步轉(zhuǎn)變。換句話說(shuō),數(shù)據(jù)倉(cāng)庫(kù)現(xiàn)在支持為數(shù)據(jù)驅(qū)動(dòng)的推理構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用的數(shù)據(jù)科學(xué)管道。
  新一代數(shù)據(jù)倉(cāng)庫(kù)實(shí)際上是數(shù)據(jù)湖,首要任務(wù)是用來(lái)治理用于構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型的清理、整合和認(rèn)可。比如說(shuō)在去年秋天在亞馬遜re:Invent大會(huì)上,AWS宣布了AWSLake Formation。這種新型托管服務(wù)的明確目的是,簡(jiǎn)化和加快安全數(shù)據(jù)湖的安裝和配置。然而,AWS Lake Formation擁有云數(shù)據(jù)倉(cāng)庫(kù)的所有標(biāo)志,不過(guò)AWS沒(méi)有稱之為云數(shù)據(jù)倉(cāng)庫(kù),實(shí)際上已經(jīng)提供了一種面向決策支持應(yīng)用的經(jīng)典數(shù)據(jù)倉(cāng)庫(kù)Amazon Redshift。
  AWS Lake Formation的外觀和行為都類似數(shù)據(jù)倉(cāng)庫(kù)。的確,AWS這樣來(lái)描述該服務(wù):“數(shù)據(jù)湖是一種集中的、篩選的且安全的存儲(chǔ)區(qū),它以原始形式和針對(duì)分析而做準(zhǔn)備的形式來(lái)存儲(chǔ)所有數(shù)據(jù)。數(shù)據(jù)湖讓你可以打破數(shù)據(jù)孤島,結(jié)合不同類型的分析工具,以獲得洞察力并指導(dǎo)更好的業(yè)務(wù)決策。”
  的確,AWS將AWS Lake Formation視作一種用于決策支持和AI驅(qū)動(dòng)型決策自動(dòng)化的超級(jí)數(shù)據(jù)倉(cāng)庫(kù)。具體來(lái)說(shuō),這家供應(yīng)商聲稱這項(xiàng)服務(wù)旨在管理“你用戶可以利用的數(shù)據(jù)集……用戶可以選擇用來(lái)管理的分析和機(jī)器學(xué)習(xí)服務(wù),比如Amazon EMR for Apache Spark、Amazon Redshift、Amazon Athena、Amazon SageMaker和Amazon QuickSight 。”
  另一個(gè)典型例子是Databricks最近宣布的Delta Lake開(kāi)源項(xiàng)目。Delta Lake(現(xiàn)在已有采用Apache 2.0許可證的版本)的明確目的類似AWS Lake Format:聚合、清理、篩選和管理數(shù)據(jù)湖中維護(hù)的數(shù)據(jù)集,以支持機(jī)器學(xué)習(xí)管道。
  Delta Lake位于可以從Apache Spark訪問(wèn)的現(xiàn)有內(nèi)部部署或云數(shù)據(jù)存儲(chǔ)平臺(tái)上,比如HDFS、Amazon S3或微軟Azure blob存儲(chǔ)。Delta Lake以Parquet格式存儲(chǔ)數(shù)據(jù),以提供Databricks所謂的“事務(wù)存儲(chǔ)層”。Parquet是一種開(kāi)源列存儲(chǔ)格式,可用于Hadoop生態(tài)系統(tǒng)中的任何項(xiàng)目,無(wú)論選擇哪種數(shù)據(jù)處理框架。它通過(guò)樂(lè)觀的并發(fā)串行化、快照隔離、數(shù)據(jù)版本控制、回滾和模式實(shí)施來(lái)支持ACID事務(wù)。
  Delta Lake與AWS Lake Formation的一個(gè)關(guān)鍵區(qū)別是,Delta Lake在該管道中既處理批量數(shù)據(jù),又處理流數(shù)據(jù)。另一大區(qū)別是,Delta Lake支持所有數(shù)據(jù)的ACID事務(wù),允許數(shù)百個(gè)應(yīng)用程序同時(shí)進(jìn)行多次寫(xiě)入和讀取。此外,開(kāi)發(fā)人員可以訪問(wèn)每個(gè)Delta Lake的早期版本,以便審計(jì)、回滾或者重現(xiàn)MLFlow機(jī)器學(xué)習(xí)實(shí)驗(yàn)的結(jié)果。
  從最廣泛的層面上來(lái)看,DeltaLake似乎與最廣泛采用的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目Apache Hive競(jìng)爭(zhēng),不過(guò)Hive完全依賴基于HDFS的存儲(chǔ),就在不久前還缺乏對(duì)ACID事務(wù)的支持。一年前宣布的Hive3終于為基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)帶來(lái)了ACID支持功能。Hive3使用增量文件(delta file),對(duì)針對(duì)事務(wù)型CRUD(創(chuàng)建讀取更新刪除)表的操作提供了原子性和快照隔離。
  AI驅(qū)動(dòng)型決策自動(dòng)化的基礎(chǔ)
  AWS Lake Formation、Delta Lake和Hive 3,最近這些行業(yè)宣布預(yù)示著有一天,數(shù)據(jù)湖成為所有決策支持和決策自動(dòng)化應(yīng)用的治理中心,以及所有事務(wù)數(shù)據(jù)應(yīng)用的治理中心。要想讓這些趨勢(shì)加快發(fā)展,Hive 3和Delta Lake等開(kāi)源項(xiàng)目需要在供應(yīng)商和用戶當(dāng)中獲得更廣泛的支持。
  “數(shù)據(jù)倉(cāng)庫(kù)”這個(gè)術(shù)語(yǔ)可能繼續(xù)主要指面向商業(yè)智能(BI)的結(jié)構(gòu)化數(shù)據(jù)的受管理多領(lǐng)域存儲(chǔ)。然而,底層數(shù)據(jù)平臺(tái)將繼續(xù)演進(jìn),為基于云的AI管道提供核心的數(shù)據(jù)治理基礎(chǔ)。
  當(dāng)下在推動(dòng)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)發(fā)展的是AI,而不是BI。
  原文鏈接:https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。

專題

CTI論壇會(huì)員企業(yè)