海量視頻數(shù)據(jù)的存儲和管理
維基百科全書的定義:“大數(shù)據(jù)是飛速增長的,用現(xiàn)有數(shù)據(jù)庫管理工具難以管理的數(shù)據(jù)集合”。這些數(shù)據(jù)包括:社交媒體、移動設備、科學計算和城市中部署的各類傳感器等等,其中視頻又是構成數(shù)據(jù)體量最大的一部分。
據(jù)IMS Research統(tǒng)計,2011年全球攝像頭的出貨量達到2646萬臺,預計到2015年攝像頭出貨量達5454萬臺。僅僅視頻監(jiān)控錄像而言,每天的數(shù)據(jù)量就達上千PB,累計的歷史數(shù)據(jù)將更為龐大,在視頻監(jiān)控大聯(lián)網(wǎng)、高清化推動下,視頻監(jiān)控業(yè)務步入數(shù)據(jù)的井噴時代。
“大數(shù)據(jù)或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工,在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的信息。”維基百科對大數(shù)據(jù)的定義將大數(shù)據(jù)的特點闡釋得非常清晰: “海量”和“非結構化”。
海量
IDC研究表明,2012年的數(shù)據(jù)存儲總量約為2.8ZB,2020年數(shù)據(jù)存儲量約為40ZB(1ZB=1億TB)。數(shù)據(jù)量正在以 55% 的速度逐年增長。全世界粗略估計有至少有2億個攝像頭在角落里靜靜的看著我們。
非結構化
與通常講的Oracle、SQL這類傳統(tǒng)的數(shù)據(jù)中心級的結構化數(shù)據(jù)不同,視頻監(jiān)控業(yè)務產(chǎn)生的數(shù)據(jù)絕大多數(shù)以非結構化的數(shù)據(jù)為主,信息呈現(xiàn)上為松耦合的關系,這給傳統(tǒng)的數(shù)據(jù)管理和使用機制帶來了極大的挑戰(zhàn)。
大數(shù)據(jù)技術的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些含有意義的數(shù)據(jù)進行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關鍵,在于如何讓數(shù)據(jù)會“說話”。如何將海量的數(shù)據(jù)變成落地民生,進行商業(yè)趨勢、判定研究質(zhì)量、避免疾病擴散、打擊犯罪或測定實時交通路況正是“大數(shù)據(jù)”盛行的本質(zhì)。
圍繞大數(shù)據(jù)的命題,經(jīng)過采集后的視頻數(shù)據(jù)通過創(chuàng)建數(shù)據(jù)倉庫,進行數(shù)據(jù)的分析和挖掘,最終進行可視化的呈現(xiàn),就是大數(shù)據(jù)的衍變過程。在大數(shù)據(jù)的發(fā)展趨勢下,對海量視頻監(jiān)控數(shù)據(jù)的存儲和管理是當下各大廠商積極探索的命題之一。
海量視頻數(shù)據(jù)的存儲和管理
視頻數(shù)據(jù)的爆炸式增長,意味著需要投入更多的資源以及付出更多的努力,才能在這些體量龐大的數(shù)據(jù)中尋找到有價值的信息。目前各大廠商也發(fā)現(xiàn)單個節(jié)點的存儲設備無法適應海量的視頻監(jiān)控數(shù)據(jù)的管理需求,其發(fā)展沒能跟上數(shù)據(jù)增長的速度。其實不難發(fā)現(xiàn),視頻監(jiān)控數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)中心的結構化數(shù)據(jù)的業(yè)務模型相差較大:
恒定碼流的高并發(fā)寫入
視頻監(jiān)控數(shù)據(jù)具有高并發(fā)、大容量的特點。以1080P為例,在4Mbps的碼率下,中等城市的監(jiān)控規(guī)模一般為數(shù)千到數(shù)萬攝像頭,按5000路計算,并發(fā)寫入碼流為5000路*4Mbps *24小時*60分鐘*60秒 ;
大容量
根據(jù)公安部要求錄像數(shù)據(jù)在系統(tǒng)中保存30天以上。中等城市的存儲容量為:5000路*4Mbps *24小時*60分鐘*60秒*30天;
高可靠
視頻監(jiān)控存儲系統(tǒng)7*24小時不間斷的高壓力寫入的同時,還必須具有高級別的容錯性,存儲等硬盤類介質(zhì)屬于電子產(chǎn)品,電子產(chǎn)品或多或少都存在軟件或硬件的bug,高壓力下的硬盤故障率也會比較高,如果保障故障發(fā)生時不造成監(jiān)控數(shù)據(jù)的丟失,是視頻監(jiān)控存儲管理的重要命題。
在線升級擴容
由于視頻監(jiān)控項目本身在不斷發(fā)展,系統(tǒng)定期會進行在線擴容和升級,這就要求存儲系統(tǒng)具有高度的可擴展性,可在系統(tǒng)中簡單便捷地增添存儲設備。
信息價值
海量數(shù)據(jù)和有效數(shù)據(jù)之間的矛盾。攝像頭7*24小時工作,如實記錄鏡頭覆蓋范圍的發(fā)生的一切,僅僅記錄信息是不夠的,因為對于客戶來講可能大部分信息是無效,有效信息可能只分布在一個較短的時間段內(nèi),按照數(shù)學統(tǒng)計的說法,信息是呈現(xiàn)冪律分布的,也稱之為信息的密度,通常在最短的時間內(nèi)提供的數(shù)據(jù)有效性越高,對客戶價值越大。
有效信息提。ㄓ嬎悖
在視頻監(jiān)控領域,往往視頻分析的效率決定價值,更低的延遲、更準確的分析往往是平安城市這類客戶的普遍需求。隨著數(shù)據(jù)量的增加,哪怕對TB級別的數(shù)據(jù)進行對視頻內(nèi)容的數(shù)據(jù)分析和檢索,采用串行計算的模式都可能需要花費數(shù)小時的計算,已遠遠不能勝任時效性的需求。大數(shù)據(jù)架構下的存儲系統(tǒng)還需要考慮后續(xù)的計算模式的匹配。
視頻文件存儲幾大問題
視頻文件目前絕大多數(shù)的系統(tǒng)都是采用文件系統(tǒng)的方式進行音視頻數(shù)據(jù)的存儲。文件系統(tǒng)有幾個最大的問題:
· 存儲設備管理接口不統(tǒng)一
· 存儲資源的管理及分配制度
· 以文件系統(tǒng)為核心的數(shù)據(jù)存儲方式
1) 文件系統(tǒng)易損壞,寫文件會導致文件系統(tǒng)元數(shù)據(jù)區(qū)的頻繁持續(xù)更新,因此文件系統(tǒng)的元數(shù)據(jù)區(qū)很容易損壞,導致文件系統(tǒng)不可用。
2) 性能問題:文件系統(tǒng)經(jīng)IO過操作系統(tǒng)的封裝,在數(shù)據(jù)長時期持續(xù)寫入的情況下,開銷要大于直接裸盤寫入,降低性能。在磁盤上存在大量錄像文件時,系統(tǒng)的錄像檢索效率會下降很多。另外,磁盤上的大量文件在多次刪除重建后,數(shù)據(jù)在物理磁盤上的位置將變成不連續(xù),導致數(shù)據(jù)寫入的隨機性加大,從而降低錄像數(shù)據(jù)的寫入性能。
視頻存儲作為圖像數(shù)據(jù)和報警事件記錄的基礎載體,重要性是不言而喻的,存儲的需求已不僅是一臺或幾臺設備而已,而已提升到了一個解決方案平臺的高度。大容量、高并發(fā)的視頻監(jiān)控存儲系統(tǒng)并不是存儲設備的簡單堆積,更需要解決監(jiān)控業(yè)務特色的存儲機制的完備性、存儲標準以及在時間(存儲數(shù)據(jù)處理速度)和空間(存儲容量)上的可使用性等問題上滿足大容量、高并發(fā)等大數(shù)據(jù)應用架構下的監(jiān)控存儲系統(tǒng)的要求。
“云存儲”有許多的定義,大家公認的基本功能有:按需自動服務、資源池、快速靈活、廣泛的網(wǎng)絡接入等。云存儲是通過網(wǎng)絡提供的可配置虛擬化存儲和相關數(shù)據(jù)服務,這個服務級別是可以按需要來保證的。云存儲的第一個涵義是網(wǎng)絡,早期通過云的圖示表示網(wǎng)絡,這是云存儲的由來。“云存儲”實際上借助了網(wǎng)絡的概念,所以涵括了部分網(wǎng)絡在內(nèi);另一個含義就是它的服務,虛擬化存儲,提供存儲池,屏蔽單臺存儲設備的所有細節(jié),提供傳統(tǒng)的存儲很難做到按需服務。
基于裸數(shù)據(jù)塊的視頻云直存虛擬化技術
虛擬化是云存儲的主要特征之一。存儲領域國際權威機構SNIA(存儲網(wǎng)絡工業(yè)協(xié)會)給出了存儲虛擬化(Storage Virtualization)的定義:“通過將存儲系統(tǒng)/子系統(tǒng)的內(nèi)部功能從應用程序、計算服務器、網(wǎng)絡資源中進行抽象、隱藏或隔離,實現(xiàn)獨立于應用程序、網(wǎng)絡的存儲與數(shù)據(jù)管理”。存儲虛擬化技術將底層存儲設備進行抽象化統(tǒng)一管理,向服務器層屏蔽存儲設備硬件的特殊性,而只保留其統(tǒng)一的邏輯特性,從而實現(xiàn)了存儲系統(tǒng)的集中、統(tǒng)一、方便的管理。
與傳統(tǒng)虛擬化存儲相比,基于“裸數(shù)據(jù)塊”的虛擬化存儲化技術,不僅繼承了“磁盤利用率高” 和“管理方便”的特點,還能將文件系統(tǒng)的風險及碎片問題徹底解決。
高磁盤利用率
傳統(tǒng)存儲技術的磁盤利用率一般只有30-70%,而采用虛擬化技術后的磁盤利用率高達95%;存儲靈活,可以適應不同廠商、不同類別的異構存儲平臺,為存儲資源管理提供了更好的靈活性;
管理方便
管理方便,提供了一個大容量存儲系統(tǒng)集中管理的手段,避免了由于存儲設備擴充所帶來的管理方面的麻煩;性能更好,虛擬化存儲系統(tǒng)可以很好地進行負載均衡,把每一次數(shù)據(jù)訪問所需的帶寬合理地分配到各個存儲模塊上,提高了系統(tǒng)的整體訪問帶寬。
無文件碎片及文件系統(tǒng)問題
云存儲是炙手可熱的“大數(shù)據(jù)”中組成之一:存儲單元模塊。“大數(shù)據(jù)”中提及富媒體資源指的就是視頻監(jiān)控業(yè)務產(chǎn)生的大量數(shù)據(jù),占比巨大的富媒體信息中的載體為存儲設備和云存儲解決方案。
存儲設備或云存儲解決方案作為視頻監(jiān)控里中結構化和非結構化數(shù)據(jù)的載體,橫跨基礎架構、內(nèi)容信息三個維度的信息化建設的基礎。如果將“富”媒體中的視頻信息,從底層的動態(tài)存儲到以事件或物理為索引的信息分析,再到將海量的非結構化數(shù)據(jù)轉(zhuǎn)化成信息和洞察力,做到真正的“為人所用”,才是大數(shù)據(jù)的真正魅力所在。
監(jiān)控特色的數(shù)據(jù)倉庫
數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。 數(shù)據(jù)倉庫是一個過程而不是一個項目;數(shù)據(jù)倉庫是一個環(huán)境,而不是一件產(chǎn)品。數(shù)據(jù)倉庫提供用戶用于決策支持的當前和歷史數(shù)據(jù),這些數(shù)據(jù)在傳統(tǒng)的操作型數(shù)據(jù)庫中很難或不能得到。
監(jiān)控特色的數(shù)據(jù)倉庫技術是為了有效的把基礎視頻庫中的錄像信息,按照某些特性或邏輯或定義的結構類型,進行信息的提取,作為數(shù)據(jù)集成到統(tǒng)一的環(huán)境中以提供決策型數(shù)據(jù)訪問的基礎。目的做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持
傳統(tǒng)的數(shù)據(jù)處理和加工是:從外界存儲取出來數(shù)據(jù),被應用程序或其他系統(tǒng)程序所讀取并計算處理,處理完畢將其放入程序里面,整個業(yè)務流有多個處理環(huán)節(jié),要不斷地存儲、讀取、計算、再存儲,其系統(tǒng)的大量時間花費在數(shù)據(jù)的遷移上,一旦數(shù)據(jù)量增加,從數(shù)據(jù)向計算遷移的環(huán)節(jié)就肯定“費時費力”。
大數(shù)據(jù)整理架構發(fā)展趨勢下,將管理的重點由以前的“設備”為中心,衍變成以“數(shù)據(jù)”為核心的模式。用戶根據(jù)數(shù)據(jù)具體分布,推送部署計算單元,大大節(jié)省額外的空間計算消耗。
數(shù)據(jù)可視化
無論是單一的存儲設備,還是IT或監(jiān)控云存儲的解決方案,其核心都是作為數(shù)據(jù)的載體。任何行為本身都會產(chǎn)生數(shù)據(jù),視頻監(jiān)控業(yè)務中每個物體的軌跡、每秒中呈現(xiàn)的數(shù)據(jù),都是就是大數(shù)據(jù)的最原始雛形,但雛形不等于本質(zhì),擁有這些軌跡數(shù)據(jù)的本質(zhì),才能更全面、更清楚的對原始數(shù)據(jù)的認知。
數(shù)據(jù)可視化技術的基本思想是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元元素表示,大量的數(shù)據(jù)集構成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析。主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。但是,這并不就意味著,數(shù)據(jù)可視化目的為了有效地傳達“數(shù)據(jù)”的過去狀態(tài)的呈現(xiàn)及未來狀態(tài)的預測,通過直觀的數(shù)據(jù)傳達關鍵的方面與特征,從而實現(xiàn)對于相當稀疏而又復雜的數(shù)據(jù)集的深入洞察。
監(jiān)控視頻數(shù)據(jù)可視化依據(jù)數(shù)據(jù)及其內(nèi)在模式和關系,利用計算機生成的圖像來獲得深入認識和知識。模擬感覺系統(tǒng)的廣闊帶寬來操縱和解釋錯綜復雜的過程、涉及不同學科領域的數(shù)據(jù)集以及來源多樣的大型抽象數(shù)據(jù)集合的模擬。
監(jiān)控視頻數(shù)據(jù)可視化是大數(shù)據(jù)架構下的特征產(chǎn)物之一,通過視頻云存儲作為承載。“可視化”的實現(xiàn)能打破成熟的科學可視化領域與較年輕的信息可視化領域間的技術壁壘,同時也是一條鋪滿荊棘的探索之路。