1 引言
大數據技術和產業(yè)目前正處于蓬勃發(fā)展過程中,新的技術、應用層出不窮,越來越多的客戶已經意識到數據作為企業(yè)核心資產的重要意義,也都有意愿向該領域的系統(tǒng)建設投資,這也吸引了大量的廠商參與到這一領域。但是,大數據產業(yè)在發(fā)展過程中,也存在著以下一些問題:
(1) 技術驅動而非需求驅動,導致系統(tǒng)對客戶實際業(yè)務的幫助不大:很多客戶只是聽說大數據能解決很多問題而上了大數據系統(tǒng),但并不知道怎樣用大數據來幫助自己解決問題。同樣,很多廠商只是具備一定的大數據技術,并不深入了解客戶的業(yè)務,所以也很難開發(fā)出真正能幫助客戶解決問題的大數據應用。;
(2) 垂直化的應用開發(fā)方式,導致系統(tǒng)開發(fā)成本高周期長:目前行業(yè)內大量的大數據應用仍采用按項目垂直化的開發(fā)方式,項目之間缺少積累復用,每個項目幾乎都是零基礎的重新開發(fā),造成系統(tǒng)開發(fā)周期長、成本高、質量難以保證。
2 大唐電信大數據平臺及應用解決方案
2.1 解決方案的整體思路
針對以上問題,結合自身在大數據技術領域的深厚實力和多年來積累的行業(yè)應用軟件研發(fā)實施經驗,大唐電信以“平臺+行業(yè)應用”的形式,推出了公司針對政務、社區(qū)、交通、水利、運營商等行業(yè)大數據市場的整體解決方案。該方案以面向多行業(yè)應用的大數據處理分析平臺為基礎,基于該平臺提供的大數據管理與分析能力,并結合各行業(yè)自身的業(yè)務需求,提供面向多個行業(yè)的大數據分析應用,如下圖所示:
2.2 大數據處理分析平臺的功能
大數據處理分析平臺是一個能夠提供支撐大數據存儲、處理與分析、展現、管理能力的基礎平臺,其主要功能包括大數據實時采集和預處理、大數據分布式存儲、大數據高性能應用處理、多模態(tài)(表格、文件、對象及數據流等)數據的綜合管理,高維度檢索和可視化展現,以及大數據行業(yè)分析模型。平臺覆蓋了大數據生命周期中的采集、存儲、計算、挖掘、管理等處理環(huán)節(jié),其具體功能包括:
· 大數據采集:提供從行業(yè)應用系統(tǒng)、數據庫、中間件等外部系統(tǒng)采集數據的服務,或者從大數據平臺中向行業(yè)應用系統(tǒng)共享數據的服務。該功能解決了數據生產系統(tǒng)與大數據系統(tǒng)間的接口與解耦問題,提供大數據平臺與外部系統(tǒng)間關系數據庫型數據源、文件型數據源、事件型數據源等間的數據采集與ETL(抽取,轉換,加載)。
· 大數據存儲:提供分布式的數據存儲服務,包括基于分布式文件系統(tǒng)的存儲服務,以及基于分布式數據庫系統(tǒng)的存儲服務。
· 數據處理與分析:包括批處理、流處理在內的分布式計算框架服務,以及基于計算框架的數據查詢服務、數據分析服務與數據挖掘服務。
· 數據展現與應用:用于對大數據平臺系統(tǒng)內部的數據(特別是結果數據)提供結果展現服務,提供面向行業(yè)應用系統(tǒng)的數據交換服務。
· 數據管理:提供元數據管理以及數據質量管理功能。數據質量管理支持數據質量規(guī)則和數據質量流程的定制能力
· 系統(tǒng)管理:面向大數據集群提供分布式的集群部署管理功能、集群監(jiān)控管理功能、集群服務協作管理功能。
2.3 大數據處理分析平臺的特點
· 靈活、多模態(tài)的大數據采集及管理。通過分布式高速高可靠數據爬取或采集、高速數據全映像等大數據收集技術,可靈活適應多模態(tài)大數據的數據采集及管理。
· 低成本、高性能的大數據存儲。根據不同需求靈活采用HDFS、NoSQL數據庫、內存數據庫等多種存儲技術,實現低成本高性能的大數據分布式存儲。
· 滿足多層次需求的大數據分析與可視化服務。支持全面高效的大數據高維檢索、大數據分析與可視化服務,支持快速靈活的改變海量數據多維分析的維度,支持人工智能AI與機器學習ML算法,能更好地分析和挖掘數據深層面價值。
· 高可用、彈性可擴展的分布式系統(tǒng)部署。不需要昂貴專用存儲、網絡和服務器設備,支持高可用及橫向擴展的分布式系統(tǒng)架構,硬件成本低。
· 良好的可管理性和用戶體驗。將引入的開源軟件作為技術組件,與平臺通過定義良好的接口進行集成,使組件松耦合、可管理、可監(jiān)控、可升級,實現了良好的可管理性和用戶體驗。
3 大唐電信大數據行業(yè)應用案例
基于大數據處理分析平臺所提供的大數據管理與分析能力,大唐電信已研發(fā)了針對政務、社區(qū)、交通、水利、運營商等行業(yè)的大數據應用,并得到了成功推廣。
3.1 互聯網及寬帶測速平臺
互聯網及寬帶測速平臺已在某部級單位完成了應用示范。該系統(tǒng)采用分布式架構,應用層和數據層網狀分布,平臺監(jiān)測點覆蓋中國除臺灣外的所有省和運營商,包括國外主要國家和城市的7個監(jiān)測點,目前400個左右的監(jiān)測點位于系統(tǒng)的分布式末梢,北京數據中心是網狀核心,負責核心數據處理和業(yè)務分析展示。
該平臺網站已經面向公眾開發(fā),目前測速用戶人數超過5萬,平臺涉及到的主機和設備400余臺。在數據量方面,中心平臺主動采集部分數據量1.2T/月,省平臺主動采集部分數據量0.5T/月,被動數據量29G/秒。對于被動采集部分,因數據量太大,基礎數據不保留,保存5分鐘匯總數據3個月,數據庫中放置天粒度以上的分析數據。
3.2 高速公路交通大數據分析平臺
高速公路交通大數據分析平臺已在某省高速公路管理局得到了應用。系統(tǒng)采集與整合高速公路交通路網運營的海量業(yè)務數據,分析高速公路斷面交通量、OD數據、收費、路況、養(yǎng)護、氣象、管控等業(yè)務數據,研究并建立路網調度決策支持模型、狀態(tài)預測類模型、分析影響類模型、輔助決策類模型,開發(fā)路網調度決策系統(tǒng)、道路養(yǎng)護決策系統(tǒng)、機電設備養(yǎng)護決策系統(tǒng)、公眾服務系統(tǒng)等軟件系統(tǒng),構建面向行業(yè)管理和公眾服務的分析應用。
目前系統(tǒng)處理的數據包括微波車檢數據6億條/年、ETC數據1.5億條/年,MTC數據 2億條/年,高速路況數據 10萬條/年,路面、機電養(yǎng)護及其他業(yè)務數據1000萬條/年,視頻、圖像數據80PB/年。預計在未來2~3年內,該軟件平臺存儲、處理的結構化數據量約在2000~3000億條左右,非結構化數據量約在160~240PB左右。
4 結束語
我國政府高度重視大數據產業(yè)的發(fā)展,發(fā)展大數據已成為我國的國家戰(zhàn)略。在這樣的大環(huán)境下,將有越來越多的行業(yè)用戶采用大數據技術作為科學決策的輔助手段。未來,大唐電信將不斷優(yōu)化大數據處理分析平臺的能力,并結合行業(yè)需求推出更多的大數據應用方案,為我國大數據產業(yè)的發(fā)展做出自己的貢獻。