大數(shù)據(jù)(big data),是指無法在可承受的時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。
從技術(shù)上看,大數(shù)據(jù)與云計算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無法用單臺的計算機進行處理,必須采用分布式計算架構(gòu)。它的特色在于對海量數(shù)據(jù)的挖掘,但它必須依托云計算的分布式處理、分布式數(shù)據(jù)庫、云存儲和虛擬化技術(shù)。
簡單來說:云計算是硬件資源的虛擬化,而大數(shù)據(jù)是海量數(shù)據(jù)的高效處理。雖然從這個解釋來看也不是完全貼切,但是卻可以幫助對這兩個名字不太明白的人很快理解其區(qū)別。當然,如果解釋更形象一點的話,云計算相當于我們的計算機和操作系統(tǒng),將大量的硬件資源虛擬化后在進行分配使用。
可以說,大數(shù)據(jù)相當于海量數(shù)據(jù)的“數(shù)據(jù)庫”,通觀大數(shù)據(jù)領(lǐng)域的發(fā)展我們也可以看出,當前的大數(shù)據(jù)發(fā)展一直在向著近似于傳統(tǒng)數(shù)據(jù)庫體驗的方向發(fā)展,一句話就是,傳統(tǒng)數(shù)據(jù)庫給大數(shù)據(jù)的發(fā)展提供了足夠大的空間。
大數(shù)據(jù)的總體架構(gòu)包括三層:數(shù)據(jù)存儲,數(shù)據(jù)處理和數(shù)據(jù)分析。數(shù)據(jù)先要通過存儲層存儲下來,然后根據(jù)數(shù)據(jù)需求和目標來建立相應(yīng)的數(shù)據(jù)模型和數(shù)據(jù)分析指標體系對數(shù)據(jù)進行分析產(chǎn)生價值。
而中間的時效性又通過中間數(shù)據(jù)處理層提供的強大的并行計算和分布式計算能力來完成。三者相互配合,這讓大數(shù)據(jù)產(chǎn)生最終價值。
不看現(xiàn)在云計算發(fā)展情況,未來的趨勢是:云計算作為計算資源的底層,支撐著上層的大數(shù)據(jù)處理,而大數(shù)據(jù)的發(fā)展趨勢是,實時交互式的查詢效率和分析能力。