大數(shù)據(jù)的概念范疇。大數(shù)據(jù)是指使用常規(guī)軟件工具無法在一定時間范圍內(nèi)捕獲、管理和處理的數(shù)據(jù)集合。它需要新的處理模型具有更強的決策和洞察發(fā)現(xiàn)能力。海量、高增長、多元化的信息資產(chǎn)的流程優(yōu)化能力。麥肯錫全球研究院給出的定義是:規(guī)模如此龐大,其獲取、存儲、管理和分析能力大大超出傳統(tǒng)數(shù)據(jù)庫軟件工具能力的數(shù)據(jù)集合。它具有數(shù)據(jù)規(guī)模海量、數(shù)據(jù)流動快速、多樣化、數(shù)據(jù)類型低、價值密度低四個特點。
大數(shù)據(jù)的5V特征。在Victor Meyer-Schonberg和Kenneth Cukier撰寫的《大數(shù)據(jù)時代》中,大數(shù)據(jù)是指利用所有數(shù)據(jù),而不是隨機分析(抽樣調(diào)查)等捷徑。分析和處理。大數(shù)據(jù)的5V特征(IBM提出):Volume、Velocity、Variety、Value、Veracity。
具體來說,數(shù)據(jù)量:數(shù)據(jù)的大小決定了所考慮數(shù)據(jù)的價值和潛在信息。多樣性:數(shù)據(jù)類型的多樣性。速度:指獲取數(shù)據(jù)的速度??勺冃裕╒ariability):阻礙了處理和有效管理數(shù)據(jù)的過程。準確性:數(shù)據(jù)的質(zhì)量。復雜性:數(shù)據(jù)量巨大且來源眾多。價值:合理利用大數(shù)據(jù),以低成本創(chuàng)造高價值。
從技術(shù)角度來看,大數(shù)據(jù)和云計算的關(guān)系就像同一枚硬幣的兩面密不可分。大數(shù)據(jù)無法由單臺計算機處理,必須采用分布式架構(gòu)。其特點在于海量數(shù)據(jù)的分布式數(shù)據(jù)挖掘。但必須依賴分布式處理、分布式數(shù)據(jù)庫和云存儲、云計算的虛擬化技術(shù)。
隨著云時代的到來,大數(shù)據(jù)(Big data)也越來越受到人們的關(guān)注。分析師團隊認為,大數(shù)據(jù)通常用來描述公司創(chuàng)建的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)下載到關(guān)系數(shù)據(jù)庫進行分析需要花費太多時間和金錢。大數(shù)據(jù)分析通常與云計算聯(lián)系在一起,因為大型數(shù)據(jù)集的實時分析需要MapReduce 等框架將工作分配給數(shù)十、數(shù)百甚至數(shù)千臺計算機。
大數(shù)據(jù)需要特殊的技術(shù)來在可容忍的時間內(nèi)有效地處理大量數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù)包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展存儲系統(tǒng)。
大數(shù)據(jù)有多大?要理解大數(shù)據(jù)的概念,首先要從大開始。大是指數(shù)據(jù)的規(guī)模。大數(shù)據(jù)一般是指10TB(1TB=1024GB)以上的數(shù)據(jù)量。大數(shù)據(jù)不同于過去的海量數(shù)據(jù)。其基本特征可以用四個V(Vol-ume、Variety、Value、Velocity)來概括,即體量大、多樣性、價值密度低、速度快。
四大特點:
首先,數(shù)據(jù)量巨大。從TB級到PB級。
其次,數(shù)據(jù)的種類很多,比如前面提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等。
三是價值密度低。以視頻為例,在連續(xù)不間斷的監(jiān)控過程中,潛在有用的數(shù)據(jù)只有一兩秒。
四是處理速度快。 1秒規(guī)則。最后一點也與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著根本的不同。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng),手機、平板電腦、PC、遍布地球各個角落的各種傳感器,都是數(shù)據(jù)源或者承載方式。
大數(shù)據(jù)的價值大數(shù)據(jù)技術(shù)是指從各類海量數(shù)據(jù)中快速獲取有價值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。現(xiàn)在的大數(shù)據(jù)一詞不僅指數(shù)據(jù)本身的規(guī)模,還指用于收集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)的目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應用于相關(guān)領(lǐng)域,通過解決海量數(shù)據(jù)處理問題推動其突破性發(fā)展。因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理海量數(shù)據(jù)以獲得有價值的信息,還體現(xiàn)在如何加強大數(shù)據(jù)技術(shù)的研發(fā),搶占信息技術(shù)發(fā)展的前沿。時代。