近年來,大數(shù)據(jù)的概念逐漸深入人心,大數(shù)據(jù)的趨勢也越來越盛行。但大數(shù)據(jù)到底是什么?怎樣才能用好大數(shù)據(jù)呢?
大數(shù)據(jù)的基本含義是海量數(shù)據(jù)。麥肯錫全球研究院給出的定義是:規(guī)模如此龐大,其獲取、存儲、管理和分析能力大大超出傳統(tǒng)數(shù)據(jù)庫軟件工具能力的數(shù)據(jù)集合。它有海量的數(shù)據(jù)。它具有四大特點(diǎn):規(guī)模大、數(shù)據(jù)流動快、數(shù)據(jù)類型多樣、價值密度低。
數(shù)字經(jīng)濟(jì)的要素之一是大數(shù)據(jù)資源?,F(xiàn)在大家談?wù)撟疃嗟拇髷?shù)據(jù)就是基于現(xiàn)有大數(shù)據(jù)的應(yīng)用開發(fā)。
如今,大數(shù)據(jù)技術(shù)已經(jīng)應(yīng)用到各行各業(yè)。小麥舉了一個例子,講述了離我們生活最近的民生服務(wù)是如何利用大數(shù)據(jù)的。
近日,電視新聞提到一網(wǎng)統(tǒng)一管理精準(zhǔn)救援場景。傳統(tǒng)的救助方式往往要經(jīng)過困難家庭的申請、審核、審批等多個程序。遇到需要跨部門、跨層級、跨區(qū)塊協(xié)調(diào)解決的案件,還需要召開各級協(xié)調(diào)會議協(xié)商解決。
現(xiàn)在通過精準(zhǔn)幫扶,民政部門在日常排查中了解情況,將相關(guān)信息錄入統(tǒng)一管理數(shù)據(jù)中心,然后根據(jù)數(shù)據(jù)模型識別出需要救助的家庭,然后形成走訪工單并下發(fā)向社會工作者尋求幫助。幫助,從而提高救援效率,在需要時提供幫助。
數(shù)字政府轉(zhuǎn)型前,各部門只掌握自己負(fù)責(zé)的數(shù)據(jù),形成信息孤島;通過大數(shù)據(jù)分析平臺,所有數(shù)據(jù)信息已打通辦公室和省長兩個渠道。
政府可以充分利用大數(shù)據(jù)技術(shù),打造統(tǒng)一網(wǎng)絡(luò),管理精準(zhǔn)救援場景,大大提高社會救助的科學(xué)性和準(zhǔn)確性,讓城市更有溫度。
我們以悟空問答為例,講述一下大數(shù)據(jù)的故事。下面提到的數(shù)字都不是真實(shí)的,它們都是我的假設(shè)。
例如,每天有1億用戶在悟空問答上回答問題或閱讀問答。
每天生成的內(nèi)容假設(shè)平均每天有1000 萬用戶回答一個問題。一題平均1000字,平均一個漢字占2個字節(jié),三張圖片。平均圖片為300KB。那么每天的數(shù)據(jù)量為:
為了收集用戶行為,所有進(jìn)入和退出悟空問答頁面的用戶都被包含在內(nèi)。點(diǎn)擊、查詢、停留、點(diǎn)贊、轉(zhuǎn)發(fā)、收藏都會生成記錄并存儲。這個幅度更大。
所以粗略估計是每天20TB 的數(shù)據(jù)。典型的PC 配置約為1TB,每天需要存儲20 臺PC。
如果是一個月或者一年的數(shù)據(jù),可以計算出多少?傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)在體量上很難實(shí)現(xiàn)。
另外,這些數(shù)據(jù)都是文檔類型的數(shù)據(jù)。需要各種存儲系統(tǒng)的支持,例如NoSQL數(shù)據(jù)庫。
需要分布式數(shù)據(jù)存儲,比如Hadoop的HDFS。
數(shù)據(jù)流。以上1000萬個答案將被1億人閱讀。有數(shù)百個系統(tǒng)提供服務(wù)。這些數(shù)據(jù)需要在互聯(lián)網(wǎng)上的各個系統(tǒng)之間來回傳輸。需要一個像Kafka這樣的消息系統(tǒng)。
高峰時期同時在線用戶數(shù)可能達(dá)到數(shù)千萬。如此大的訪問量需要多臺前端服務(wù)器同時提供一致的服務(wù)。為了給用戶提供秒級的服務(wù)性能,需要添加redis等緩存系統(tǒng)。
機(jī)器學(xué)習(xí)和智能推薦。所有包括圖片在內(nèi)的內(nèi)容都將通過機(jī)器學(xué)習(xí)進(jìn)行分析,以獲取每個用戶的偏好,并向用戶推薦合適的內(nèi)容和廣告。還有如此大量的數(shù)據(jù)必須實(shí)時分析和審查。審核通過后才能發(fā)布。人工審核肯定是不可能的。必須使用機(jī)器進(jìn)行智能分析,這需要模式識別、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。實(shí)時計算需要Spark、Flink等流式計算技術(shù)。
服務(wù)器管理涉及數(shù)千臺服務(wù)器一起工作。經(jīng)常出現(xiàn)網(wǎng)絡(luò)和硬件問題。如此多的資源的有效利用需要借助云計算技術(shù)、K8S等容器管理工具。還需要分布式系統(tǒng)可靠性和災(zāi)難恢復(fù)技術(shù)。