在數(shù)據(jù)分析中,數(shù)據(jù)收集是必不可少的。數(shù)據(jù)收集就是借助數(shù)據(jù)分析工具,采用一定的收集方法,收集想要用于后續(xù)數(shù)據(jù)分析和數(shù)據(jù)挖掘的數(shù)據(jù)信息。因此,數(shù)據(jù)收集也是數(shù)據(jù)分析的基礎(chǔ)和上限。例如,某運動APP想要為某類用戶開發(fā)訓練課程,需要收集這些用戶的訓練需求傾向、習慣訓練強度、訓練時長等數(shù)據(jù)。
數(shù)據(jù)采集來源主要有六類,即設(shè)備端數(shù)據(jù)、開放數(shù)據(jù)、其他平臺數(shù)據(jù)、物理數(shù)據(jù)、主觀數(shù)據(jù)和數(shù)據(jù)庫數(shù)據(jù)。數(shù)據(jù)采集方式主要分為四種,即人工方式、條碼方式、RFID方式和數(shù)據(jù)分析工具錄入。
(1)手動法
手動方式是通過按鍵盤手動采集數(shù)據(jù)。人工采集的優(yōu)點是成本較低,缺點是人工采集誤差較大,采集到的數(shù)據(jù)質(zhì)量不高。
(2)條碼法
條碼方式是通過條碼掃描輸入數(shù)據(jù)。條形碼方法的優(yōu)點是系統(tǒng)開發(fā)難度較小。缺點是當條碼標簽損壞或丟失時,掃描儀將無法識別數(shù)據(jù)或出現(xiàn)無法錄入數(shù)據(jù)的問題,導致數(shù)據(jù)無法正常錄入。此外,使用掃描儀輸入數(shù)據(jù)也存在限制。例如,需要操作員輸入數(shù)據(jù),掃描儀也有一定的掃描范圍限制。這些因素都會影響采集的效率和質(zhì)量。常用于零件打標工作,方便手工操作。
(3) RFID方式
RFID方法可以支持不同信息的重復錄入。優(yōu)點是輸入目標不需要像條碼方式那樣受到掃描儀范圍的限制。只要標簽在功率范圍內(nèi),就可以被識別并輸入。這種方法的成本比較大,對軟硬件的要求會比較高,難度也比較大。這種采集方式主要用于數(shù)據(jù)精度要求較高的地方。
(4)數(shù)據(jù)分析工具入口
現(xiàn)在很多企業(yè)都會選擇數(shù)據(jù)分析工具來進行數(shù)據(jù)錄入。選擇合適的數(shù)據(jù)分析工具進行數(shù)據(jù)錄入確實會事半功倍。比如Smartbi,除了在數(shù)據(jù)分析、數(shù)據(jù)可視化方面有很大的優(yōu)勢外,在數(shù)據(jù)采集方面也非常強大。它具有豐富的數(shù)據(jù)源,支持多種數(shù)據(jù)源的錄入,適用性非常強大。不僅支持Oracle等常用的關(guān)系型數(shù)據(jù)庫,還支持多維數(shù)據(jù)庫以及各種主流大數(shù)據(jù)等數(shù)據(jù)源。