什么是大數(shù)據(jù)有什么特征與性質(zhì)
什么是大數(shù)據(jù)有什么特征與性質(zhì)
大數(shù)據(jù)必然無法用單臺的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。大數(shù)據(jù)也是具備有一定的特征與性質(zhì)的。以下是由學(xué)習(xí)啦小編整理的大數(shù)據(jù)的內(nèi)容,希望大家喜歡!
大數(shù)據(jù)的主要介紹
大數(shù)據(jù)(big data),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn),
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)、Veracity(真實(shí)性)。
大數(shù)據(jù)的特征
容量(Volume):數(shù)據(jù)的大小決定所考慮的數(shù)據(jù)的價值和潛在的信息;
種類(Variety):數(shù)據(jù)類型的多樣性;
速度(Velocity):指獲得數(shù)據(jù)的速度;
可變性(Variability):妨礙了處理和有效地管理數(shù)據(jù)的過程。
真實(shí)性(Veracity):數(shù)據(jù)的質(zhì)量
復(fù)雜性(Complexity):數(shù)據(jù)量巨大,來源多渠道
價值(value):合理運(yùn)用大數(shù)據(jù),以低成本創(chuàng)造高價值
大數(shù)據(jù)的意義
現(xiàn)在的社會是一個高速發(fā)展的社會,科技發(fā)達(dá),信息流通,人們之間的交流越來越密切,生活也越來越方便,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。[7] 阿里巴巴創(chuàng)辦人馬云來臺演講中就提到,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology數(shù)據(jù)科技,顯示大數(shù)據(jù)對于阿里巴巴集團(tuán)來說舉足輕重。
有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價值含量、挖掘成本比數(shù)量更為重要。對于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)是贏得競爭的關(guān)鍵。
大數(shù)據(jù)的價值體現(xiàn)在以下幾個方面:
1)對大量消費(fèi)者提供產(chǎn)品或服務(wù)的企業(yè)可以利用大數(shù)據(jù)進(jìn)行精準(zhǔn)營銷
2) 做小而美模式的中小微企業(yè)可以利用大數(shù)據(jù)做服務(wù)轉(zhuǎn)型
3) 面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)需要與時俱進(jìn)充分利用大數(shù)據(jù)的價值
不過,“大數(shù)據(jù)”在經(jīng)濟(jì)發(fā)展中的巨大意義并不代表其能取代一切對于社會問題的理性思考,科學(xué)發(fā)展的邏輯不能被湮沒在海量數(shù)據(jù)中。著名經(jīng)濟(jì)學(xué)家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌于資料之無益累積,以致對問題之說明與解決,喪失了其對特殊的經(jīng)濟(jì)意義的了解。”這確實(shí)是需要警惕的。
在這個快速發(fā)展的智能硬件時代,困擾應(yīng)用開發(fā)者的一個重要問題就是如何在功率、覆蓋范圍、傳輸速率和成本之間找到那個微妙的平衡點(diǎn)。企業(yè)組織利用相關(guān)數(shù)據(jù)和分析可以幫助它們降低成本、提高效率、開發(fā)新產(chǎn)品、做出更明智的業(yè)務(wù)決策等等。例如,通過結(jié)合大數(shù)據(jù)和高性能的分析,下面這些對企業(yè)有益的情況都可能會發(fā)生:
1)及時解析故障、問題和缺陷的根源,每年可能為企業(yè)節(jié)省數(shù)十億美元。
2)為成千上萬的快遞車輛規(guī)劃實(shí)時交通路線,躲避擁堵。
3)分析所有SKU,以利潤最大化為目標(biāo)來定價和清理庫存。
4)根據(jù)客戶的購買習(xí)慣,為其推送他可能感興趣的優(yōu)惠信息。
5)從大量客戶中快速識別出金牌客戶。
6)使用點(diǎn)擊流分析和數(shù)據(jù)挖掘來規(guī)避欺詐行為。
大數(shù)據(jù)的結(jié)構(gòu)
大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數(shù)據(jù)開始容易被利用起來了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會逐步為人類創(chuàng)造更多的價值。
其次,想要系統(tǒng)的認(rèn)知大數(shù)據(jù),必須要全面而細(xì)致的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。在這里從大數(shù)據(jù)的特征定義理解行業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在;洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。
第二層面是技術(shù),技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進(jìn)的基石。在這里分別從云計(jì)算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程。
第三層面是實(shí)踐,實(shí)踐是大數(shù)據(jù)的最終價值體現(xiàn)。在這里分別從互聯(lián)網(wǎng)的大數(shù)據(jù),政府的大數(shù)據(jù),企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
大數(shù)據(jù)的應(yīng)用
洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測犯罪的發(fā)生。
google流感趨勢(Google Flu Trends)利用搜索關(guān)鍵詞預(yù)測禽流感的散布。
統(tǒng)計(jì)學(xué)家內(nèi)特.西爾弗(Nate Silver)利用大數(shù)據(jù)預(yù)測2012美國選舉結(jié)果。
麻省理工學(xué)院利用手機(jī)定位數(shù)據(jù)和交通數(shù)據(jù)建立城市規(guī)劃。
梅西百貨的實(shí)時定價機(jī)制。根據(jù)需求和庫存的情況,該公司基于SAS的系統(tǒng)對多達(dá)7300萬種貨品進(jìn)行實(shí)時調(diào)價。
醫(yī)療行業(yè)早就遇到了海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的挑戰(zhàn),而近年來很多國家都在積極推進(jìn)醫(yī)療信息化發(fā)展,這使得很多醫(yī)療機(jī)構(gòu)有資金來做大數(shù)據(jù)分析。
大數(shù)據(jù)的主要特點(diǎn)
第一,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別。
第二,數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。
第三,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
看過“大數(shù)據(jù)是什么“的人還看了: