大數(shù)據(jù)學(xué)習(xí)心得
大數(shù)據(jù)學(xué)習(xí)心得
大數(shù)據(jù)中的“大”不是絕對(duì)意義上的大,雖然在大多數(shù)情況下是這個(gè)意思。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。 下面是學(xué)習(xí)啦小編為大家收集整理的大數(shù)據(jù)學(xué)習(xí)心得,歡迎大家閱讀。
大數(shù)據(jù)學(xué)習(xí)心得篇1
大數(shù)據(jù)時(shí)代已經(jīng)悄然到來(lái),如何應(yīng)對(duì)大數(shù)據(jù)時(shí)代帶來(lái)的挑戰(zhàn)與機(jī)遇,是我們當(dāng)代大學(xué)生特別是我們計(jì)算機(jī)類(lèi)專(zhuān)業(yè)的大學(xué)生的一個(gè)必須面對(duì)的嚴(yán)峻課題。大數(shù)據(jù)時(shí)代是我們的一個(gè)黃金時(shí)代,對(duì)我們的意義可以說(shuō)就像是另一個(gè)“80年代”。 在講座中秦永彬博士由一個(gè)電視劇《大太監(jiān)》中情節(jié)來(lái)深入淺出的簡(jiǎn)單介紹了“大數(shù)據(jù)”的基本概念,并由“塔吉特”與“犯罪預(yù)測(cè)”兩個(gè)案例讓我們深切的體會(huì)到了“大數(shù)據(jù)”的對(duì)現(xiàn)今這樣一個(gè)信息時(shí)代的不可替代的巨大作用。
在前幾年本世紀(jì)初的時(shí)候,世界都稱(chēng)本世紀(jì)為“信息世紀(jì)”。確實(shí)在計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展過(guò)后,我們面臨了一個(gè)每天都可以“信息爆炸”的時(shí)代。打開(kāi)電視,打開(kāi)電腦,甚至是在街上打開(kāi)手機(jī)、PDA、平板電腦等等,你都可以接收到來(lái)自互聯(lián)網(wǎng)從世界各地上傳的各類(lèi)信息:數(shù)據(jù)、視頻、圖片、音頻……這樣各類(lèi)大量的數(shù)據(jù)累積之后達(dá)到了引起量變的臨界值,數(shù)據(jù)本身有潛在的價(jià)值,但價(jià)值比較分散;數(shù)據(jù)高速產(chǎn)生,需高速處理。大數(shù)據(jù)意味著包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)模或復(fù)雜程度超出了常用技術(shù)按照合理的成本和時(shí)限捕捉、管理及處理這些數(shù)據(jù)集的能力。遂有了“大數(shù)據(jù)”技術(shù)的應(yīng)運(yùn)而生。
現(xiàn)在,當(dāng)數(shù)據(jù)的積累量足夠大的時(shí)候到來(lái)時(shí),量變引起了質(zhì)變。“大數(shù)據(jù)”通過(guò)對(duì)海量數(shù)據(jù)有針對(duì)性的分析,賦予了互聯(lián)網(wǎng)“智商”,這使得互聯(lián)網(wǎng)的作用,從簡(jiǎn)單的數(shù)據(jù)交流和信息傳遞,上升到基于海量數(shù)據(jù)的分析,一句話(huà)“他開(kāi)始思考了”。簡(jiǎn)言之,大數(shù)據(jù)就是將碎片化的海量數(shù)據(jù)在一定的時(shí)間內(nèi)完成篩選、分析,并整理成為有用的資訊,幫助用戶(hù)完成決策。借助大數(shù)據(jù)企業(yè)的決策者可以迅速感知市場(chǎng)需求變化,從而促使他們作出對(duì)企業(yè)更有利的決策,使得這些企業(yè)擁有更強(qiáng)的創(chuàng)新力和競(jìng)爭(zhēng)力。這是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,對(duì)國(guó)家治理模式、對(duì)企業(yè)的決策、組織和業(yè)務(wù)流程、對(duì)個(gè)人生活方式都將產(chǎn)生巨大的影響。后工業(yè)社會(huì)時(shí)代,隨著新興技術(shù)的發(fā)展與互聯(lián)網(wǎng)底層技術(shù)的革新,數(shù)據(jù)正在呈指數(shù)級(jí)增長(zhǎng),所有數(shù)據(jù)的產(chǎn)生形式,都是數(shù)字化。如何收集、管理和分析海量數(shù)據(jù)對(duì)于企業(yè)從事的一切商業(yè)活動(dòng)都顯得尤為重要。
大數(shù)據(jù)時(shí)代是信息化社會(huì)發(fā)展必然趨勢(shì),我們只有緊緊跟隨時(shí)代發(fā)展的潮流,在技術(shù)上、制度上、價(jià)值觀念上做出迅速調(diào)整并牢牢跟進(jìn),才能在接下來(lái)新一輪的競(jìng)爭(zhēng)中擺脫受制于人的弱勢(shì)境地,才能把握發(fā)展的方向。
首先,“大數(shù)據(jù)”究竟是什么?它有什么用?這是當(dāng)下每個(gè)人初接觸“大數(shù)據(jù)”都會(huì)有的疑問(wèn),而這些疑問(wèn)在秦博士的講座中我們都了解到了。“大數(shù)據(jù)”的“大”不僅是單單純純指數(shù)量上的“大”,而是在諸多方面上闡釋了“大”的含義,是體現(xiàn)在數(shù)據(jù)信息是海量信息,且在動(dòng)態(tài)變化和不斷增長(zhǎng)之上。同時(shí)“大數(shù)據(jù)”在:速度(Velocity)、多樣性(Variety)、價(jià)值密度(Value)、體量(Volume)這四方面(4v)都有體現(xiàn)。其實(shí)“大數(shù)據(jù)”歸根結(jié)底還是數(shù)據(jù),其是一種泛化的數(shù)據(jù)描述形式,有別于以往對(duì)于數(shù)據(jù)信息的表達(dá),大數(shù)據(jù)更多地傾向于表達(dá)網(wǎng)絡(luò)用戶(hù)信息、新聞信息、銀行數(shù)據(jù)信息、社交媒體上的數(shù)據(jù)信息、購(gòu)物網(wǎng)站上的用戶(hù)數(shù)據(jù)信息、規(guī)模超過(guò)TB級(jí)的數(shù)據(jù)信息等。
了解了“大數(shù)據(jù)”的“大”之后我們也該了解它所具有的巨大價(jià)值。就目前來(lái)說(shuō)“大數(shù)據(jù)”的來(lái)源主要還是互聯(lián)網(wǎng),來(lái)自互聯(lián)網(wǎng)上的大多數(shù)不被重視信息都是具有巨大開(kāi)發(fā)價(jià)值的,
其具有巨“大”的商業(yè)價(jià)值,我們所缺少的只是一些數(shù)據(jù)分析等手段。例如:在如今,網(wǎng)購(gòu)已經(jīng)成為了一種風(fēng)潮,網(wǎng)上也涌現(xiàn)了以淘寶、京東、亞馬遜等一系列的購(gòu)物網(wǎng)站。而在這些網(wǎng)站之中,顧客的瀏覽記錄,購(gòu)買(mǎi)記錄等等都是一些巨大商業(yè)價(jià)值的信息。借鑒“塔吉特”的先例,我們可以利用“大數(shù)據(jù)”技術(shù)收集分析,就可預(yù)測(cè)需求、供給和顧客習(xí)慣等,做到精準(zhǔn)采購(gòu)、精準(zhǔn)投放,達(dá)到利益放大的效果。 從全球范圍來(lái)看,很多人都把2012年看做是大數(shù)據(jù)時(shí)代的元年。在這一年里,很多行業(yè)在大數(shù)據(jù)方面的管理、規(guī)劃和應(yīng)用已經(jīng)覺(jué)醒。電商、金融、電信等行業(yè)數(shù)據(jù)有著長(zhǎng)期的數(shù)據(jù)積累。事實(shí)上,很多互聯(lián)網(wǎng)公司,例如亞馬遜、Google、騰訊,更愿意將自己定位為數(shù)據(jù)企業(yè)。因?yàn)樾畔r(shí)代,數(shù)據(jù)成為經(jīng)營(yíng)決策的強(qiáng)有力依據(jù),給企業(yè)帶來(lái)了發(fā)展和引領(lǐng)行業(yè)的機(jī)遇。銀行也同樣擁有豐富的數(shù)據(jù)礦藏,不僅存儲(chǔ)處理了大量結(jié)構(gòu)化的賬務(wù)數(shù)據(jù),而且隨著銀行渠道快速滲透到社交網(wǎng)絡(luò)、移動(dòng)端等媒介,海量的非結(jié)構(gòu)化數(shù)據(jù)也在等待被收集和分析。未來(lái)的金融業(yè)將更多地受到科技創(chuàng)新力的驅(qū)動(dòng),也越來(lái)越傾向于零售營(yíng)銷(xiāo):對(duì)于金融業(yè)來(lái)說(shuō),大數(shù)據(jù)意味著巨大的商機(jī),可強(qiáng)化客戶(hù)體驗(yàn),提高客戶(hù)忠誠(chéng)度。大數(shù)據(jù)技術(shù)的發(fā)展帶來(lái)企業(yè)經(jīng)營(yíng)決策模式的轉(zhuǎn)變,驅(qū)動(dòng)著行業(yè)變革,衍生出新的商機(jī)和發(fā)展契機(jī)。駕馭大數(shù)據(jù)的能力已被證實(shí)為領(lǐng)軍企業(yè)的核心競(jìng)爭(zhēng)力,這種能力能夠幫助企業(yè)打破數(shù)據(jù)邊界,繪制企業(yè)運(yùn)營(yíng)全景視圖,做出最優(yōu)的商業(yè)決策和發(fā)展戰(zhàn)略。金融行業(yè)在大數(shù)據(jù)浪潮中,要以大數(shù)據(jù)平臺(tái)建設(shè)為基礎(chǔ),夯實(shí)大數(shù)據(jù)的收集、存儲(chǔ)、處理能力;重點(diǎn)推進(jìn)大數(shù)據(jù)人才的梯隊(duì)建設(shè),打造專(zhuān)業(yè)、高效、靈活的大數(shù)據(jù)分析團(tuán)隊(duì);不斷提升企業(yè)智商,挖掘海量數(shù)據(jù)的商業(yè)價(jià)值,從而在數(shù)據(jù)新浪潮的變革中拔得頭籌,贏得先機(jī)
在如此快速的到來(lái)的大數(shù)據(jù)革命時(shí)代,我們還有很多知識(shí)需要學(xué)習(xí),許多思維需要轉(zhuǎn)變,許多技術(shù)需要研究。職業(yè)規(guī)劃中,也需充分考慮到大數(shù)據(jù)對(duì)于自身職業(yè)的未來(lái)發(fā)展所帶來(lái)的機(jī)遇和挑戰(zhàn)。當(dāng)我們掌握大量數(shù)據(jù),需要考慮有多少數(shù)字化的數(shù)據(jù),又有哪些可以通過(guò)大數(shù)據(jù)的分析處理而帶來(lái)有價(jià)值的用途?在大數(shù)據(jù)時(shí)代制勝的良藥也許是創(chuàng)新的點(diǎn)子,也許可以利用外部的數(shù)據(jù),通過(guò)多維化、多層面的分析給我們?nèi)蘸髣?chuàng)業(yè)帶來(lái)價(jià)值。借力,順勢(shì),合作共贏。把自己的心門(mén)打開(kāi),像海綿般吸取積極、正能量的東西。
大數(shù)據(jù)學(xué)習(xí)心得篇2
4月13日下午,在湖南大學(xué)東樓205參加了關(guān)于《大數(shù)據(jù)時(shí)代》的讀書(shū)交流活動(dòng)。通過(guò)相互交流學(xué)習(xí),使我更深層次的理解了大數(shù)據(jù)時(shí)代的利與弊,機(jī)遇和挑戰(zhàn)。在寫(xiě)心得體會(huì)前,我想再重新審視一下關(guān)于大數(shù)據(jù)的歷史沿革和現(xiàn)實(shí)意義。
一、大數(shù)據(jù)的歷史沿革及現(xiàn)實(shí)意義
首先,最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的是全球知名咨詢(xún)公司麥肯錫,麥肯錫稱(chēng):“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù) 據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”“大數(shù)據(jù)”在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時(shí)日,卻因?yàn)榻陙?lái)互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。大數(shù)據(jù)作為云計(jì)算、物聯(lián)網(wǎng)之后又IT行業(yè)又一大顛覆性的技術(shù)革命。云計(jì)算主要為數(shù)據(jù)資產(chǎn)提供了保管、訪問(wèn)的場(chǎng)所和渠道,而數(shù)據(jù)才是真正有價(jià)值的資產(chǎn)。企業(yè)內(nèi)部的經(jīng)營(yíng)交易信息、物聯(lián)網(wǎng)世界中的商品物流信息,互聯(lián)網(wǎng)世界中的人與人交互信息、位置信息等,其數(shù)量將遠(yuǎn)遠(yuǎn)超越現(xiàn)有企業(yè)IT架構(gòu)和基礎(chǔ)設(shè)施的承載能力,實(shí)時(shí)性要求也將大大超越現(xiàn)有的計(jì)算能力。如何盤(pán)活這些數(shù)據(jù)資產(chǎn),使其為國(guó)家治理、企業(yè)決策乃至個(gè)人生活服務(wù),是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的升級(jí)方向。
其次,進(jìn)入2012年,大數(shù)據(jù)(big data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。它已經(jīng)上過(guò)《紐約時(shí)報(bào)》《華爾街日?qǐng)?bào)》的專(zhuān)欄封面,進(jìn)入美國(guó)白宮官網(wǎng)的新聞,現(xiàn)身在國(guó)內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺(jué)靈敏的國(guó)金證券、國(guó)泰君安、銀河證券等寫(xiě)進(jìn)了投資推薦報(bào)告。數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來(lái)發(fā)展,雖然很多企業(yè)可能并沒(méi)有意識(shí)到數(shù)據(jù)爆炸性增長(zhǎng)帶來(lái)問(wèn)題的隱患,但是隨著時(shí)間的推移,人們將越來(lái)越多的意識(shí)到數(shù)據(jù)對(duì)企業(yè)的重要性。正如《紐約時(shí)報(bào)》2012年2月的一篇專(zhuān)欄中所稱(chēng),“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗(yàn)和直覺(jué)。哈佛大學(xué)社會(huì)學(xué)教授加里·金說(shuō):“這是一場(chǎng)革命,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程,無(wú)論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開(kāi)始這種進(jìn)程。”
最后,隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Big data)也吸引了越來(lái)越多的關(guān)注。著云臺(tái)的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big data)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運(yùn)營(yíng)中生成、累積的用戶(hù)網(wǎng)絡(luò)行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來(lái)衡量。大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以刻滿(mǎn)1.68億張DVD;發(fā)出的郵件有2940億封之多(相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量);發(fā)出的社區(qū)帖子達(dá)200萬(wàn)個(gè)(相當(dāng)于《時(shí)代》雜志770年的文字量);賣(mài)出的手機(jī)為37.8萬(wàn)臺(tái),高于全球每天出生的嬰兒數(shù)量37.1萬(wàn)……,截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級(jí)別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級(jí)別。國(guó)際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長(zhǎng)為1.2ZB,2011年的數(shù)量更是高達(dá)1.82ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。而到2012年為止,人類(lèi)生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類(lèi)歷史上說(shuō)過(guò)的所有話(huà)的數(shù)據(jù)量大約是5EB。IBM的研究稱(chēng),整個(gè)人類(lèi)文明所獲得的全部數(shù)據(jù)中,有90%是過(guò)去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。
二、讀書(shū)心得體會(huì)
首先,談?wù)劥髷?shù)據(jù)帶給生活的轉(zhuǎn)變。大數(shù)據(jù)已經(jīng)是信息產(chǎn)業(yè)發(fā)展的必然趨勢(shì),可以說(shuō),大數(shù)據(jù)現(xiàn)在已經(jīng)開(kāi)始慢慢滲透入我們的生活,如:現(xiàn)在流行的打車(chē)軟件、三維立體化社區(qū)的建立、某些從事生產(chǎn)銷(xiāo)售的行業(yè)利用大數(shù)據(jù)來(lái)優(yōu)化規(guī)模和實(shí)現(xiàn)利益最大化。而我們很多人對(duì)大數(shù)據(jù)還很陌生,只是被動(dòng)的適應(yīng)著大數(shù)據(jù)給生活帶來(lái)的改變。大數(shù)據(jù)時(shí)代是以云計(jì)算為基礎(chǔ)的,所以,要實(shí)現(xiàn)大數(shù)據(jù),相關(guān)的很多的硬件設(shè)備都要更新?lián)Q代,信息處理系統(tǒng)、信息傳輸系統(tǒng)、信息反饋系統(tǒng)、信息決策系統(tǒng)都將面臨新的挑戰(zhàn),相關(guān)產(chǎn)業(yè)都要重新調(diào)整產(chǎn)業(yè)結(jié)構(gòu),在那時(shí),可以夸張的說(shuō),信息就是黃金,信息就是石油。大數(shù)據(jù)時(shí)代的到來(lái)會(huì)解放更多的勞動(dòng)生產(chǎn)力,勢(shì)必將會(huì)更加加劇生產(chǎn)力過(guò)剩的現(xiàn)狀,社會(huì)兩極分化現(xiàn)象會(huì)更加明顯,掌握不了信息資源,很難再翻身,要防止信息壟斷帶來(lái)的可怕局面。大數(shù)據(jù)時(shí)代的到來(lái)會(huì)使人們的生活節(jié)奏急速加快,信息的時(shí)效性決定了它的流通速率,人們的生活節(jié)奏要跟上信息流通的速率,就不得不加快自己的節(jié)奏,人們會(huì)越來(lái)越忙,到那時(shí),就像現(xiàn)在的日本,可能想找個(gè)人聽(tīng)你說(shuō)說(shuō)話(huà),真的是一件很難的事。
第二,關(guān)于數(shù)據(jù)管理的看法。大數(shù)據(jù)時(shí)代,數(shù)據(jù)管理是一件很重要的工作,如何才能避免自己的數(shù)據(jù)被非法竊取、丟失和被盜?我的看法是,人防、技防、物防一體化。人防,即我們要從思想上牢固樹(shù)立信息安全防范的意識(shí),不主動(dòng)泄露信息,要管理好自己身邊的信息設(shè)備;技防,就是要運(yùn)用軟件來(lái)管理和處理數(shù)據(jù),經(jīng)常檢查更新數(shù)據(jù)庫(kù),定時(shí)查殺電腦病毒,確保電腦狀況安全;物防,就是重要的數(shù)據(jù)一定要備份保留,而且應(yīng)當(dāng)做到備份與原始文件是物理隔離,無(wú)關(guān)的信息應(yīng)當(dāng)及時(shí)刪除,減輕硬盤(pán)的壓力。
三、怎么保護(hù)自己的隱私。隱私,顧名思義,就是不愿意讓別人看到的東西,所以,在大數(shù)據(jù)時(shí)代,更要管理好自己的隱私,以免對(duì)自己和家人造成麻煩和損失。越是隱私的信息,越要遠(yuǎn)離網(wǎng)絡(luò),不要再公開(kāi)的社交網(wǎng)絡(luò)儲(chǔ)存和展示個(gè)人圖片、資料等信息,免得被非法人士采用和竊取。建議還是用紙質(zhì)的日記代替電腦日記,避免信息傳播范圍太大,管理好自己的日記本。研發(fā)一種新的硬件連接器,總是以隨機(jī)碼來(lái)保護(hù)自己真實(shí)IP地址,提高網(wǎng)絡(luò)安全的可靠性,加強(qiáng)對(duì)聯(lián)網(wǎng)信息的管理和保護(hù)。
三、結(jié)論
不論我們情不情愿,大數(shù)據(jù)時(shí)代都會(huì)到來(lái),現(xiàn)實(shí)社會(huì)是我們高喊著走向大數(shù)據(jù)時(shí)代,其實(shí)大數(shù)據(jù)時(shí)代已經(jīng)向我們走來(lái),所以與其被動(dòng)接受,不如主動(dòng)學(xué)習(xí),從中找到自己的出路,成為大數(shù)據(jù)時(shí)代的建設(shè)者和受益者。
大數(shù)據(jù)學(xué)習(xí)心得篇3
奧倫·艾奇奧倫(Oren Etzioni)創(chuàng)立的從文本中挖掘信息的公司ClearForest,已經(jīng)被路透社收購(gòu)。
美國(guó)股市每天成交量高達(dá)70億股,而其中三分二的交易都是由建產(chǎn)在數(shù)學(xué)模型和算法之上的計(jì)算機(jī)程序自動(dòng)完成的。
farecast經(jīng)過(guò)了2003年立項(xiàng),到2008年被收購(gòu)。經(jīng)歷了5年的時(shí)間,數(shù)據(jù)從最早了12000條到2000億條。
大數(shù)據(jù)的平臺(tái)有:谷歌的MAPREDUCE 和開(kāi)源HADOOP平臺(tái)(最初源于雅虎)。NOSQL更優(yōu)先于MYSQL.
大數(shù)據(jù)所用的數(shù)據(jù)記錄單位:拍字節(jié)PB(2的50次方)和艾字節(jié)EB(2的60次方),澤字節(jié)ZB (2的70次方),太字節(jié)TB。1EB=10億GB。1ZB=1024EB
20xx年,所有數(shù)據(jù)中只有7%是存儲(chǔ)在報(bào)紙、書(shū)籍、圖片等媒價(jià)上的模擬數(shù)據(jù),其余全部是數(shù)字?jǐn)?shù)據(jù)。
20xx年世界上存儲(chǔ)的數(shù)據(jù)預(yù)計(jì)能達(dá)到約1.2澤字節(jié),其中非數(shù)字?jǐn)?shù)據(jù)只占不到2%。
人類(lèi)存儲(chǔ)信息量的增長(zhǎng)速度比世界經(jīng)濟(jì)的增長(zhǎng)速度快4倍。而計(jì)算機(jī)數(shù)據(jù)處理能力的增長(zhǎng)速度則比世界經(jīng)濟(jì)的增長(zhǎng)速度快9倍。
大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。在大數(shù)據(jù)時(shí)代,我們不必知道現(xiàn)象背后的原因。
大數(shù)據(jù)的算法從因果關(guān)系向相關(guān)關(guān)紗轉(zhuǎn)化。這也是思維方式的轉(zhuǎn)變。
推薦電影《點(diǎn)球成金》MONEYBALL
大數(shù)據(jù)的三個(gè)思維方式:
1、不要依靠分析少量的數(shù)據(jù)樣本,不要抽樣調(diào)查。要分析與某事物相關(guān)的所有數(shù)據(jù)。
2、不要追求精確性,要樂(lè)于接受紛繁復(fù)雜的數(shù)據(jù)。
3、不要探求難以捉摸的因果關(guān)系,轉(zhuǎn)而關(guān)注事物的相關(guān)關(guān)系。
大數(shù)據(jù)中的“大”不是絕對(duì)意義上的大,雖然在大多數(shù)情況下是這個(gè)意思。大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法。
LYTOR相機(jī)(光場(chǎng)相機(jī))就是對(duì)拍照?qǐng)鼍暗膽?yīng)用。將傳統(tǒng)相機(jī)的拍攝照片的樣本進(jìn)行全收集,成為樣本=總體的應(yīng)用代表。
意外的案例:
如果把一個(gè)在社區(qū)內(nèi)有很多連接關(guān)系的人從社區(qū)關(guān)系網(wǎng)中剔除掉,這個(gè)關(guān)系網(wǎng)會(huì)變得沒(méi)那么高效,但卻不會(huì)解體。但是如果把一個(gè)與所在社區(qū)之外的很多人有著連接關(guān)系的人從這個(gè)關(guān)系網(wǎng)中剔除,整個(gè)關(guān)系網(wǎng)奶快就會(huì)破碎成很多的小塊。節(jié)點(diǎn)的做用。
社交網(wǎng)絡(luò)的多樣性是有額外價(jià)值的。這是一個(gè)人在社會(huì)關(guān)系網(wǎng)中的存在價(jià)值。
互聯(lián)網(wǎng)可以使數(shù)據(jù)達(dá)到精確嗎?只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫(kù)的。如果不接受混亂,剩下的95%的非結(jié)構(gòu)化數(shù)據(jù)都無(wú)法被利用。只有接受不精確性,我們才能打開(kāi)一扇從未涉足的世界的窗戶(hù)。
數(shù)據(jù)與算法那個(gè)更重要呢?簡(jiǎn)單的算法+大數(shù)據(jù),還是復(fù)雜的算法+小數(shù)據(jù)。結(jié)論就是大數(shù)據(jù)比算法智能系統(tǒng)更重要。
大數(shù)據(jù)學(xué)習(xí)心得相關(guān)文章:
1.大數(shù)據(jù)時(shí)代讀書(shū)心得體會(huì)
2.大數(shù)據(jù)讀書(shū)心得體會(huì)
4.復(fù)旦大學(xué)學(xué)習(xí)心得體會(huì)
5.培訓(xùn)學(xué)習(xí)心得體會(huì)(多篇范