引言:世上本沒有大數(shù)據(jù)。數(shù)據(jù)越來越多了,也就有了大數(shù)據(jù)。
█ 1980-2000:早期探索階段
1980年,美國科技記者阿爾文·托夫勒(Alvin Toffler)出版了自己的著作——《第三次浪潮(The third wave)》。
在書中,阿爾文·托夫勒對人類的文明發(fā)展史進(jìn)行了大膽的斷代。他認(rèn)為,人類歷史上一共經(jīng)歷了兩次文明浪潮的洗禮:第一次是耗時(shí)數(shù)千年的農(nóng)業(yè)文明革命,第二次是18世紀(jì)60年代開始的工業(yè)文明革命。
他進(jìn)而提出,隨著信息技術(shù)的發(fā)展,人類將要迎來第三次浪潮,也就是信息化革命。在這次浪潮中,“工業(yè)主義滅亡,新文明崛起”。
阿爾文·托夫勒的觀點(diǎn),在當(dāng)時(shí)引起了極大的震撼,影響非常深遠(yuǎn)。這本書出版后,被翻譯成三十多種文字,發(fā)行量超過一千萬冊,是史上發(fā)行量最大的未來學(xué)書籍。他本人,也被世人稱為現(xiàn)代最有影響力的“未來學(xué)家”之一。
那么,阿爾文·托夫勒與《第三次浪潮》,和本文主題——大數(shù)據(jù),有什么關(guān)系呢?
關(guān)系很大。因?yàn)?,大?shù)據(jù)這個(gè)概念首次出現(xiàn),就是在《第三次浪潮》中。
阿爾文·托夫勒在書中提出了很多大膽的預(yù)言。而大數(shù)據(jù),就是其中之一(其它還包括跨國公司、無紙化辦公、產(chǎn)消合一等)。他非??隙ǖ刂赋?,“數(shù)據(jù)就是財(cái)富”。而大數(shù)據(jù)(Big Data),將是“第三次浪潮的華彩樂章”。
阿爾文·托夫勒對數(shù)據(jù)價(jià)值的認(rèn)知,確實(shí)是非常超前的。要知道,那時(shí)候才1980年,PC剛剛出現(xiàn),硬盤仍處于MB級,人類的數(shù)據(jù)規(guī)模并不算大。風(fēng)起云涌的信息技術(shù)浪潮正在起步,而阿爾文·托夫勒卻已經(jīng)看到了未來。
進(jìn)入90年代后,隨著互聯(lián)網(wǎng)的誕生和爆發(fā),信息革命進(jìn)入了全新的階段。越來越多的人開始購買計(jì)算機(jī),訪問互聯(lián)網(wǎng)。也有越來越多的科研機(jī)構(gòu)和企業(yè)開始上線IT系統(tǒng),推動(dòng)自身的信息化轉(zhuǎn)型。
隨著信息化的逐漸深入,人們開始發(fā)現(xiàn),研究、生產(chǎn)和業(yè)務(wù)環(huán)節(jié)產(chǎn)生的數(shù)據(jù)越來越多,逐漸對IT系統(tǒng)形成了壓力。
90年代中期,諾貝爾獎(jiǎng)獲得者吉姆·格雷(Jim Gray)指出:大數(shù)據(jù)的挑戰(zhàn)將會(huì)首先來自科學(xué),而非商業(yè)。
1997年10月,在IEEE會(huì)議上,美國宇航局(NASA)研究員邁克爾·考克斯(Michael Cox)和戴維·埃爾斯沃斯(David Ellsworth)發(fā)表論文提到:在模擬飛機(jī)周圍的氣流的過程中,產(chǎn)生了極為龐大的數(shù)據(jù)集,給主存儲(chǔ)器、本地磁盤和遠(yuǎn)程磁盤帶來了巨大負(fù)擔(dān)。
他們將這個(gè)問題,稱之為“大數(shù)據(jù)問題”。
無獨(dú)有偶,1998年,美國高性能計(jì)算公司SGI的首席科學(xué)家約翰·馬西(John Mashey),在一個(gè)國際會(huì)議上發(fā)表了題為“大數(shù)據(jù)與下一波計(jì)算浪潮(Big Data and the Next Wave of Computing)”的演講,也提到了類似問題。
約翰·馬西指出:隨著數(shù)據(jù)量的快速增長,必將出現(xiàn)數(shù)據(jù)難理解、難獲取、難處理和難組織等四個(gè)難題。他同樣采用了“大數(shù)據(jù)”這一概念,來描述這些挑戰(zhàn),引起了業(yè)界的廣泛關(guān)注。
數(shù)據(jù)的規(guī)模在不斷膨脹,人類的存儲(chǔ)技術(shù)和計(jì)算技術(shù)已然跟不上數(shù)據(jù)增長的步伐。業(yè)界意識(shí)到,數(shù)據(jù)的價(jià)值是無法估量的,而我們必須擁有更強(qiáng)大的技術(shù),去挖掘數(shù)據(jù)中的這些價(jià)值。
█?2000-2012:全面爆發(fā)階段
到了21世紀(jì),圍繞大數(shù)據(jù)的理論探討仍在繼續(xù)。
2001年,麥塔集團(tuán)(META Group,后被Gartner收購)的分析師道格·蘭尼(Doug Laney)將大數(shù)據(jù)定義為三個(gè)以“V”開頭的單詞,即:Volume(體量大)、Velocity(速度快)和Variety(種類多)。
“3V”理論后來被廣泛接受,并成為描述大數(shù)據(jù)特征的標(biāo)準(zhǔn)。再后來,在“3V”的基礎(chǔ)上,業(yè)界又演變出了“4V”、“5V”,甚至“7V”,包括:Veracity(真實(shí)性)、Value(價(jià)值密度)、Variability(變異性)、Visualization(可視性)等。
2002年,在經(jīng)歷了“911”襲擊之后,美國政府曾計(jì)劃整合現(xiàn)有政府的數(shù)據(jù)集,組建一個(gè)用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識(shí)別可疑人的大數(shù)據(jù)庫。
雖然后來美國政府停止了這一項(xiàng)目(涉嫌侵犯公民隱私),但這算是人類大數(shù)據(jù)系統(tǒng)建設(shè)的一次早期嘗試。
21世紀(jì)初期,互聯(lián)網(wǎng)已經(jīng)形成非常龐大的規(guī)模。社交網(wǎng)絡(luò)的崛起、電子商務(wù)的普及、社會(huì)政府和企業(yè)的信息化升級……各式各樣的互聯(lián)網(wǎng)行為,產(chǎn)生了更多的數(shù)據(jù),這使得海量數(shù)據(jù)的存儲(chǔ)和管理變得更具挑戰(zhàn)。
2003年至2006年,搜索引擎公司谷歌(Google)接連發(fā)布了三篇重量級論文,推出了GFS、MapReduce、BigTable,開創(chuàng)了大數(shù)據(jù)時(shí)代的新紀(jì)元。
2006年,雅虎工程師道卡廷(Doug Cutting)根據(jù)Google的論文,開發(fā)了后來大名鼎鼎的大數(shù)據(jù)框架系統(tǒng)——Hadoop。
大數(shù)據(jù)的技術(shù)根基,算是初步完成了。這為后來大數(shù)據(jù)技術(shù)和應(yīng)用的騰飛,創(chuàng)造了必要條件。
再后來,大數(shù)據(jù)終于進(jìn)入了發(fā)展的快車道。越來越多的政府和企業(yè),開始加大對大數(shù)據(jù)的研究和投入,也初步建立起一些大數(shù)據(jù)系統(tǒng)。
2009年1月,印度政府宣稱,將建立印度唯一的身份識(shí)別管理局,對12億人的指紋、照片和虹膜進(jìn)行掃描,并為每人分配數(shù)字ID號碼,將數(shù)據(jù)匯集到世界最大的生物識(shí)別數(shù)據(jù)庫中。
2009年5月,美國奧巴馬政府正式推出了聯(lián)邦數(shù)據(jù)和國家資源庫網(wǎng)站(Data.gov)。這個(gè)網(wǎng)站是美國“開放政府”承諾的關(guān)鍵部分。它按照原始數(shù)據(jù)、地理數(shù)據(jù)和數(shù)據(jù)工具三個(gè)門類,開放了數(shù)十萬項(xiàng)數(shù)據(jù),涵蓋了農(nóng)業(yè)、氣象、金融、就業(yè)等大約50個(gè)門類(截止2012年)。
后來,美國政府還和印度政府合作,搞了個(gè)開源政府平臺(tái),把Data.gov給開源了。
在大數(shù)據(jù)系統(tǒng)建設(shè)上,聯(lián)合國也有動(dòng)作。
同樣是2009年,為了應(yīng)對全球金融危機(jī),時(shí)任聯(lián)合國秘書長潘基文提出創(chuàng)建警報(bào)系統(tǒng),分析“實(shí)時(shí)數(shù)據(jù)帶給貧窮國家經(jīng)濟(jì)危機(jī)的影響” 。聯(lián)合國還成立了項(xiàng)目,研究了如何利用手機(jī)和社交網(wǎng)站的數(shù)據(jù)源來分析預(yù)測市場價(jià)格以及傳染病。
在商業(yè)領(lǐng)域,包括沃爾瑪?shù)却蠊?,也開始研究建立大數(shù)據(jù)系統(tǒng),幫助商業(yè)營銷和推廣。
同一時(shí)期,學(xué)術(shù)界對大數(shù)據(jù)的研究又進(jìn)入了新的高度。
2008年,計(jì)算社區(qū)聯(lián)盟(Computing Community Consortium)發(fā)表白皮書《大數(shù)據(jù)計(jì)算:在商務(wù)、科學(xué)和社會(huì)領(lǐng)域創(chuàng)建革命性突破》,詳盡闡述了大數(shù)據(jù)對社會(huì)治理的推動(dòng)作用,及其潛在的商業(yè)價(jià)值。圍繞大數(shù)據(jù)的討論,開始全面升溫。
2010年,肯尼斯·庫克耶(Kenneth Cukier)在《經(jīng)濟(jì)學(xué)人》上發(fā)表了長達(dá)14頁的大數(shù)據(jù)專題報(bào)告《數(shù)據(jù), 無所不在的數(shù)據(jù)(Data, data everywhere)》,對大數(shù)據(jù)時(shí)代趨勢提出了深刻洞見。
他表示:“世界上有著無法想象的巨量數(shù)字信息,并以極快的速度增長。從經(jīng)濟(jì)界到科學(xué)界,從政府部門到藝術(shù)領(lǐng)域,很多方面都已經(jīng)感受到了這種巨量信息的影響?!?/p>
2011年5月,全球知名咨詢公司麥肯錫發(fā)布了一份報(bào)告——《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)新領(lǐng)域(Big data: The next frontier for innovation, competition and productivity)》。
報(bào)告指出:“大數(shù)據(jù)已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!?/p>
2012年,維克托·邁爾·舍恩伯格(Viktor Mayer-Sch?nberger)及肯尼斯·庫克耶(前面提到的那位)合著的《大數(shù)據(jù)時(shí)代》一書出版,將大數(shù)據(jù)這個(gè)概念推向了高潮。
《大數(shù)據(jù)時(shí)代》被認(rèn)為是全球大數(shù)據(jù)系統(tǒng)研究的先河之作,在社會(huì)上形成了非常大的影響力。這本書是國內(nèi)很多人了解大數(shù)據(jù)的第一本讀物。
作者在書中明確指出:“大數(shù)據(jù)帶來的信息風(fēng)暴正在變革人類的生活、工作和思維,并將引領(lǐng)整個(gè)時(shí)代的思維變革、商業(yè)變革和管理變革?!?/p>
同樣是2012年,世界經(jīng)濟(jì)論壇指出:“數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣和黃金一樣”。這無疑將大數(shù)據(jù)的價(jià)值推到了前所未有的高度層面上。
從那時(shí)起,大數(shù)據(jù)逐漸成為家喻戶曉的概念,并在各行各業(yè)快速普及。
█ 2012-現(xiàn)在:升級和轉(zhuǎn)折階段
最近的十幾年,大數(shù)據(jù)技術(shù)的聲浪似乎越來越小。這并不是因?yàn)榇髷?shù)據(jù)不再重要,而是因?yàn)檫@項(xiàng)技術(shù)已經(jīng)走出了當(dāng)年的炒作和喧囂,逐漸進(jìn)入了平穩(wěn)發(fā)展期。
在政府治理、科學(xué)研究以及商業(yè)經(jīng)營領(lǐng)域,大數(shù)據(jù)技術(shù)“潤物細(xì)無聲”,默默發(fā)揮著重要的作用。它不僅改變了我們處理和分析信息的方式,也為決策分析提供了重要的參考依據(jù)。
大數(shù)據(jù)相關(guān)的技術(shù),在這一階段發(fā)生了一些變化。
例如,UC伯克利AMP實(shí)驗(yàn)室開發(fā)的Spark,支持內(nèi)存計(jì)算,性能遠(yuǎn)超MapReduce,逐漸成為行業(yè)新寵。
再例如,HBase、Cassandra等NoSQL(非關(guān)系型)數(shù)據(jù)庫系統(tǒng)蓬勃發(fā)展,支持大規(guī)模數(shù)據(jù)存儲(chǔ)和訪問。NewSQL數(shù)據(jù)庫的出現(xiàn),結(jié)合了SQL(傳統(tǒng)關(guān)系型)和NoSQL的優(yōu)勢,適用于需要處理大規(guī)模數(shù)據(jù)和高并發(fā)訪問的場景,也受到了業(yè)界的追捧。
數(shù)據(jù)倉庫、數(shù)據(jù)湖、湖倉一體的概念不斷演進(jìn),圍繞數(shù)據(jù)生產(chǎn)、數(shù)據(jù)聚合、數(shù)據(jù)分析和數(shù)據(jù)消費(fèi)的整套大數(shù)據(jù)技術(shù)體系,變得越來越強(qiáng)大、完善。
更值得一提的是,AI人工智能的崛起,讓數(shù)據(jù)的價(jià)值再次爆發(fā)。
大數(shù)據(jù)為人工智能提供了豐富的數(shù)據(jù)資源,而人工智能則通過先進(jìn)的算法和技術(shù)從大數(shù)據(jù)中提取價(jià)值。作為AI三要素之一,數(shù)據(jù)(集)的質(zhì)量,直接影響到AIGC大模型的能力表現(xiàn)。整個(gè)社會(huì)對數(shù)據(jù)的重視程度,進(jìn)一步提升。
在應(yīng)用大數(shù)據(jù)的過程中,人們也在想辦法解決大數(shù)據(jù)所帶來的挑戰(zhàn)。
其中最主要的挑戰(zhàn),當(dāng)然是隱私問題。
2014年5月,美國白宮發(fā)布了研究報(bào)告《大數(shù)據(jù):抓住機(jī)遇、守護(hù)價(jià)值》。報(bào)告鼓勵(lì)使用數(shù)據(jù)以推動(dòng)社會(huì)進(jìn)步,但也提出:需要相應(yīng)的框架、結(jié)構(gòu)與研究,來保護(hù)個(gè)人隱私,確保公平、防止歧視。
2018年5月25日,歐盟出臺(tái)了《通用數(shù)據(jù)保護(hù)條例》(General Data Protection Regulation,簡稱GDPR),是全球數(shù)據(jù)隱私保護(hù)的一個(gè)里程碑事件。繼該條例之后,世界上許多國家都頒布了自己的數(shù)據(jù)保護(hù)立法。
█ 最后的話
好了,以上就是今天文章的全部內(nèi)容。
四十多年的時(shí)間,大數(shù)據(jù)從無到有,從弱到強(qiáng),已經(jīng)充分證明了自己的價(jià)值,成為數(shù)字社會(huì)的重要組成部分。
未來,隨著數(shù)字技術(shù)的不斷進(jìn)步,尤其是人工智能的不斷發(fā)展,大數(shù)據(jù)的應(yīng)用將更加廣泛和深入,為各行業(yè)帶來更多機(jī)遇和挑戰(zhàn)。
真正的數(shù)據(jù)白金時(shí)代,正在加速向我們走來。
參考文獻(xiàn):
1、《他預(yù)見了第三次浪潮,還發(fā)明了“大數(shù)據(jù)”這個(gè)詞》,吳曉波頻道;;2、《大數(shù)據(jù)的崛起:從數(shù)據(jù)積累到智能決策的變革》,新報(bào)觀察;3、《大數(shù)據(jù)發(fā)展現(xiàn)狀與未來趨勢》,梅宏;4、《美國大數(shù)據(jù)研究與應(yīng)用》,胡經(jīng)國;5、百度百科、維基百科等。