3、大數(shù)據(jù)的爭(zhēng)論
對(duì)于“大數(shù)據(jù)”,不僅僅有多種不同的定義,更有各種各樣不同的認(rèn)知和看法,爭(zhēng)論頗多。下面列出部分,供參考。
“數(shù)”中自有黃金屋? 大數(shù)據(jù),大影響
那一個(gè)個(gè)關(guān)于大數(shù)據(jù)的傳奇故事,一樁樁爭(zhēng)奪大數(shù)據(jù)制高點(diǎn)而展開(kāi)的并購(gòu)案,一個(gè)接一個(gè)輪流發(fā)布大數(shù)據(jù)戰(zhàn)略的IT廠商,還有那一場(chǎng)場(chǎng)以大數(shù)據(jù)為主題的各種研討會(huì),無(wú)一不在宣告,IT界又迎來(lái)了新的興奮點(diǎn)、新的機(jī)遇,同時(shí),也是新的挑戰(zhàn)。
但是大數(shù)據(jù)并非單指數(shù)據(jù)量之大。對(duì)于大數(shù)據(jù),IDC的定義是:“為了更經(jīng)濟(jì)地從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù)?!比藗兤毡閷⒃摱x概括為四個(gè)V,即更大的容量(Volume,從TB級(jí)躍升至PB級(jí),甚至EB級(jí))、更高的多樣性(Variety,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)),以及更快的生成速度(Velocity)。前面三個(gè)“V”的組合推動(dòng)了第四個(gè)因素——價(jià)值(Value)。
(單位:百萬(wàn)美元)
麥肯錫全球研究機(jī)構(gòu)在2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》中表示,充分利用大數(shù)據(jù)可幫助全球個(gè)人定位服務(wù)提供商增加1000億美元收入、幫助歐洲公共部門(mén)的管理每年提升2500億美元產(chǎn)值、幫助美國(guó)醫(yī)療保健行業(yè)每年提升3000億美元產(chǎn)值,并可幫助美國(guó)零售業(yè)獲得 60%以上的凈利潤(rùn)增長(zhǎng)。
在今年年初的瑞士達(dá)沃斯論壇上,一份題為《大數(shù)據(jù),大影響》(Big Data,Big Impact)的報(bào)告宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。
而《華爾街日?qǐng)?bào)》在文章《科技變革即將引領(lǐng)新的經(jīng)濟(jì)繁榮》中更是大膽預(yù)測(cè):“我們?cè)俅翁幱谌龍?chǎng)宏大技術(shù)變革的開(kāi)端,他們可能足以匹敵20世紀(jì)的那場(chǎng)變革,這三場(chǎng)變革的震中都在美國(guó),他們分別是大數(shù)據(jù)、智能制造和無(wú)線網(wǎng)絡(luò)革命?!?
更加值得關(guān)注的則是,美國(guó)已經(jīng)把大數(shù)據(jù)上升到了國(guó)家戰(zhàn)略的層面。根據(jù)美國(guó)白宮2012年3月29日新聞,奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,希望增強(qiáng)收集海量數(shù)據(jù)、分析萃取信息的能力。
在我國(guó),大數(shù)據(jù)作為一個(gè)較新的概念,目前尚未直接以專有名詞被我國(guó)政府提出來(lái)給予政策支持。不過(guò),在工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,信息處理技術(shù)作為四項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一已經(jīng)被提出來(lái),其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外三項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與大數(shù)據(jù)密切相關(guān)。
大數(shù)據(jù)的價(jià)值和重要性已經(jīng)毋庸置疑,但大數(shù)據(jù)究竟帶來(lái)了哪些新的技術(shù)趨勢(shì),它對(duì)當(dāng)前IT產(chǎn)業(yè)的勢(shì)力格局會(huì)造成何種影響,更關(guān)鍵的是,每個(gè)企業(yè)如何才能獲取大數(shù)據(jù)中的“寶藏”?則是我們真正關(guān)注的焦點(diǎn)。
大數(shù)據(jù)可能是一場(chǎng)騙局
大數(shù)據(jù)風(fēng)暴來(lái)襲,存儲(chǔ)廠商動(dòng)作頻頻,力爭(zhēng)在大數(shù)據(jù)潮流的競(jìng)爭(zhēng)中拔得頭籌。什么是
大數(shù)據(jù)(Big Data) ? 簡(jiǎn)單一點(diǎn)可以理解為超出傳統(tǒng)數(shù)據(jù)管理工具處理能力的大規(guī)模、復(fù)雜的數(shù)據(jù)集合。判斷是否數(shù)據(jù)大數(shù)據(jù)的范疇,要從三個(gè)維度來(lái)衡量:數(shù)據(jù)量(Volume)、處理速度( Velocity)以及數(shù)據(jù)種類(Variety)。
大數(shù)據(jù)是 2012 年信息技術(shù)領(lǐng)域最時(shí)髦的詞匯。當(dāng)然,跟所有曾經(jīng)的時(shí)髦技術(shù)熱詞一樣,最后可能是一場(chǎng)騙局。為什么?
大數(shù)據(jù)是個(gè)相對(duì)的概念,新瓶裝舊酒 有些人所說(shuō)的大數(shù)據(jù)處理方式,不過(guò)是在既有的方案上包裝了一下,新瓶裝舊酒,只為趕時(shí)髦。今天的大數(shù)據(jù)可能到了明天算不上大數(shù)據(jù)。過(guò)去我們也曾經(jīng)對(duì)“海量數(shù)據(jù)”望而生畏。但海量數(shù)據(jù)時(shí)代并沒(méi)有給多少企業(yè)帶來(lái)革命性的變化,在 Map Reduce 以及 Hadoop 出現(xiàn)之前,沒(méi)有多少企業(yè)能夠輕松的對(duì)數(shù)據(jù)進(jìn)行大規(guī)模并行計(jì)算(奇怪的是,那時(shí)候沒(méi)有多少人提大數(shù)據(jù))。而 No SQL 的出現(xiàn)也為處理數(shù)據(jù)的方式帶來(lái)了更多可能性。我們突然發(fā)現(xiàn),處理數(shù)據(jù)能力已經(jīng)悄然增強(qiáng)。
大數(shù)據(jù)是機(jī)會(huì),但不是所有人的機(jī)會(huì) 大數(shù)據(jù)的商業(yè)前景被過(guò)分夸大了。從目前來(lái)看,只有為數(shù)不多的企業(yè)真正擁有大數(shù)據(jù),而且這些數(shù)據(jù)的管理、處理、分析并沒(méi)有帶來(lái)所謂空前大的挑戰(zhàn)。因?yàn)樾碌墓ぞ?、新的?jì)算方式已經(jīng)具備處理這些數(shù)據(jù)的能力。大數(shù)據(jù)是機(jī)會(huì),但只是少數(shù)人的機(jī)會(huì),更多是巨頭們的商業(yè)障眼法,比如 IBM 、Oracle、微軟,他們提倡甚至夸大大數(shù)據(jù)的目的還是為了向你兜售他們的工具,兜售他們的解決方案,確切的說(shuō),從你身上賺錢(qián)。中小型公司應(yīng)該繞道走,別唯大佬們馬首是瞻,別總?cè)悷狒[。你所需要的東西,通過(guò)開(kāi)源社區(qū)就可以獲取到,參加各種大佬們口沫橫飛的會(huì)議還不如和工程師聊聊可以運(yùn)用什么工具來(lái)具體操練一下。
大數(shù)據(jù)的確會(huì)有價(jià)值,但沒(méi)有那么大 必須要承認(rèn)從某些大數(shù)據(jù)中會(huì)挖掘出新的價(jià)值,但這個(gè)價(jià)值只是附加價(jià)值,沒(méi)有理由去夸大他,更沒(méi)有理由去無(wú)端的想象。你可以說(shuō)這片沙漠可能有金子,但并不是說(shuō)沙漠中一定就能挖掘出金子。從現(xiàn)在業(yè)界一些公司拿出來(lái)的所謂的大數(shù)據(jù)應(yīng)用實(shí)例來(lái)看,依然只是在利用傳統(tǒng)意義上的數(shù)據(jù)價(jià)值,只是巧妙地把這筆帳記在了大數(shù)據(jù)上而已。
沒(méi)有大數(shù)據(jù),只有數(shù)據(jù) 大數(shù)據(jù)不會(huì)是什么“商業(yè)模式的變革”,重視大數(shù)據(jù),但沒(méi)必要抱著大數(shù)據(jù)的大腿,尤其是在業(yè)界對(duì)于“數(shù)據(jù)”還不夠重視的時(shí)候,就更別說(shuō)大數(shù)據(jù)了。相信隨著時(shí)間的推移,大數(shù)據(jù)這個(gè)詞會(huì)和信息爆炸、網(wǎng)格計(jì)算、云計(jì)算等逐漸被淡忘,當(dāng)然,到時(shí)候可能出現(xiàn)新的時(shí)髦詞匯了。沒(méi)有大數(shù)據(jù),只有數(shù)據(jù);沒(méi)有藍(lán)海,只有大海;沒(méi)有先知,只有忽悠。
大數(shù)據(jù)不是大謊言
“數(shù)據(jù)量巨大”只是大數(shù)據(jù)的一個(gè)標(biāo)簽。除此以外,數(shù)據(jù)的多樣化、管理的復(fù)雜度、實(shí)時(shí)分析等也是用戶在處理大數(shù)據(jù)時(shí)必須面對(duì)的挑戰(zhàn)。BI(商業(yè)智能)已經(jīng)有30多年的歷史。借助BI工具,企業(yè)可以對(duì)某一時(shí)間段內(nèi)產(chǎn)生的數(shù)據(jù)進(jìn)行分析,從而為商業(yè)決策提供支持。在大數(shù)據(jù)時(shí)代,企業(yè)需要面對(duì)的是不斷變化的數(shù)據(jù),因此需要實(shí)時(shí)對(duì)數(shù)據(jù)進(jìn)行處理和分析,這無(wú)疑增加了數(shù)據(jù)分析的難度,但同時(shí)也提高了企業(yè)預(yù)測(cè)未來(lái)市場(chǎng)變化的準(zhǔn)確度。企業(yè)是否應(yīng)該采用大數(shù)據(jù)分析工具,不是以企業(yè)擁有的數(shù)據(jù)量大小決定的,只要企業(yè)有商業(yè)預(yù)測(cè)的需求,就應(yīng)該盡快使用大數(shù)據(jù)分析工具。
很多人認(rèn)為,大數(shù)據(jù)就是指非結(jié)構(gòu)化的數(shù)據(jù)。其實(shí),這是一個(gè)“謊言”。事實(shí)上,全球產(chǎn)生的數(shù)據(jù)中85%以上的確是非結(jié)構(gòu)化的數(shù)據(jù)。但是在當(dāng)前的大數(shù)據(jù)應(yīng)用中,企業(yè)主要處理的還是結(jié)構(gòu)化的數(shù)據(jù)。如今,許多擁有結(jié)構(gòu)化數(shù)據(jù)處理工具的廠商紛紛轉(zhuǎn)向Hadoop,目的就是要尋找一個(gè)處理非結(jié)構(gòu)化數(shù)據(jù)的好辦法。盡管如此,大多數(shù)廠商的非結(jié)構(gòu)化數(shù)據(jù)分析工具,也是先把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)之后再進(jìn)行處理。
云計(jì)算帶來(lái)了IT基礎(chǔ)架構(gòu)的變革,大數(shù)據(jù)則有力地推動(dòng)了企業(yè)業(yè)務(wù)的轉(zhuǎn)型。從這個(gè)角度講,大數(shù)據(jù)對(duì)企業(yè)來(lái)說(shuō)是一個(gè)挑戰(zhàn),更是一個(gè)實(shí)現(xiàn)業(yè)務(wù)轉(zhuǎn)型的契機(jī)。伴隨著大數(shù)據(jù)應(yīng)用的興起,企業(yè)對(duì)數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師這些新型的專業(yè)人才的需求也會(huì)變得更加迫切。如今,國(guó)外企業(yè)的管理層已經(jīng)出現(xiàn)了一個(gè)新的職位——首席數(shù)據(jù)官(Chief Data Officer),其職責(zé)是在實(shí)現(xiàn)數(shù)據(jù)治理的同時(shí)保證數(shù)據(jù)的可操作性。
大數(shù)據(jù)的挑戰(zhàn)真實(shí)存在。企業(yè)應(yīng)該變壓力為動(dòng)力,應(yīng)該讓大數(shù)據(jù)為商業(yè)決策服務(wù),而不要成為大數(shù)據(jù)的奴隸。
大數(shù)據(jù)帶來(lái)大難題、大內(nèi)涵、大價(jià)值
何謂“大數(shù)據(jù)”,不能簡(jiǎn)單以大量數(shù)據(jù)來(lái)概括,通常,大數(shù)據(jù)主要有三個(gè)特征:量大(PB級(jí)別的數(shù)據(jù))、實(shí)時(shí)性(更短的時(shí)間處理數(shù)據(jù))、多樣性(非結(jié)構(gòu)的文檔數(shù)據(jù)為主)。
也正是它的這些獨(dú)具特點(diǎn),給我們主要帶來(lái)了“存”、“管”、“用”這三個(gè)方面的難題。
1. “存”———如何解決 PB 級(jí)別大數(shù)據(jù)的存儲(chǔ)問(wèn)題?
2. “管”———如何解決非結(jié)構(gòu)化數(shù)據(jù)的管理問(wèn)題?
3. “用”———如何解決這種大規(guī)模復(fù)雜結(jié)構(gòu)下的實(shí)時(shí)應(yīng)用問(wèn)題?
大數(shù)據(jù)有著大內(nèi)涵,它顛覆了傳統(tǒng)的IT世界,挑戰(zhàn)著企業(yè)的存儲(chǔ)架構(gòu)、數(shù)據(jù)中心的基礎(chǔ)設(shè)施,數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、商業(yè)智能等各個(gè)應(yīng)用環(huán)節(jié)。
事實(shí)上,全球互聯(lián)網(wǎng)巨頭都已意識(shí)到了“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)的重要意義。國(guó)泰君安證券研究所整理了自2010 年以來(lái)各大IT 巨頭在大數(shù)據(jù)領(lǐng)域的產(chǎn)品推出進(jìn)度,包括EMC、惠普、IBM、微軟、Oracle、SAP、Teradata在內(nèi)的全球IT 巨頭紛紛通過(guò)收購(gòu)大數(shù)據(jù)相關(guān)廠商來(lái)實(shí)現(xiàn)技術(shù)整合,亦可見(jiàn)其對(duì)大數(shù)據(jù)的重視。其中最大的要數(shù)惠普宣布的以103 億美元收購(gòu)英國(guó)非結(jié)構(gòu)化信息處理軟件公司Autonomy(交易完成時(shí)金額達(dá)到120 億美元)。包括IBM、EMC、Teradata 等公司也相繼進(jìn)行了數(shù)億至幾十億美元的收購(gòu)。
雖然企業(yè)的決策者已經(jīng)意識(shí)到“大數(shù)據(jù)”中蘊(yùn)含的價(jià)值,但對(duì)于大多數(shù)企業(yè)來(lái)說(shuō),真正實(shí)現(xiàn)其中的價(jià)值還難以做到。這時(shí)候IT就派上了用場(chǎng),它可以幫助決策者在儲(chǔ)存的海量信息中挖掘出需要的信息,并且對(duì)這些信息進(jìn)行分析,從而發(fā)現(xiàn)重要的趨勢(shì)信息。換句話講,IT已經(jīng)成為“大數(shù)據(jù)”發(fā)揮作用的催化劑。
在服務(wù)領(lǐng)域,“大數(shù)據(jù)”的重要性和價(jià)值越發(fā)明顯地得到證明。與美國(guó)海洋和大氣局(NOAA)、美國(guó)宇航局(NASA)這些機(jī)構(gòu)一樣,一些制藥企業(yè)和眾多能源企業(yè)同樣累積了大量的數(shù)據(jù)信息,現(xiàn)在這些企業(yè)想要將這些日常積累下來(lái)的數(shù)據(jù)轉(zhuǎn)化為一種“大數(shù)據(jù)科技”,希望這些數(shù)據(jù)能夠帶來(lái)額外的價(jià)值。
美國(guó)海洋和大氣局嘗試?yán)么髷?shù)據(jù)業(yè)務(wù)協(xié)助進(jìn)行對(duì)氣候、環(huán)境、天氣的研究和商業(yè)性探索,美國(guó)宇航局利用大數(shù)據(jù)業(yè)務(wù)進(jìn)行航天和其他領(lǐng)域的探索。制藥企業(yè)和能源企業(yè)則借助大數(shù)據(jù)業(yè)務(wù)進(jìn)行更多實(shí)實(shí)在在的研發(fā),例如藥品實(shí)驗(yàn)和地球物理分析?!都~約時(shí)報(bào)》將“大數(shù)據(jù)”作為一種工具,進(jìn)行文本分析和網(wǎng)絡(luò)開(kāi)發(fā)。迪斯尼公司利用它對(duì)店面、主題公園和網(wǎng)絡(luò)資產(chǎn)中的數(shù)據(jù)進(jìn)行分析,研究消費(fèi)習(xí)慣的相關(guān)性。
大數(shù)據(jù)業(yè)務(wù)有很多專有的和開(kāi)放性的資源作為工具,通常情況下,這些資源可以通過(guò)啟動(dòng)一個(gè)程序獲得,也可以通過(guò)與提供云技術(shù)的公司合作獲得,例如亞馬遜和谷歌——實(shí)際上,云技術(shù)不但能夠幫助你解決大數(shù)據(jù)的延展問(wèn)題,還能解決數(shù)據(jù)存儲(chǔ)和計(jì)算能力的問(wèn)題。不管怎么說(shuō),使用大數(shù)據(jù)業(yè)務(wù)不必由你親自“扮演角色”。像IBM和EMC這樣的供貨商可以提供大數(shù)據(jù)項(xiàng)目所需的工具,盡管使用這些公司提供的業(yè)務(wù)成本可能很高,而且難以衡量。