6、大數(shù)據(jù)與云計(jì)算
7、大數(shù)據(jù)與Hadoop
6、大數(shù)據(jù)與云計(jì)算
據(jù)與云計(jì)算-300x84.jpg)
據(jù)分析,到2020年,全球以電子形式存儲(chǔ)的數(shù)據(jù)量將達(dá)到35ZB(10
21,十萬億億級(jí)),是2009年全球存儲(chǔ)量的40倍。而在2010年底,根據(jù)IDC的統(tǒng)計(jì),全球數(shù)據(jù)量已經(jīng)達(dá)到了120萬PB,或1.2ZB。如果將這些數(shù)據(jù)都刻錄在DVD上,那么光把這些DVD盤片堆疊起來就可以從地球壘到月球一個(gè)來回(單程約24萬英里)。
為了解決大數(shù)據(jù)的挑戰(zhàn),人們自然而然的想起了云計(jì)算,云計(jì)算遭遇大數(shù)據(jù),這是時(shí)代的發(fā)展必然趨勢(shì)。云計(jì)算技術(shù)可以實(shí)現(xiàn)IT資源的自動(dòng)化管理和配置,降低IT管理的復(fù)雜性,提高資源利用效率。對(duì)企業(yè)來說,云計(jì)算的主要形態(tài)是私有云,其主要的業(yè)務(wù)由私有云支撐,而非關(guān)鍵的業(yè)務(wù)或者突發(fā)性的業(yè)務(wù)可以采用公共云資源。私有云與公共云需要無縫連接,從而形成混合云的環(huán)境。
據(jù)-IT展望與預(yù)測(cè)3-300x147.jpg)
云計(jì)算與大數(shù)據(jù)的關(guān)系是兩個(gè)方向,云計(jì)算可以承載大數(shù)據(jù),大數(shù)據(jù)也是可以通過云計(jì)算架構(gòu)和模型來提供解決方案。這樣我們就可以清晰的知道,大數(shù)據(jù)在管理和應(yīng)用的方向上,可以通過云計(jì)算的資源共享、高可擴(kuò)展性、服務(wù)特性來搭建和運(yùn)營。
如果說大數(shù)據(jù)與云計(jì)算的交集是外部交集,那么大數(shù)據(jù)內(nèi)部的關(guān)聯(lián)、挖掘,則是大數(shù)據(jù)的大內(nèi)涵,這個(gè)調(diào)整遠(yuǎn)遠(yuǎn)超過云計(jì)算的應(yīng)用難度,數(shù)據(jù)與數(shù)據(jù)的復(fù)雜關(guān)系,比如跨應(yīng)用系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的關(guān)聯(lián);海量數(shù)據(jù)的存儲(chǔ)以及數(shù)據(jù)在人之間的分享;數(shù)據(jù)(結(jié)構(gòu)化與非結(jié)構(gòu)化)與業(yè)務(wù)和決策間的關(guān)聯(lián)。
云計(jì)算與大數(shù)據(jù)有所不同,不同之處在于應(yīng)用的不同,主要表現(xiàn)在兩個(gè)方面:① 在概念上兩者有所不同,云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)。然而大數(shù)據(jù)必須有云作為基礎(chǔ)架構(gòu),才能得以順暢運(yùn)營;② 大數(shù)據(jù)和云計(jì)算的目標(biāo)受眾不同,云計(jì)算是賣給CIO的技術(shù)和產(chǎn)品,是一個(gè)進(jìn)階的IT解決方案。而大數(shù)據(jù)是賣給CEO、賣給業(yè)務(wù)層的產(chǎn)品,大數(shù)據(jù)的決策者是業(yè)務(wù)層。由于他們能直接感受到來自市場競爭的壓力,必須在業(yè)務(wù)上以更有競爭力的方式戰(zhàn)勝對(duì)手。
對(duì)于大數(shù)據(jù)時(shí)代,無論是企業(yè)還是廠商,策略、規(guī)劃和思想是核心,與云計(jì)算一樣,大數(shù)據(jù)的大內(nèi)涵,需要有大思維和高規(guī)劃。計(jì)算時(shí)代成就了Wintel為代表的一批廠商,那個(gè)時(shí)代的旋律是摩爾定律;網(wǎng)絡(luò)互通時(shí)代正在成就包括GOOGLE、FACEBOOK、騰訊為代表的網(wǎng)絡(luò)新貴,這個(gè)時(shí)代的主旋律是互通;大數(shù)據(jù)時(shí)代的到來,為更多的廠商帶來了機(jī)會(huì),而這個(gè)時(shí)代的主基調(diào),無可厚非,智能必將當(dāng)?shù)?。正所謂,數(shù)據(jù)之道,智取未來。
7、大數(shù)據(jù)與Hadoop
隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,誰也無法否認(rèn),我們已經(jīng)切實(shí)地迎來了一個(gè)大數(shù)據(jù)的時(shí)代,對(duì)這些大數(shù)據(jù)的分析已經(jīng)成為一個(gè)非常重要且緊迫的需求。多維分析和數(shù)據(jù)挖掘平臺(tái)架構(gòu)Hadoop在可伸縮性、健壯性、計(jì)算性能和成本上具有無可替代的優(yōu)勢(shì),事實(shí)上已成為當(dāng)前互聯(lián)網(wǎng)企業(yè)主流的大數(shù)據(jù)分析平臺(tái)。
Hadoop是Apache基金會(huì)的一個(gè)項(xiàng)目,也是一組軟件的總稱,是目前業(yè)界公認(rèn)的開放平臺(tái)之一,起源于作者Doug Cutting兒子的一只玩具大象的名字Hadoop 。

以Hadoop為代表的分布式系統(tǒng),是大數(shù)據(jù)系統(tǒng)必要組成部分。必要性體現(xiàn)在現(xiàn)在的大數(shù)據(jù)中很多數(shù)據(jù)是機(jī)器產(chǎn)生的數(shù)據(jù),或者是物聯(lián)網(wǎng)各種各樣的探測(cè)器、電腦產(chǎn)生的日志,這些是人為產(chǎn)生的,而且數(shù)量巨大,不適合把它直接放到數(shù)據(jù)庫中去,而Hadoop就提供了全新的方式,可以輕松進(jìn)行平面擴(kuò)展,把這些數(shù)據(jù)放在庫里進(jìn)行任意的數(shù)據(jù)分析。Hadoop成功的建立了這個(gè)環(huán)境,使得圍繞Hadoop的軟件能夠提供各種各樣的功能,完成智能分析工作。
然而,大數(shù)據(jù)不僅僅是Hadoop,在對(duì)數(shù)據(jù)進(jìn)行分析時(shí),用戶可以把數(shù)據(jù)放池子里,Hadoop則把這些數(shù)據(jù)分成幾百個(gè)、幾千個(gè)節(jié)點(diǎn),這是在特定的某些應(yīng)用場景必須進(jìn)行的部分。但是更多的應(yīng)用場景是需要實(shí)時(shí)的反應(yīng),互動(dòng)的反應(yīng),這時(shí)候就需要其他技術(shù),包括內(nèi)存類檢索技術(shù),甚至在數(shù)據(jù)產(chǎn)生時(shí)要進(jìn)行實(shí)時(shí)反應(yīng)的技術(shù)。這些技術(shù)都結(jié)合在一起,才是一個(gè)完整的大數(shù)據(jù)處理系統(tǒng)。
簡而言之,Hadoop提供了一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),讓用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序,以充分利用集群的威力高速運(yùn)算和存儲(chǔ)。Hadoop主要包括HDFS、MapReduce和HBase等組成部分。HDFS是一個(gè)分布式文件系統(tǒng),具有高容錯(cuò)性的特點(diǎn),設(shè)計(jì)用來部署在通用硬件上,同時(shí),它還能提供高傳輸率來訪問數(shù)據(jù),因此非常適合那些有著超大數(shù)據(jù)集的應(yīng)用程序;HBase是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式存儲(chǔ)系統(tǒng),利用HBase可在通用硬件上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群;MapReduce是一個(gè)編程規(guī)范,分別由Map和Reduce組成。
在Hadoop的構(gòu)成中,Hadoop HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持,Hadoop MapReduce為HBase提供了高性能的計(jì)算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和故障恢復(fù)機(jī)制。此外,Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)處理變得非常簡單。
Hadoop 是最受歡迎的在 Internet 上對(duì)搜索關(guān)鍵字進(jìn)行內(nèi)容分類的工具,但它也可以解決許多要求極大伸縮性的問題。例如,如果您要 grep 一個(gè) 10TB 的巨型文件,會(huì)出現(xiàn)什么情況?在傳統(tǒng)的系統(tǒng)上,這將需要很長的時(shí)間。但是 Hadoop 在設(shè)計(jì)時(shí)就考慮到這些問題,采用并行執(zhí)行機(jī)制,因此能大大提高效率。
Hadoop 是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的
軟件框架。但是 Hadoop 是以一種可靠、高效、可伸縮的方式進(jìn)行處理的。Hadoop 是可靠的,因?yàn)樗僭O(shè)計(jì)算元素和存儲(chǔ)會(huì)失敗,因此它維護(hù)多個(gè)工作數(shù)據(jù)副本,確保能夠針對(duì)失敗的節(jié)點(diǎn)重新分布處理。Hadoop 是高效的,因?yàn)樗圆⑿械姆绞焦ぷ?,通過并行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級(jí)數(shù)據(jù)。此外,Hadoop 依賴于社區(qū)服務(wù)器,因此它的成本比較低,任何人都可以使用。
Hadoop是一個(gè)能夠讓用戶輕松架構(gòu)和使用的分布式計(jì)算平臺(tái)。用戶可以輕松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個(gè)優(yōu)點(diǎn):
1. 高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴;
2. 高擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
3. 高 效 性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)態(tài)平衡,因此處理速度非???。
4. 高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗的任務(wù)重新分配。
5. 價(jià)格優(yōu)勢(shì)。其一Hadoop是開源軟件,盡管開源并不意味著免費(fèi),但和商業(yè)軟件相比,其采購成本要低得多;其二Hadoop是為普通的硬件設(shè)備設(shè)計(jì)的,本身已經(jīng)充分考慮這些硬件的不可靠性,而不是專用硬件,這就大幅降低了硬件投入成本。
Hadoop帶有用 Java 語言編寫的框架,因此運(yùn)行在 Linux 生產(chǎn)平臺(tái)上是非常理想的。Hadoop 上的
應(yīng)用程序也可以使用其他語言編寫,比如 C++。
由于具備低成本和前所未有的高擴(kuò)展性,Hadoop已被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺(tái)。就像30年前SQL(Structured Query Language)出現(xiàn)一樣,Hadoop正帶來了新一輪的數(shù)據(jù)革命。如今Hadoop已從初出茅廬的小象變成了行業(yè)的巨人,但Hadoop仍需繼續(xù)完善。
