1、什么是大數(shù)據(jù)?
2、大數(shù)據(jù)的特點
1. 什么是大數(shù)據(jù)?
據(jù).jpg)
大數(shù)據(jù)(Big Data)是近來信息技術領域中的熱點之一,但從名字就能判斷它并不是什么新詞。畢竟,大是一個相對概念。歷史上,數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市等信息管理領域的技術,在很大程度上也是為了解決大規(guī)模數(shù)據(jù)的問題。然而,大數(shù)據(jù)作為一個專有名詞成為熱點,主要應歸功于近年來互聯(lián)網(wǎng)、云計算和物聯(lián)網(wǎng)的迅猛發(fā)展。無所不在的移動設備、RFID、無線傳感器每分每秒都在產生數(shù)據(jù),數(shù)以億計用戶的互聯(lián)網(wǎng)服務時時刻刻在產生巨量的交互數(shù)據(jù),要處理的數(shù)據(jù)量實在是太大、增長又太快,而業(yè)務需求和競爭壓力對數(shù)據(jù)處理的實時性、有效性又提出了更高要求,傳統(tǒng)的常規(guī)技術手段根本無法應付。在這種情況下,才重新提出了大數(shù)據(jù)問題并受到了高度重視。
何謂
大數(shù)據(jù),目前還沒有統(tǒng)一的說法,常見的定義有如下幾種:
定義一:大數(shù)據(jù) = 海量數(shù)據(jù) + 復雜類型的數(shù)據(jù)
大數(shù)據(jù)是由三項主要技術趨勢匯聚組成:
① 海量交易數(shù)據(jù):在從 ERP 應用程序到數(shù)據(jù)倉庫應用程序的在線交易處理(OLTP)與分析系統(tǒng)中,傳統(tǒng)的關系數(shù)據(jù)以及非結構化和半結構化信息仍在繼續(xù)增長。隨著企業(yè)將更多的數(shù)據(jù)和業(yè)務流程移向公共和私有云,這一局面變得更加復雜。
② 海量交互數(shù)據(jù):包括呼叫詳細記錄(CDR)、設備和傳感器信息、GPS 和地理定位映射數(shù)據(jù)、通過管理文件傳輸協(xié)議傳送的海量圖像文件、Web 文本和點擊流數(shù)據(jù)、科學信息、電子郵件等等。
③ 海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了用于數(shù)據(jù)密集型處理的架構,例如具有開放源碼、在商品硬件群中運行的 Apache Hadoop。對于企業(yè)來說,難題在于要以具備成本效益的方式快速可靠地存取、管理和處理數(shù)據(jù)。
大數(shù)據(jù)包含了海量數(shù)據(jù)的含義,而且在內容上超越了海量數(shù)據(jù),簡而言之,大數(shù)據(jù)是海量數(shù)據(jù)+復雜類型的數(shù)據(jù)。
大數(shù)據(jù)包括交易和交互數(shù)據(jù)集在內的所有數(shù)據(jù)集,其規(guī)模或復雜程度超出了常用技術按照合理的成本和時限捕捉、管理及處理這些數(shù)據(jù)集的能力。

定義二:大數(shù)據(jù)可以用三個V來總結,即Variety、Volume和Velocity(多樣性、數(shù)量、速度)
大數(shù)據(jù)的概念同我們能否有效管理并挖掘利用這些數(shù)據(jù)和我們比較熟悉海量數(shù)據(jù)有所區(qū)別,它可以用三個V來總結,即Variety、Volume和Velocity(多樣性、數(shù)量、速度)。
多樣性是指數(shù)據(jù)應包含結構化的、半結構化的和非結構化的數(shù)據(jù);數(shù)量是指聚合在一起供分析的數(shù)據(jù)量必須非常龐大;速度則是指數(shù)據(jù)處理的時間必須很短。大數(shù)據(jù)并非總是說有數(shù)百個TB(10
12,萬億級)才算得上。根據(jù)實際使用情況,有時候數(shù)百個GB(10
9,十億級)的數(shù)據(jù)也可稱為大數(shù)據(jù),這主要要看它的第三個維度,也就是速度或者時間維度。假如我能在1秒之內分析處理300GB的數(shù)據(jù),而通常情況下卻需要花費1個小時的話,那么這種巨大變化所帶來的結果就會增加很大的價值。所謂大數(shù)據(jù)技術,就是至少實現(xiàn)這三個判據(jù)中的兩個、且可承擔得起的一種應用。
.
定義三:大數(shù)據(jù)包括A、B、C三個要素
基于應用要求,大數(shù)據(jù)包括A、B、C三個要素:分析(Analytic),帶寬(Bandwidth)和內容(Content)。
1. 大分析(Big Analytics),幫助獲得真知----指的是對巨大數(shù)據(jù)集進行實時分析的要求,它能帶來新的業(yè)務模式,更好的客戶服務,并實現(xiàn)更好的結果。
2. 高帶寬(Big Bandwidth),幫助走得更快----指的是處理極端高速的關鍵數(shù)據(jù)的要求。它支持快速有效地消化和處理大型數(shù)據(jù)集。
3. 大內容(Big Content),不丟失任何信息----指的是對于安全性要求極高的高可擴展的數(shù)據(jù)存儲,并能夠輕松實現(xiàn)恢復。它支持可管理的信息內容存儲庫、而不只是存放過久的數(shù)據(jù),并且能夠跨越不同的大陸板塊。
大數(shù)據(jù)是一股突破性的經(jīng)濟和技術力量,它為 IT 支持引入了新的基礎架構。大數(shù)據(jù)解決方案消除了傳統(tǒng)的計算和存儲的局限。借助于不斷增長的私密和公開數(shù)據(jù),一種劃時代的新商業(yè)模式正在興起,有望為大數(shù)據(jù)客戶帶來新的實質性的收入增長點以及富于競爭力的優(yōu)勢。
2、大數(shù)據(jù)的特點
要理解大數(shù)據(jù),首先要從“大”入手,“大”是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB(10
12B,萬億級數(shù)據(jù))規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用4個V來總結(Volume、Variety、Value和Velocity),即體量大、多樣性、價值密度低、速度快。主要特點有:
① 數(shù)據(jù)體量巨大。從 TB級別,躍升到 PB(10
15B,千萬億級數(shù)據(jù))級別。
② 數(shù)據(jù)類型繁多,多為非結構型數(shù)據(jù),如網(wǎng)絡日志、視頻、圖片、地理位置信息,等等。
③ 價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。
④ 新的數(shù)據(jù)處理技術。大數(shù)據(jù)技術是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術。目前所說的“大數(shù)據(jù)”不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)的目的是發(fā)展大數(shù)據(jù)技術并將其應用到相關領域,通過解決巨量數(shù)據(jù)處理問題促進其突破性發(fā)展。因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價值的信息,也體現(xiàn)在如何加強大數(shù)據(jù)技術研發(fā),搶占時代發(fā)展的前沿。
⑤ 處理速度快,秒級定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術有著本質的不同。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式,多要求在秒級時間范圍內給出分析結果。