一文帶你瞭解什麼是大數據

一文帶你瞭解什麼是大數據

首先大數據體現在數據大

2011年,中國互聯網行業持有數據總量達到1.9EB(1EB字節相當於10億GB)
2011年,全球被創建和複製的數據總量爲1.8ZB(1.8萬億GB)
2015年,全球被創建和複製的數據總量達到8.6ZB
2020年,全球電子設備存儲的數據將暴增達到40ZB

那麼,這些龐大的數據都來自哪裏?

隨着全球數字化、網絡化進程加快,互聯網應用於各行各業,累積的數據量越來越大。這些數據都來源於我們日常生活的點滴,匯聚成BIGDATA。

大數據

大數據的特徵是什麼?

大數據不僅僅是數據的大量化,而且還包括快速化多樣化價值化

Volume—數量大

根據IDC作出的估測,數據一直都在以每年**50%**的速度增長,也就是說每兩年就增長一倍(大數據摩爾定律

Velocity—速度快

1秒定律:即龐大的數據量要在1秒內處理完畢,纔會對業務產生應有的價值。這一點也是和傳統的數據挖掘技術有着本質的不同。

Variety—多樣化

大數據是由結構化和非結構化數據組成的

  • 10%的結構化數據,存儲在數據庫中
  • 90%的非結構化數據,它們與人類信息密切相關

非結構化數據類型多樣:郵件、視頻、微博、手機呼叫、網頁點擊等等

Value—價值

價值密度低,商業價值高。
連續不間斷監控過程中,可能有用的數據僅僅有一兩秒,但是具有很高的商業價值。

大數據能做什麼?

大數據是一種新的能力

他所代表的是與傳統“小數據”,完全不同的一種思維模式,在這裏不要求精確的答案,要求的是一種宏觀上的思考能力,單個數據並沒有價值,但越來越多的數據累加,量變就會引起質變。
這種新的能力有着傳統數據分析和數據存儲所無法匹敵的優勢,從MB級的數據到PB級的數據,所要求的存儲和計算是需要從底層開始的完全重構,這就代表了一種新的能力。

大數據的應用

通過對大量數據的分析,我們可以預測一種趨勢,可以分析產品的受歡迎程度,可以實現市場經濟的宏觀調控,可以建立智慧交通智慧家居,可以做到廣告的精準投放,等等……
大數據應用

小結

總結起來,大數據是一種對數據的事後比較和實時處理。
大數據分析的三個特徵:

  • 全樣而非抽樣
  • 效率而非精確
  • 相關而非因果

大數據與相關技術的愛恨情仇

從數據庫到大數據

== 池塘捕魚(數據庫)vs.大海捕魚(大數據)==

大數據與雲計算

數據規模

"池塘"和"大海"最容易發現的區別就是規模。"池塘"規模相對較小, 即便是先前認爲比較大的“池塘”,譬如 VLDB(Very Large Database),和"大海"XLDB(Extremely Large Database)相比仍舊偏小。"池塘"的處理對象通常以 MB 爲基本單位,而"大海"則 常常以GB,甚至是 TB、PB 爲基本處理單位。

數據類型

過去的"池塘"中,數據的種類單一,往往僅僅有一種或少數幾種,這 些數據又以結構化數據爲主。而在"大海"中,數據的種類繁多,數以千計,而這些數據又 包含着結構化、半結構化以及非結構化的數據,並且半結構化和非結構化數據所佔份額越來越大。

模式(Schema)和數據的關係

傳統的數據庫都是先有模式,然後纔會產生數據。這 就好比是先選好合適的"池塘",然後纔會向其中投放適合在該"池塘"環境生長的"魚"。 而大數據時代很多情況下難以預先確定模式,模式只有在數據出現之後才能確定,且模式隨 着數據量的增長處於不斷的演變之中。這就好比先有少量的魚類,隨着時間推移,魚的種類 和數量都在不斷的增長。魚的變化會使大海的成分和環境處於不斷的變化之中。

處理對象

在"池塘"中捕魚,"魚"僅僅是其捕撈對象。而在"大海"中,“魚” 除了是捕撈對象之外,還可以通過某些"魚"的存在來判斷其他種類的"魚"是否存在。也 就是說傳統數據庫中數據僅作爲處理對象。而在大數據時代,要將數據作爲一種資源來輔助 解決其他諸多領域的問題

大數據與雲計算

硬幣的正反面

大數據與雲計算是密切相關、相輔相成的,二者的關鍵技術是共享的,“雲計算”出現的更早一點

雲計算關鍵技術中的海量數據存儲技術、海量數據管理技術、MapReduce編程模型,同時也是大數據的關鍵技術

大數據和雲計算的關係就像一枚硬幣的正反面一樣密不可分,大數據無法用單臺的計算機進行處理,必須採用分佈式架構。它的特色在於對海量數據進行分佈式數據挖掘。但它必須依託雲計算的分佈式處理、分佈式數據庫和雲存儲、虛擬化技術。

一個栗子
他倆之間的關係你可以這樣來理解,雲計算技術就是一個容器,大數據正是存放在這個容器中的水,大數據是要依靠雲計算技術來進行存儲和計算的。

目標不一致

  • 發現價值 vs 節省IT成本
  • 雲計算更側重“計算模式”,大數據更側重“數據資源”

大數據所帶來的挑戰

存儲

在實際生產中,有些行業的數據涉及上百個參數,其複雜性不僅體現在數據樣本本身,更體現在多源異構、多實體和多空間之間的交互動態性,難以用傳統的方法描述與度量。
這些具有很強異構性的數據如何有效存儲成爲一個挑戰。

處理

隨着大數據時代的到來,半結構化和非結構化數據量的迅猛增長,給傳統的分析技術帶來了巨大的衝擊和挑戰。
需要面對的是:

  • 數據處理的實時性(Timeliness)
  • 動態變化環境中索引的設計
  • 先驗知識的缺乏

reference

數據庫和大數據
大數據與雲計算

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章