大數據概論

大數據概述

1、大數據時代

1.第三次信息化浪潮

根據IBM前首席執行官郭士納的觀點,IT領域每隔十五年就會迎來一次重大變革。

信息化浪潮發生時間標誌解決問題代表企業
第一次浪潮 1980年前後 個人計算機 信息處理 Inter、AMD、IBM、蘋果、微軟、聯想、戴爾、惠普等
第二次浪潮 1995年前後 互聯網 信息傳輸 雅虎、谷歌、阿里巴巴、百度、騰訊等
第三次浪潮 2010年前後 物聯網、雲計算和大數據 信息爆炸 將涌現出一批新的市場標杆企業

2.信息科技爲大數據時代提供技術支撐

  • 存儲設備容量不斷增加
  • CPU處理能力不斷提升
  • 網絡帶寬不斷增加

3.數據產生方式的變革促成大數據時代的來臨

  • 運營式系統階段:數據庫
  • 用戶原創內容階段:Web2.0、移動設備
  • 感知式系統階段:物聯網

4.大數據的發展歷程(三個階段)

階段時間內容
第一階段:萌芽期 上世紀90年代至本世紀初 隨着數據挖掘理論和數據庫技術的逐步成熟,一批商業智能工具和知識管理技術開始被應用,如數據倉庫、專家系統、知識管理等。
第二階段:成熟期 本世紀前十年 Web2.0應用迅猛發展,非結構化數據大量產生,傳統處理方法難以應對,帶動了大數據技術的快速突破,大數據解決方案逐漸走向成熟,形成了並行計算與分佈式系統兩大核心技術,谷歌的GFS和MapReduce等大數據技術收到追捧,Hadoop平臺開始大行其道
第三階段:大規模應用期 2010年以後 大數據應用滲透各行各業,數據驅動決策,信息社會智能化程度大幅提高

2、大數據概念

百度百科Wikipedia

大量化(Volume)、快速化(Velocity)、多樣化(Variety)、價值化(Value)

大數據不僅僅是數據的“大量化”,而是包含“快速化”、“多樣化”和“價值化”等多重屬性。

1.數據量大

根據IDC作出的估測,數據一致都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數據摩爾定律);

人類在最近兩年產生的數據量相當於之前產生的全部數據量;

預測到2020年,全球將總共擁有35ZB的數據量,相較於2010年,數據量將增長近30倍。

2.數據類型繁多

大數據是有結構化和非結構化的

  • 10%的結構化數據,存儲在數據庫中
  • 90%的非結構化數據,它們與人類信息密切相關

3.處理速度快

從數據的生成到消耗,時間窗口非常小,可用於生成決策的時間非常少

1秒定律:這一點也是和傳統的數據挖掘技術有着本質的不同

4.價值密度低

價值密度低,商業價值高

3、大數據的影響

圖靈獎獲得者、著名數據庫專家Jim Gray博士觀察並總結人類自古以來,在科學研究上,先後歷經了實驗、理論、計算和數據四種範式。

  1. 在思維方面,大數據完全顛覆了傳統的思維方式:
  • 全樣而非抽樣
  • 效率而非精確
  • 相關而非因果
  • 在社會發展方面,大數據決策逐漸成爲一種新的決策方式,大數據應用有力促進了信息技術與各行各業的深度融合,大數據開發大大推動了新技術和新應用的不斷涌現。
  • 在就業市場方面,大數據的興起使得數據科學家稱爲熱門職業。
  • 在人才技術方面,大數據的興起將在很大程度上改變中國高校信息相關專業的現有教學和科研體制。
  • 4、大數據的應用

    大數據無處不在,包括在金融、汽車、零售、餐飲、電信、能源、政務、醫療、體育、娛樂等在內的社會各行各業都已經融入了大數據的印跡。

    大數據應用實例:

    “谷歌流感趨勢”,通過跟蹤搜索詞相關數據來判斷全美地區的流感狀況。相對於傳統的疾病監測,具有更高的時效性。

    5、大數據的關鍵技術

    大數據技術的不同層面及其功能

    技術層面功能
    數據採集 利用ETL工具將分佈的、異構的數據源中的數據如關係數據、平面數據文件等,抽取到臨時中間層後進行清洗、轉換、集成,最後加載到數據倉庫或數據集市中,成爲聯機分析處理、數據挖掘的基礎;或者也可以把實時採集的數據作爲流計算系統的輸入,進行實時處理分析
    數據存儲和管理 利用分佈式文件系統、數據倉庫、關係數據庫、NoSQL數據庫、雲數據庫等,實現對結構化、半結構化和非結構化海量數據的存儲和管理
    數據處理與分析 利用分佈式並行編程模型和計算框架,結合機器學習和數據挖掘算法,實現對海量數據的處理和分析;對分析結果進行可視化呈現,幫助人們更好的理解數據、分析數據
    數據隱私和安全 在從大數據中挖掘潛在的巨大商業價值和學術價值的同時,構建隱私數據保護體系和數據安全體系,有效保護個人隱私和數據安全

    兩大核心技術

    • 分佈式存儲:
      GFS\HDFS、Big Table\HBase、NoSQL(鍵值、列族、圖形、文檔數據庫)、NewSQL(SQL Azure)
    • 分佈式處理:
      MapReduce

    6、大數據的計算模式

    大數據計算模式及其代表產品

    大數據計算模式解決問題代表產品
    批處理計算 針對大規模數據的批量處理 MapReduce、Spark等
    流計算 針對流數據的實時計算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、銀河六數據處理平臺
    圖計算 針對大規模圖結構數據的處理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
    查詢分析計算 大規模數據的存儲管理和查詢分析 Dremel、Hive、Cassandra、Impala等

    不同的產品服務於不同的計算問題。

    7、大數據產業

    大數據產業是指一切與支撐大數據組織管理和價值發現相關的企業經濟活動的集合。

    產業鏈環節包含內容
    IT基礎設施層 包括提供硬件、軟件、網絡等基礎設施以及提供諮詢、規劃和系統集成服務的企業,比如,提供數據中心解決方案的IBM、惠普和戴爾等,提供存儲解決方案的EMC,提供虛擬化管理軟件的微軟、思傑、SUN、Redhat等
    數據源層 大數據生態圈裏的數據提供者,是生物大數據(生物信息學領域的各類研究機構)、交通大數據(交通主管部門)、醫療大數據(各大醫院、體檢結構)、政務大數據(政府部門)、電商大數據(淘寶、天貓、蘇寧雲商、京東等電商)、社交網絡(微博、微信、人人網等)、搜索引擎大數據(百度、谷歌等)等各種數據來源
    數據管理層 包括數據抽取、轉換、存儲和管理等服務的各類企業或產品,比如分佈式文件系統(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數據庫和數據倉庫(Oracle、MySQL、SQL Server、HBase、GreenPlum等)
    數據分析層 包括提供分佈式計算、數據挖掘、統計分析等服務的各類企業或產品,比如分佈式計算框架(MapReduce、統計分析軟件SPSS和SAS、數據挖掘工具Weka、數據可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等
    數據平臺層 包括提供數據分享平臺、數據分析平臺、數據租售平臺等服務的企業或產品,比如阿里巴巴、谷歌、中國電信、百度等
    數據應用層 提供智能交通、智慧醫療、智能物流、智能電網等行業應用的企業、機構或政府部門,比如交通主管部門、各大醫療機構、菜鳥網絡、國家電網等

    8、大數據與雲計算、物聯網的關係

    雲計算、大數據和物聯網代表了IT領域最新的技術發展趨勢,三者相輔相成,既有聯繫又有區別。

    1.雲計算

    雲計算實現了通過網絡提供可伸縮的、廉價的分佈式計算能力,用戶只需要在具備網絡接入的條件的地方,就可以隨時地獲得所需要的各種IT資源。

    雲計算關鍵技術

    包括:虛擬化、分佈式存儲、分佈式計算、多租戶等。

    雲計算數據中心

    • 雲計算數據中心是一整套複雜的設施,包括刀片服務器、寬帶網絡連接、環境控制設備、監控設備以及各種安全裝置等。
    • 數據中心是雲計算的重要載體,爲雲計算提供計算、存儲、帶寬等各種硬件資源,爲各種平臺和應用提供運行支撐環境。
    • 全國各地推進數據中心建設

    雲計算應用

    • 政務雲可以部署公共安全管理、容災備份、城市管理、應急管理、智能交通、社會保障等應用,通過集約化建設、管理和運行,可以實現信息資源整合和政務資源共享,推動政務管理創新,加快向服務型政府轉型。
    • 教育雲可以有效整合幼兒教育、中小學教育、高等教育以及繼續教育等優質教育資源,逐步實現教育信息共享、教育資源共享以及教育資源深度挖掘等目標
    • 中小企業雲能夠讓企業以低廉的成本建立財務、供應鏈、客戶關係等管理應用系統,大大降低企業信息化門檻,迅速提升企業信息化水平,增強企業市場競爭力
    • 醫療雲可以推動醫院與醫院、醫院與社區、醫院與急救中心、醫院與家庭之間的服務共享,並形成一套全新的醫療健康服務系統,從而有效地提高醫療保健的質量

    雲計算產業

    • 雲計算產業作爲戰略性新興產業,近些年得到了迅速發展,形成了成熟的產業鏈結構,產業涵蓋硬件設備與設備製造、基礎設施運營、軟件與解決方案提供商、基礎設施即服務(IaaS)、平臺即服務(Paas)、軟件即服務(Saas)、終端設備、雲安全、雲計算交付/諮詢/認證等環節。

    2.物聯網

    概念

    物聯網是物物相連的互聯網,是互聯網的延伸,它利用局部網絡或互聯網等通信技術把傳感器、控制器、機器、人員和物等通過新的方式聯在一起,形成人與物、物與物相聯,實現信息化和遠程管理控制

    物聯網關鍵技術

    物聯網中的關鍵技術包括識別和感知技術(二維碼、RFID、傳感器等)、網絡與通信技術、數據挖掘與融合技術等

    物聯網應用

    物聯網已經廣泛應用於智能交通、智能醫療、智能家居、環保監測、智能安防、智能物流、智能電網、智慧農業、智能工業等領域,對國名經濟與社會發展起到了重要的推動作用

    物聯網產業

    完整的物聯網產業鏈主要包括核心感應器件提供商、感知層末端設備服務提供商、網絡供應商、軟件與行業解決方案提供商、系統集成商、運營及服務提供商等六大環節

    3.大數據與與計算、物聯網的關係

    雲計算、大數據和物聯網代表了IT領域最新的技術發展趨勢,三者既有區別又有聯繫。

    參考:

    《大數據技術原理與應用(第2版)》廈門大學 林子雨 編著人民郵電出版社

     

    發表評論
    所有評論
    還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
    相關文章