後Hadoop時代的大數據架構

  說到大數據分析平臺,不得不說Hadoop系統,Hadoop到現在也超過10年的歷史了,很多東西發生了變化,版本也從0.x進化到目前的2.6版本。把2012年後定義成後Hadoop平臺時代,這不是說不用Hadoop,而是像NoSQL (Not Only SQL)那樣,有其他的選型補充。


  本文是作者 董飛 對於後Hadoop時代變革的思考,點擊 閱讀原文,可關注作者的博客


  背景篇


  Hadoop: 開源的數據分析平臺,解決了大數據(大到一臺計算機無法進行存儲,一臺計算機無法在要求的時間內進行處理)的可靠存儲和處理。適合處理非結構化數據,包括HDFS,MapReduce基本組件。


  HDFS:提供了一種跨服務器的彈性數據存儲系統。


  MapReduce:技術提供了感知數據位置的標準化處理流程:讀取數據,對數據進行映射(Map),使用某個鍵值對數據進行重排,然後對數據進行化簡(Reduce)得到最終的輸出。


  Amazon Elastic Map Reduce(EMR):託管的解決方案,運行在由Amazon Elastic Compute Cloud(EC2)和Simple Strorage Service(S3)組成的網絡規模的基礎設施之上。如果你需要一次性的或不常見的大數據處理,EMR可能會爲你節省開支。但EMR是高度優化成與S3中的數據一起工作,會有較高的延時。


  Hadoop 還包含了一系列技術的擴展系統,這些技術主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。


  Pig:分析大數據集的一個平臺,該平臺由一種表達數據分析程序的高級語言和對這些程序進行評估的基礎設施一起組成。


  Hive:用於Hadoop的一個數據倉庫系統,它提供了類似於SQL的查詢語言,通過使用該語言,可以方便地進行數據彙總,特定查詢以及分析。


  Hbase:一種分佈的、可伸縮的、大數據儲存庫,支持隨機、實時讀/寫訪問。


  Sqoop:爲高效傳輸批量數據而設計的一種工具,其用於Apache Hadoop和結構化數據儲存庫如關係數據庫之間的數據傳輸。


  Flume:一種分佈式的、可靠的、可用的服務,其用於高效地蒐集、彙總、移動大量日誌數據。


  ZooKeeper:一種集中服務,其用於維護配置信息,命名,提供分佈式同步,以及提供分組服務。


  Cloudera:最成型的Hadoop發行版本,擁有最多的部署案例。提供強大的部署、管理和監控工具。開發並貢獻了可實時處理大數據的Impala項目。


  Hortonworks:使用了100%開源Apache Hadoop提供商。開發了很多增強特性並提交至核心主幹,這使得Hadoop能夠在包括Windows Server和Azure在內平臺上本地運行。


  MapR:獲取更好的性能和易用性而支持本地Unix文件系統而不是HDFS。提供諸如快照、鏡像或有狀態的故障恢復等高可用性特性。領導着Apache Drill項目,是Google的Dremel的開源實現,目的是執行類似SQL的查詢以提供實時處理。

  大連做人流多少錢 http://www.fkyy120.net/

  大連治療陽痿早泄醫院 http://www.84211111.net/


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章