社區版Hadoop與商用版Hadoop

在實際生產環境中,Hadoop的版本選擇是在設計系統架構之時很重要的一個考慮因素。Hadoop版本主要分爲社區版和商用版:

  • 社區版Hadoop:Apache發佈的一款支持數據密集型分佈式應用並以Apache2.0許可協議發佈的開源軟件框架。它支持在商品硬件構建的大型集羣上運行的應用程序;
  • 商用版Hadoop:第三方公司在社區版Hadoop基礎上進行了一些修改、整合以及各個服務組件兼容性測試;


社區版Hadoop存在以下缺點:

  • 複雜的版本管理,版本管理比較混亂,各種版本層出不窮,在使用的時候難以選擇一個恰當的版本;
  • 複雜的生態環境,在Hadoop生態圈中,服務組件的選擇、使用,比如Hive,Mahout,Sqoop,Flume,Spark,Oozie等等,需要大量考慮兼容性的問題,版本是否兼容,組件是否有衝突,編譯是否能通過等,經常會浪費大量的時間去編譯組件,解決版本衝突問題,致使開發人員無法將更多的精力放在業務處理上。
  • 複雜的集羣部署、安裝、配置。選用社區版Hadoop搭建集羣需要編寫大量的配置文件,手動分發到每一臺節點上,容易出錯,效率低下;
  • 複雜的集羣運維,對集羣的監控,運維,需要安裝第三方的其他軟件,如ganglia,nagois等,對維護人員要求較高,運維難度較大;


針對社區版Hadoop的以上缺點,第三方發行公司在開源Hadoop框架上做了以下重要改進:

  • 基於穩定版本Apache Hadoop,應用了最新Bug修復或Feature的patch;
  • 清晰的版本管理,比如Cloudera,CDH1,CDH2,CDH3,CDH4等,後面加上補丁版本,如CDH4.1.0 patch level 923.142,表示在原生態Apache Hadoop 0.20.2基礎上添加了1065個patch;
  • 在兼容性、安全性、穩定性上大大增強,商用版Hadoop通常都經過了大量的兼容性測試驗證,並在國內外衆多實際應用場景中得到了驗證,有廣大的用戶羣體;
  • 傻瓜式集羣部署、安裝、配置。商用版Hadoop提供自動化了部署、安裝、配置工具,自動探測主機節點,自動分發安裝包,自動選擇最優配置參數等等,大大提高了集羣部署的效率,可以在幾個小時內部署好集羣;
  • 運維簡單,提供了管理、監控、診斷、配置修改的可視化工具,管理配置方便,定位問題快速、準確,使運維工作簡單,有效。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章