Hadoop生態系統在各個模塊中的作用

　　知識回顧

　　傳統的web應用(LAMP、JavaEE、NODE系等)與大數據什麼關係?

　　之前一直以爲大數據的東西就是來取代傳統的Web應用的，其實並不是這樣;即使是大數據的架構，應用層依然會是傳統的web應用，但是會根據數據特點對數據存儲(結構化數據依然會保存在傳統的關係型數據庫——如MySql，日誌等非結構數據會保存在分佈式文件系統——如Hadoop的HDFS)。

　　大數據的東西不是取代傳統的web應用，而是對web應用的增強。基於分佈式存儲和分佈式計算，以前單機或者小規模集羣無法解決的問題，使用了大數據技術之後就可以解決了，比如日誌等數據當數據量非常大的時候(TB甚至PB)，對這些數據的分析在傳統架構上是不可能或者是非常慢的，使用了大數據技術之後就是可能的了——主要是將數據處理通過MapReduce等拆分到不同的節點(電腦)上執行，然後將節點上的結果合併，最後生成分析結果。

　　雲計算和大數據

　　這個話題在林子雨老師的教程——“第一講大數據概述”裏介紹的非常好，感興趣的朋友可以自己去看看，這裏概括總結爲：“雲計算爲大數據提供了技術基礎，大數據爲雲計算提供了用物之地”。

　　現在幾乎所有的公司都把自己的產品吹成“雲”...但是真的都是“雲”麼?其實很多都是傳統的web應用部署到阿里雲這些第三方雲平臺吧;還有一部分有自己服務器(一般配置)，然後搞個公網ip，部署上去也說自己是“雲”。

　　Hadoop結構(更新)

　　大數據處理架構Hadoop

　　學習歷程

　　瞭解Hadoop生態系統，瞭解一下生態系統中各模塊的作用，文章後面對各模塊有一些簡單的總結

　　HDFS

　　YARN

　　HBase

　　MapReduce

　　Hive

　　Pig

　　Mahout

　　Zookeeper

　　Sqoop

　　Flume

　　Kafka等

　　瞭解Spark，瞭解Spark比MapReduce的優勢，學習RDD編程

　　Spark SQL

　　Spark Streaming

　　Spark Mlib

　　...

　　找兩臺電腦搭個Hadoop、Spark集羣，配置Spark開發環境(SBT)，運行一些demo例程，典型如WordCount

　　研究一下MapReduce的WordCount和Spark的WorkCount的代碼，通過對比加深理解

　　參考如下案例，瞭解大數據應用，熟悉HBase，Hive，Sqoop等

　　網站用戶行爲分析

　　Spark課程綜合實驗案例：淘寶雙11數據分析與預測

　　Spark課程實驗案例：Spark+Kafka構建實時分析Dashboard

　　整理一些知識

　　HBase

　　HBase是一個高可靠、高性能、面向列、可伸縮的分佈式數據庫，是谷歌BigTable的開源實現，主要用來存儲非結構化和半結構化的鬆散數據。HBase的目標是處理非常龐大的表，可以通過水平擴展的方式，利用廉價計算機集羣處理由超過10億行數據和數百萬列元素組成的數據表

　　HBase可以直接使用本地文件系統或者Hadoop作爲數據存儲方式，不過爲了提高數據可靠性和系統的健壯性，發揮HBase處理大數據量等功能，需要使用Hadoop作爲文件系統。與Hadoop一樣，HBase目標主要依靠橫向擴展，通過不斷增加廉價的商用服務器來增加計算和存儲能力。

　　HIVE

　　Hive是一個構建於Hadoop頂層的數據倉庫工具，由Facebook公司開發，並在2008年8月開源。Hive在某種程度上可以看作是用戶編程接口，其本身並不存儲和處理數據，而是依賴HDFS來存儲數據，依賴MapReduce來處理數據。Hive定義了簡單的類似SQL的查詢語言——HiveQL，它與大部分SQL語法兼容，但是，並不完全支持SQL標準，比如，HiveSQL不支持更新操作，也不支持索引和事務，它的子查詢和連接操作也存在很多侷限。

　　HiveQL語句可以快速實現簡單的MapReduce任務，這樣用戶通過編寫的HiveQL語句就可以運行MapReduce任務，不必編寫複雜的MapReduce應用程序。對於Java開發工程師而言，就不必花費大量精力在記憶常見的數據運算與底層的MapReduce Java API的對應關係上;對於DBA來說，可以很容易把原來構建在關係數據庫上的數據倉庫應用程序移植到Hadoop平臺上。所以說，Hive是一個可以有效、合理、直觀地組織和使用數據的分析工具。

　　Impala

　　Hive 作爲現有比較流行的數據倉庫分析工具之一，得到了廣泛的應用，但是由於Hive採用MapReduce 來完成批量數據處理，因此，實時性不好，查詢延遲較高。Impala 作爲新一×××源大數據分析引擎，支持實時計算，它提供了與Hive 類似的功能，並在性能上比Hive高出3~30 倍。Impala 發展勢頭迅猛，甚至有可能會超過Hive 的使用率而成爲Hadoop 上最流行的實時計算平臺。

　　Hive 與Impala 的不同點：

　　第一，Hive 比較適合進行長時間的批處理查詢分析，而Impala 適合進行實時交互式SQL 查詢。

　　第二，Hive 依賴於MapReduce 計算框架，執行計劃組合成管道型的MapReduce 任務模式進行執行，而Impala 則把執行計劃表現爲一棵完整的執行計劃樹，可以更自然地分發執行計劃到各個Impalad執行查詢。

　　第三，Hive在執行過程中，如果內存放不下所有數據，則會使用外存，以保證查詢能順序執行完成，而Impala在遇到內存放不下數據時，不會利用外存，所以，Impala目前處理查詢時會受到一定的限制。

　　Hive與Impala的相同點：

　　第一，Hive與Impala使用相同的存儲數據池，都支持把數據存儲於HDFS和HBase中，其中，HDFS支持存儲TEXT、RCFILE、PARQUET、AVRO、ETC等格式的數據，HBase存儲表中記錄。

　　第二，Hive與Impala使用相同的元數據。

　　第三，Hive與Impala中對SQL的解釋處理比較相似，都是通過詞法分析生成執行計劃。

　　總的來說，Impala的目的不在於替換現有的MapReduce工具，把Hive與Impala配合使用效果最佳，可以先使用Hive進行數據轉換處理，之後再使用Impala在Hive處理後的結果數據集上進行快速的數據分析。

　　PIG

　　Pig 是Hadoop 生態系統的一個組件，提供了類似SQL 的Pig Latin 語言(包含Filter、GroupBy、Join、OrderBy 等操作，同時也支持用戶自定義函數)，允許用戶通過編寫簡單的腳本來實現複雜的數據分析，而不需要編寫複雜的MapReduce 應用程序，Pig 會自動把用戶編寫的腳本轉換成MapReduce 作業在Hadoop 集羣上運行，而且具備對生成的MapReduce程序進行自動優化的功能，所以，用戶在編寫Pig 程序的時候，不需要關心程序的運行效率，這就大大減少了用戶編程時間。因此，通過配合使用Pig 和Hadoop，在處理海量數據時就可以實現事半功倍的效果，比使用Java、C++等語言編寫MapReduce 程序的難度要小很多，並且用更少的代碼量實現了相同的數據處理分析功能。Pig 可以加載數據、表達轉換數據以及存儲最終結果，因此，在企業實際應用中，Pig通常用於ETL(Extraction、Transformation、Loading)過程，即來自各個不同數據源的數據被收集過來以後，採用Pig 進行統一加工處理，然後加載到數據倉庫Hive 中，由Hive 實現對海量數據的分析。需要特別指出的是，每種數據分析工具都有一定的侷限性，Pig 的設計和MapReduce 一樣，都是面向批處理的，因此，Pig 並不適合所有的數據處理任務，特別是當需要查詢大數據集中的一小部分數據時，Pig 仍然需要對整個或絕大部分數據集進行掃描，因此，實現性能不會很好。

　　Tez

　　Tez 是Apache 開源的支持DAG 作業的計算框架，通過DAG 作業的方式運行MapReduce 作業，提供了程序運行的整體處理邏輯，就可以去除工作流當中多餘的Map 階段，減少不必要的操作，提升數據處理的性能。Hortonworks把Tez 應用到數據倉庫Hive 的優化中，使得性能提升了約100 倍。如圖15-13 所示，可以讓Tez 框架運行在YARN 框架之上，然後讓MapReduce、Pig 和Hive 等計算框架運行在Tez框架之上，從而藉助於Tez 框架實現對MapReduce、Pig 和Hive 等的性能優化，更好地解決現有MapReduce 框架在迭代計算(如PageRank 計算)和交互式計算方面存在的問題。

　　Tez在解決Hive、Pig延遲大、性能低等問題的思路，是和那些支持實時交互式查詢分析的產品(如Impala、Dremel和Drill等)是不同的。Impala、Dremel和Drill的解決問題思路是拋棄MapReduce計算框架，不再將類似SQL語句的HiveQL或者Pig語句翻譯成MapReduce程序，而是採用與商用並行關係數據庫類似的分佈式查詢引擎，可以直接從HDFS或者HBase中用SQL語句查詢數據，而不需要把SQL語句轉化成MapReduce任務來執行，從而大大降低了延遲，很好地滿足了實時查詢的要求。但是，Tez則不同，比如，針對Hive數據倉庫進行優化的“Tez+Hive”解決方案，仍採用MapReduce計算框架，但是對DAG的作業依賴關係進行了裁剪，並將多個小作業合併成一個大作業，這樣，不僅計算量減少了，而且寫HDFS次數也會大大減少。

　　Kafka

　　Kafka是由LinkedIn公司開發的一種高吞吐量的分佈式發佈訂閱消息系統，用戶通過Kafka系統可以發佈大量的消息，同時也能實時訂閱消費消息。

　　在大數據時代涌現的新的日誌收集處理系統(Flume、Scribe等)往往更擅長批量離線處理，而不能較好地支持實時在線處理。相對而言，Kafka可以同時滿足在線實時處理和批量離線處理。

　　Kafka設計的初衷是構建一個可以處理海量日誌、用戶行爲和網站運營統計等的數據處理框架

　　最近幾年，Kafka在大數據生態系統中開始扮演越來越重要的作用，在Uber、Twitter、Netflix、LinkedIn、Yahoo、Cisco、Goldman Sachs等公司得到了大量的應用。目前，在很多公司的大數據平臺中，Kafka通常扮演數據交換樞紐的角色。

　　在公司的大數據生態系統中，可以把Kafka作爲數據交換樞紐，不同類型的分佈式系統(關係數據庫、NoSQL數據庫、流處理系統、批處理系統等)，可以統一接入到Kafka，實現和Hadoop各個組件之間的不同類型數據的實時高效交換，較好地滿足各種企業應用需求。

　　Sqoop

　　Sqoop是一款開源的工具，主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql...)間進行數據的傳遞，可以將一個關係型數據庫(例如： MySQL ,Oracle ,Postgres等)中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關係型數據庫中。
　

Hadoop生態系統在各個模塊中的作用

《Python進階》學習筆記

Leetcode 3161. 物塊放置查詢

leetcode 60 排列序列

一個docker容器暴露多個端口

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

紫光雲基礎雲服務解析系列：雲存儲產品

【百博雲服務】計算進化加速度，華爲雲全新一代雲服務器正式商用

雲服務+應用智能+敏捷工作方式：加速企業數字化轉型

5G與雲服務——未來雲上的娛樂藍圖

企業雲服務究竟是怎樣的存在？

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結