台部落蒙蒙的林先生

Flume Agent三個組件：Source、Channel、Sink Source 專門用來收集數據，可以處理各種類型、各種格式的日誌數據，比如avro、exec、HTTP、Kafka、Spooling Directory等

2020-06-30 04:33:40

　　從上面的集合框架圖可以看到，Java 集合框架主要包括兩種類型的容器，一種是集合（Collection），存儲一個元素集合，另一種是圖（Map），存儲鍵/值對映射。Collection 接口又有 3 種子類型，List、Se

2020-06-30 04:33:40

什麼是線程池？爲什麼要有線程池？線程池是一種多線程處理形式，處理過程中將任務添加到隊列，然後在創建線程後自動啓動這些任務。如果併發的線程數量很多，並且每個線程都是執行一個時間很短的任務就結束了，這樣頻繁創建線程就會大大

2020-06-30 04:33:40

Spring Boot相關模塊介紹 Spring IO platform:用於系統部署，是可集成的，構建現代化應用的版本平臺，具體來說當你使用maven dependency引入spring jar包時它就在工作了。 Spring

2020-06-30 04:33:30

Spark運行模式本地運行模式（單機）該模式被稱爲Local[N]模式，是用單機的多個線程來模擬Spark分佈式計算，通常用來驗證開發出來的應用程序邏輯上有沒有問題。運行該模式非常簡單，只需要把

2020-06-30 04:33:30

項目簡介項目的主要功能是在互聯網環境中對多個系統產生的日誌進行收集，將各系統的日誌格式進行統一後存儲到特定平臺目錄下面。使用Azkaban任務調度系統中配置Job，對平臺上的數據進行ETL操作和分析。將最終產生的結

2020-06-30 04:33:30

合理使用緩存增加了Redis（Memcached）緩存，以避免頻繁調用一些不變的數據。 MyBatis參數問題在MyBatis的xml裏，select語句where條件有isnull，即這個值有就增加一個where條件

2020-06-30 04:33:30

從大方向來說，Spark 算子大致可以分爲以下三類: Transformation 變換/轉換算子，這種變換並不觸發提交作業，完成作業中間過程處理。Transformation 操作是延遲計算的，也就是說從一個RDD

2019-06-11 01:34:57

Hive hive是基於Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射爲一張數據庫表，並提供簡單的sql查詢功能，可以將sql語句轉換爲MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語

2019-03-22 21:49:40

Spark Streaming Spark Streaming 是Spark核心API的一個擴展，可以實現高吞吐量的、具備容錯機制的實時流數據的處理。支持從多種數據源獲取數據，包括Kafk、Flume、Twitter、Z

2019-03-22 21:49:40

Spark Spark是一個用來實現快速而通用的集羣計算的平臺。擴展了廣泛使用的MapReduce計算模型，而且高效地支持更多的計算模式，包括交互式查詢和流處理。在處理大規模數據集的時候，速度是非常重要的。Spark的一

2019-03-11 19:32:43

windows環境 IntelliJ IDEA JDK1.8 hadoop-2.8.5.tar.gz 從官網上下載解壓配置JDK， Hadoop https://hadoop.apache.org/releases.html 下載2.

2019-03-06 15:49:21

完全分佈式集羣安裝 windows安裝vmwave後準備一臺安linux系統的虛擬機（之後要克隆兩臺，算好硬盤和內存），這裏使用centos6.5。 192.168.189.130 hadoop1 192.168.189

2019-02-28 22:41:53

Hadoop - YARN 舊的MapReduce架構 JobTracker: 負責資源管理，跟蹤資源消耗和可用性，作業生命週期管理（調度作業任務，跟蹤進度，爲任務提供容錯） TaskTracker: 加載或關閉任務，

2019-02-27 22:51:16

前言 Hadoop是一個專爲離線和大規模數據分析而設計的，並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。 Hadoop=HDFS（文件系統，數據存儲技術相關）+ Mapreduce（數據處理），Hadoop的數據來

2019-02-22 05:26:11