原创 Java面試題-互聯網中間件(持續更新)

Flume Agent三個組件:Source、Channel、Sink   Source 專門用來收集數據,可以處理各種類型、各種格式的日誌數據,比如avro、exec、HTTP、Kafka、Spooling Directory等

原创 Java面試題-集合(持續更新)

  從上面的集合框架圖可以看到,Java 集合框架主要包括兩種類型的容器,一種是集合(Collection),存儲一個元素集合,另一種是圖(Map),存儲鍵/值對映射。Collection 接口又有 3 種子類型,List、Se

原创 Java併發編程(二)-線程池和AQS介紹

什麼是線程池?爲什麼要有線程池?   線程池是一種多線程處理形式,處理過程中將任務添加到隊列,然後在創建線程後自動啓動這些任務。   如果併發的線程數量很多,並且每個線程都是執行一個時間很短的任務就結束了,這樣頻繁創建線程就會大大

原创 Java面試題-Spring Boot和Spring Cloud(持續更新)

Spring Boot相關模塊介紹 Spring IO platform:用於系統部署,是可集成的,構建現代化應用的版本平臺,具體來說當你使用maven dependency引入spring jar包時它就在工作了。 Spring

原创 大數據 - Spark開發環境(IDEA)

Spark運行模式 本地運行模式 (單機)        該模式被稱爲Local[N]模式,是用單機的多個線程來模擬Spark分佈式計算,通常用來驗證開發出來的應用程序邏輯上有沒有問題。        運行該模式非常簡單,只需要把

原创 大數據 - 統計分析平臺架構介紹

項目簡介        項目的主要功能是在互聯網環境中對多個系統產生的日誌進行收集,將各系統的日誌格式進行統一後存儲到特定平臺目錄下面。使用Azkaban任務調度系統中配置Job,對平臺上的數據進行ETL操作和分析。將最終產生的結

原创 Java開發過程中要注意的事項

合理使用緩存   增加了Redis(Memcached)緩存,以避免頻繁調用一些不變的數據。 MyBatis參數問題   在MyBatis的xml裏,select語句where條件有isnull,即這個值有就增加一個where條件

原创 大數據 - Spark常用算子

從大方向來說,Spark 算子大致可以分爲以下三類: Transformation        變換/轉換算子,這種變換並不觸發提交作業,完成作業中間過程處理。Transformation 操作是延遲計算的,也就是說從一個RDD

原创 大數據 - Hive介紹和安裝使用

Hive        hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語

原创 大數據 - Spark Streaming介紹和實戰

Spark Streaming        Spark Streaming 是Spark核心API的一個擴展,可以實現高吞吐量的、具備容錯機制的實時流數據的處理。支持從多種數據源獲取數據,包括Kafk、Flume、Twitter、Z

原创 大數據 - Spark介紹和環境搭建

Spark        Spark是一個用來實現快速而通用的集羣計算的平臺。擴展了廣泛使用的MapReduce計算模型,而且高效地支持更多的計算模式,包括交互式查詢和流處理。在處理大規模數據集的時候,速度是非常重要的。Spark的一

原创 大數據 - Java實現提交作業到Hadoop集羣

windows環境 IntelliJ IDEA JDK1.8 hadoop-2.8.5.tar.gz 從官網上下載解壓配置JDK, Hadoop https://hadoop.apache.org/releases.html 下載2.

原创 大數據 - Hadoop安裝

完全分佈式集羣安裝        windows安裝vmwave後準備一臺安linux系統的虛擬機(之後要克隆兩臺,算好硬盤和內存),這裏使用centos6.5。 192.168.189.130 hadoop1 192.168.189

原创 大數據 - Hadoop - YARN

Hadoop - YARN 舊的MapReduce架構         JobTracker: 負責資源管理,跟蹤資源消耗和可用性,作業生命週期管理(調度作業任務,跟蹤進度,爲任務提供容錯) TaskTracker: 加載或關閉任務,

原创 大數據 - Hadoop - HDFS

前言         Hadoop是一個專爲離線和大規模數據分析而設計的,並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。 Hadoop=HDFS(文件系統,數據存儲技術相關)+ Mapreduce(數據處理),Hadoop的數據來