原创 Java面試題-互聯網中間件(持續更新)
Flume Agent三個組件:Source、Channel、Sink Source 專門用來收集數據,可以處理各種類型、各種格式的日誌數據,比如avro、exec、HTTP、Kafka、Spooling Directory等
原创 Java面試題-集合(持續更新)
從上面的集合框架圖可以看到,Java 集合框架主要包括兩種類型的容器,一種是集合(Collection),存儲一個元素集合,另一種是圖(Map),存儲鍵/值對映射。Collection 接口又有 3 種子類型,List、Se
原创 Java併發編程(二)-線程池和AQS介紹
什麼是線程池?爲什麼要有線程池? 線程池是一種多線程處理形式,處理過程中將任務添加到隊列,然後在創建線程後自動啓動這些任務。 如果併發的線程數量很多,並且每個線程都是執行一個時間很短的任務就結束了,這樣頻繁創建線程就會大大
原创 Java面試題-Spring Boot和Spring Cloud(持續更新)
Spring Boot相關模塊介紹 Spring IO platform:用於系統部署,是可集成的,構建現代化應用的版本平臺,具體來說當你使用maven dependency引入spring jar包時它就在工作了。 Spring
原创 大數據 - Spark開發環境(IDEA)
Spark運行模式 本地運行模式 (單機) 該模式被稱爲Local[N]模式,是用單機的多個線程來模擬Spark分佈式計算,通常用來驗證開發出來的應用程序邏輯上有沒有問題。 運行該模式非常簡單,只需要把
原创 大數據 - 統計分析平臺架構介紹
項目簡介 項目的主要功能是在互聯網環境中對多個系統產生的日誌進行收集,將各系統的日誌格式進行統一後存儲到特定平臺目錄下面。使用Azkaban任務調度系統中配置Job,對平臺上的數據進行ETL操作和分析。將最終產生的結
原创 Java開發過程中要注意的事項
合理使用緩存 增加了Redis(Memcached)緩存,以避免頻繁調用一些不變的數據。 MyBatis參數問題 在MyBatis的xml裏,select語句where條件有isnull,即這個值有就增加一個where條件
原创 大數據 - Spark常用算子
從大方向來說,Spark 算子大致可以分爲以下三類: Transformation 變換/轉換算子,這種變換並不觸發提交作業,完成作業中間過程處理。Transformation 操作是延遲計算的,也就是說從一個RDD
原创 大數據 - Hive介紹和安裝使用
Hive hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射爲一張數據庫表,並提供簡單的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行。 其優點是學習成本低,可以通過類SQL語
原创 大數據 - Spark Streaming介紹和實戰
Spark Streaming Spark Streaming 是Spark核心API的一個擴展,可以實現高吞吐量的、具備容錯機制的實時流數據的處理。支持從多種數據源獲取數據,包括Kafk、Flume、Twitter、Z
原创 大數據 - Spark介紹和環境搭建
Spark Spark是一個用來實現快速而通用的集羣計算的平臺。擴展了廣泛使用的MapReduce計算模型,而且高效地支持更多的計算模式,包括交互式查詢和流處理。在處理大規模數據集的時候,速度是非常重要的。Spark的一
原创 大數據 - Java實現提交作業到Hadoop集羣
windows環境 IntelliJ IDEA JDK1.8 hadoop-2.8.5.tar.gz 從官網上下載解壓配置JDK, Hadoop https://hadoop.apache.org/releases.html 下載2.
原创 大數據 - Hadoop安裝
完全分佈式集羣安裝 windows安裝vmwave後準備一臺安linux系統的虛擬機(之後要克隆兩臺,算好硬盤和內存),這裏使用centos6.5。 192.168.189.130 hadoop1 192.168.189
原创 大數據 - Hadoop - YARN
Hadoop - YARN 舊的MapReduce架構 JobTracker: 負責資源管理,跟蹤資源消耗和可用性,作業生命週期管理(調度作業任務,跟蹤進度,爲任務提供容錯) TaskTracker: 加載或關閉任務,
原创 大數據 - Hadoop - HDFS
前言 Hadoop是一個專爲離線和大規模數據分析而設計的,並不適合那種對幾個記錄隨機讀寫的在線事務處理模式。 Hadoop=HDFS(文件系統,數據存儲技術相關)+ Mapreduce(數據處理),Hadoop的數據來