原创 【Hive筆記】8.1——壓縮和存儲

前言 hadoop是支持好幾種格式的數據壓縮,不同的壓縮格式具有不同的壓縮比和解壓比。 MR支持的壓縮編碼 壓縮格式 工具 算法 文件擴展名 是否可切分 DEFAULT 無 DEFAULT .default 否

原创 【Kafka筆記】4.Kafka API詳細解析 Java版本(Producer API,Consumer API,攔截器等)

簡介 Kafka的API有Producer API,Consumer API還有自定義Interceptor (自定義攔截器),以及處理的流使用的Streams API和構建連接器的Kafka Connect API。 Produ

原创 【Kafka筆記】5.Kafka 多線程消費消息

Kafka多線程消費理解 Kafka Java Consumer設計 Kafka Java Consumer採用的是單線程的設計。其入口類KafkaConsumer是一個雙線程的設計,即用戶主線程和心跳線程。 用戶主線程,指的是啓

原创 【Oozie筆記】4. Oozie邏輯調度執行多個Job

簡介 oozie不僅可以執行單個任務,也可以在一個任務中執行多個job,只需要添加多個的action,並讓第一個任務成功之後指向第二個任務等以此類推。 執行多個job任務 相比執行多個任務,我們的oozie的任務配置文件是需要做改

原创 【Kafka筆記】1.Kafka概述

1. 定義 Kafka是一個分佈式的基於發佈/訂閱模式的消息隊列(Message Queue),主要應用於大數據實時處理領域。 2. 消息隊列 2.1 傳統消息隊列的應用場景 傳統使用場景就是異步處理: 使用消息隊列的好處: 1

原创 【Kafka筆記】2.Kafka常用命令操作

簡介 kafka可以使用java等編程語言實現topic以及消費消息,生產消息的操作,同樣命令行也可以實現這些操作。 Kafka的topic的增刪改查 對於kafka的topic操作,我們需要用到的是bin/kafka-topic

原创 【HBase筆記】HBase Shell操作(三)

1. 基本操作 1.1 進入Hbase客戶端命令行 執行命令root@master:/opt/module/cdh/hbase-1.3.1/bin# ./hbase shell進入客戶端。 1.2 查看幫助命令 執行help 得

原创 【HBase筆記】HBase安裝(二)

簡介 HBase的安裝和Hadoop的安裝是差不多的,這種體系的安裝基本上都是相似的。 前期準備: Hadoop的運行 Zookeeper的運行 我是在虛擬機上安裝的僞分佈式模式。 安裝步驟 解壓HBase的安裝包 我是

原创 【Hive筆記】8.2——文件存儲格式

前言 在hive中支持的存儲數數據格式主要有:TEXTFILE,SEQUENCEFILE,ORC,PARQUET。 列式存儲和行式存儲 在當今的數據處理大致可分爲兩大類,聯機事務處理OLTP(on-line-transaction

原创 【SparkSQL筆記】SparkSQL的Dataset操作大全(二)

SparkSQL的Dataset/DataFrame操作大全 簡介說明 ​1. Spark程序中利用SparkSession對象提供的讀取相關數據源的方法讀取來自不同數據源的結構化數據,轉化爲Dataset(DataFrame),

原创 【SparkSQL筆記】SarkSQL高併發讀取數據庫和存儲數據到數據庫(三)

1. SparkSql 高併發讀取數據庫 SparkSql連接數據庫讀取數據給了三個API: //Construct a DataFrame representing the database table accessible v

原创 【JAVA】Log4j2日誌詳解

一、log4j2配置詳解 項目裏使用了log4j2作爲日誌打印,但是log4j2和log4j相比配置文件有很大的差異,所以這裏記錄一下配置文件的說明 二、配置解析 1. 配置文件的名稱以及在項目中的位置 在查閱資料的時候看到有的博

原创 【SparkSQL筆記】SparkSQL的入門實踐教程(一)

1.Spark SQL概述 Spark SQL是用於處理結構化數據的模塊。與Spark RDD不同的是,Spark SQL提供數據的結構信息(源數據)和性能更好,可以通過SQL和DataSet API與Spark SQL進行交互。

原创 【Kafka筆記】3.Kafka架構詳解

1.Kafka工作流程 Kafka中的消息是以topic進行分類的,生產者生產消息,消費者消費消息,都是面向topic的。 topic是邏輯上的概念,而partition是物理上的概念,每個partiyion對應於一個log文件

原创 【Hive筆記】8.3——Hive主流文件存儲格式對比實驗

每種存儲格式都有自己的用處,這裏從存儲文件的壓縮比和查詢速度兩個方面對比 存儲文件壓縮比測試 測試數據爲18.1M的日誌文件。 TextFile格式 (1) 創建表,存儲格式爲TextFilecreate table log_t