原创 Hive執行中map的數量和reduce的數量怎麼控制

一、 控制hive任務中的map數: 通常情況下,作業會通過input的目錄產生一個或者多個map任務。 主要的決定因素有: input的文件總個數,input的文件大小,集羣設置的文件塊大小(目前爲128M, 可在hive

原创 sqoop導入和導出數據腳本

sqoop導入和導出數據腳本 一、將mysql數據導入到Hive sqoop import \ --connect jdbc:mysql://:3306/bd?characterEncoding=utf-8 \ --username

原创 Hbase常用面試題和高級查詢

Hbase常用面試題和高級查詢 一、HBase的工作方式   hbase表中的數據按照行鍵的字典順序排序,hbase表中的數據按照行的的方向切分爲多個region,最開始只有一個region 隨着數據量的增加 產生分裂 這個過程不停的

原创 Hive中json格式數據的處理

Hive中json格式數據的處理 參考博客:Hive中自定義UDF函數解析json格式數據

原创 軌跡異常項目總結

軌跡異常項目總結 一、該項目主要解決什麼問題?   由於公司是做車聯網這塊的服務,通過賣卡來獲取用戶,用戶續費我們的套餐來獲取我們提供的免費服務。比如:原地設防,在線查車,軌跡查詢,啓動提醒,行車SOS,違章查詢等服務,對於軌跡查詢這

原创 Hive概述、內部表、外部表、分區表的操作

Hive概述、內部表、外部表、分區表的操作 一、Hive概述   Hive是基於Hadoop的一個數據倉庫工具。可以將結構化的數據文件映射爲一張數據庫表,並提供完整的sql查詢功能,可以將sql語句轉換爲MapReduce任務進行運行

原创 Linux基礎(四)

Linux基礎(四) 一、文件壓縮和打包   1.gzip命令(應用廣泛):可以解開compress,zip與gzip等軟件所壓縮的文件    -c 將壓縮的數據輸出到標準輸出(stdout)上    -d 解壓縮    -t 可以用

原创 Hash一致性算法

Hash一致性算法 一、Hash一致性算法   通過hash一致性算法,將對應的key哈希到一個具有2^32 次方個桶的空間中,即0~(2^32)-1的數字空間中。現在我們可以將這些數字頭尾相連,想象成一個閉合的環形。固定的key就會

原创 java的位運算以及二進制和十六進制

java的位運算以及二進制和十六進制 一、二進制   計算機內部表示數的字節長度是固定的,比如8位,16位,32位。所以在高位補齊,java中字節碼是8位的,最高位是符號位,1個字節是八個二進制。此時從個位開始計算2的冪(個位是0,依

原创 redis常用面試題總結

redis常用面試題總結 一、雪崩問題   在海量數據時,現在電商系統已經對緩存的依賴性非常高。有一種情況。當海量的請求過來時,緩存宕機,海量的請求繼續涌向數據庫,數據庫服務器宕機。將數據庫服務器重啓,重啓後,剛起來,海量的請求又來了

原创 Hive常用函數和分桶表

Hive常用函數和分桶表 一、字符串常用函數 二、分桶表   分桶操作是更細粒度的分配方式,一張表可以同時分區和分桶,分桶的原理是根據指定的列的計算hash值模餘分桶數量後將數據分開存放。   Hive的分桶實際上就

原创 sqoop安裝及指令

一、Sqoop介紹:   sqoop是Apache 提供的工具,用於hdfs和關係型數據庫之間數據的導入和導出,可以從hdfs導出數據到關係型數據庫,也可以從關係型數據庫導入數據到hdfs。 二、實現步驟:   1.準備sqoop安裝

原创 Hive數據類型、 explode、自定義UDF

Hive數據類型、 explode、自定義UDF 一、基本類型 二、複雜類型 三、數組類型 array   案例一、   元數據:    100,200,300    200,300,500   建表語句:create exter

原创 Hive體系結構

Hive體系結構 一、用戶接口   用戶接口主要有三個:CLI,JDBC 和 WUI    1.CLI,最常用的模式。實際上在>hive 命令行下操作時,就是利用CLI用戶接口。    2.JDBC,通過java代碼操作,需要啓動hi

原创 Linux基礎(五)

Linux基礎(五) 1.常見的shell命令   1.管道命令    利用linux所提供的管道符"|"將兩個命令隔開,管道符左邊命令的輸出就作爲管道符右邊命令輸入    eg:ls -al|grep Music   2.find命