原创 shell腳本調用hive示例

方法一:    建立shell腳本如下run.sh如下:   #!/bin/sh      #參數傳遞      source /etc/profile;   source ~/.bash_profile;   BASEDIR=`dirn

原创 shell中判斷hive表分區是否存在

判斷當日分區是否有數據,如果有執行任務,沒有就退出 主要思路是如果分區存在且有數據,hdfs文件系統下的對應表分區下會有part-m-00000這個文件(不一定是這個名字,具體要用hadoop fs -ls /user/hive/ware

原创 awk統計文本里某一列重複出現的次數

比如這樣的場景:現在有一個文本,裏面是這樣的內容: NOTICE: 12-14 15:11:13:  parser. * 6685  url=[http://club.pchome.net/thread_1_18_7283270___TR

原创 Kettle性能調優彙總

原文鏈接:https://blog.csdn.net/smooth00/article/details/64441362 性能調優在整個工程中是非常重要的,也是非常有必要的。但有的時候我們往往都

原创 Kettle性能優化

原文鏈接:https://www.cnblogs.com/minong/p/11578222.html Kettle性能優化是一個系統工程,不僅涉及工具本身的優化,更涉及ETL工具之外的諸多因素

原创 hive按當天日期建立分區表 | 動態往日期分區插入數據

hive建立分區表,以當天日期(“2014-08-15”)作爲分區依據,hql如下: CREATE EXTERNAL TABLE IF NOT EXISTS product_sell( category_id BIGINT, provin

原创 Hive分桶表及抽樣查詢

抽樣查詢 對於非常大的數據集,用戶不需要全部查詢的結果,只需要一個代表性的查詢結果時,可以通過對錶進行分桶抽樣。 Hive分桶表 先介紹一下Hive桶。  桶是比表或分區更爲細粒度的數據範圍劃分。針對某一列進行桶的組織,對列值哈希,然後除

原创 hive 中的二級分區表和動態分區表

二級分區表/管理表:  create  table emp_part1(  empno int,  empname string,  empjob string,  mgrno int,  birthday string,  salary

原创 impala與hive的比較以及impala的有缺點

最近讀的幾篇關於impala的文章,這篇良心不錯:https://www.biaodianfu.com/impala.html(本文截取部分內容)         Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義

原创 Hive的分區表和分桶表的區別

1.Hive分區。      是指按照數據表的某列或某些列分爲多個區,區從形式上可以理解爲文件夾,比如我們要收集某個大型網站的日誌數據,一個網站每天的日誌數據存在同一張表上,由於每天會生成大量的日誌,導致數據表的內容巨大,在查詢時進行全表

原创 Hive 分區表和二級分區表的基本操作

Hive分區就是在HDFS上創建獨立的文件夾,該文件夾下是該分區的所有的數據文件。Hive中的分區就是分目錄,把一個大的數據集根據業務需要分割成小的數據集。在查詢時通過WHERE子句中的表達式選擇來查詢所需要的指定分區,這樣的查詢效率會提

原创 Hive修改表名,列名,列註釋,表註釋,增加列,調整列順序,屬性名等操作

Alter Table 語句 Hive修改表名,列名,列註釋,表註釋,增加列,調整列順序,屬性名等操作 它是在Hive中用來修改的表。語法 聲明接受任意屬性,我們希望在一個表中修改以下語法。   ALTER TABLE name R

原创 在shell中判斷hive查詢記錄數大小

 用途: 根據查詢到結果數量來判斷,是否需要再執行下個腳本。 1. 查詢語句script.q腳本如下: select count(1) as count from test; 2. shell腳本如下: 這裏注意hive語句需要包裹在

原创 在shell中如何判斷HDFS中的文件目錄是否存在

在Linux文件系統中,我們可以使用下面的Shell腳本判斷某個文件是否存在: # 這裏的-f參數判斷$file是否存在 if [ ! -f "$file" ]; then   echo "文件不存在!" fi 但是我們想判斷HDF

原创 Linux shell if判斷語句

無論什麼編程語言都離不開條件判斷。SHELL也不例外。 大體的格式如下: if list then do something here elif list then do another thing here else do someth