原创 shell腳本調用hive示例
方法一: 建立shell腳本如下run.sh如下: #!/bin/sh #參數傳遞 source /etc/profile; source ~/.bash_profile; BASEDIR=`dirn
原创 shell中判斷hive表分區是否存在
判斷當日分區是否有數據,如果有執行任務,沒有就退出 主要思路是如果分區存在且有數據,hdfs文件系統下的對應表分區下會有part-m-00000這個文件(不一定是這個名字,具體要用hadoop fs -ls /user/hive/ware
原创 awk統計文本里某一列重複出現的次數
比如這樣的場景:現在有一個文本,裏面是這樣的內容: NOTICE: 12-14 15:11:13: parser. * 6685 url=[http://club.pchome.net/thread_1_18_7283270___TR
原创 Kettle性能調優彙總
原文鏈接:https://blog.csdn.net/smooth00/article/details/64441362 性能調優在整個工程中是非常重要的,也是非常有必要的。但有的時候我們往往都
原创 Kettle性能優化
原文鏈接:https://www.cnblogs.com/minong/p/11578222.html Kettle性能優化是一個系統工程,不僅涉及工具本身的優化,更涉及ETL工具之外的諸多因素
原创 hive按當天日期建立分區表 | 動態往日期分區插入數據
hive建立分區表,以當天日期(“2014-08-15”)作爲分區依據,hql如下: CREATE EXTERNAL TABLE IF NOT EXISTS product_sell( category_id BIGINT, provin
原创 Hive分桶表及抽樣查詢
抽樣查詢 對於非常大的數據集,用戶不需要全部查詢的結果,只需要一個代表性的查詢結果時,可以通過對錶進行分桶抽樣。 Hive分桶表 先介紹一下Hive桶。 桶是比表或分區更爲細粒度的數據範圍劃分。針對某一列進行桶的組織,對列值哈希,然後除
原创 hive 中的二級分區表和動態分區表
二級分區表/管理表: create table emp_part1( empno int, empname string, empjob string, mgrno int, birthday string, salary
原创 impala與hive的比較以及impala的有缺點
最近讀的幾篇關於impala的文章,這篇良心不錯:https://www.biaodianfu.com/impala.html(本文截取部分內容) Impala是Cloudera公司主導開發的新型查詢系統,它提供SQL語義
原创 Hive的分區表和分桶表的區別
1.Hive分區。 是指按照數據表的某列或某些列分爲多個區,區從形式上可以理解爲文件夾,比如我們要收集某個大型網站的日誌數據,一個網站每天的日誌數據存在同一張表上,由於每天會生成大量的日誌,導致數據表的內容巨大,在查詢時進行全表
原创 Hive 分區表和二級分區表的基本操作
Hive分區就是在HDFS上創建獨立的文件夾,該文件夾下是該分區的所有的數據文件。Hive中的分區就是分目錄,把一個大的數據集根據業務需要分割成小的數據集。在查詢時通過WHERE子句中的表達式選擇來查詢所需要的指定分區,這樣的查詢效率會提
原创 Hive修改表名,列名,列註釋,表註釋,增加列,調整列順序,屬性名等操作
Alter Table 語句 Hive修改表名,列名,列註釋,表註釋,增加列,調整列順序,屬性名等操作 它是在Hive中用來修改的表。語法 聲明接受任意屬性,我們希望在一個表中修改以下語法。 ALTER TABLE name R
原创 在shell中判斷hive查詢記錄數大小
用途: 根據查詢到結果數量來判斷,是否需要再執行下個腳本。 1. 查詢語句script.q腳本如下: select count(1) as count from test; 2. shell腳本如下: 這裏注意hive語句需要包裹在
原创 在shell中如何判斷HDFS中的文件目錄是否存在
在Linux文件系統中,我們可以使用下面的Shell腳本判斷某個文件是否存在: # 這裏的-f參數判斷$file是否存在 if [ ! -f "$file" ]; then echo "文件不存在!" fi 但是我們想判斷HDF
原创 Linux shell if判斷語句
無論什麼編程語言都離不開條件判斷。SHELL也不例外。 大體的格式如下: if list then do something here elif list then do another thing here else do someth