Hive高級查詢(group by )

原創

2018-09-03 14:25

group by

按照某些字段的值進行分組，有相同值放到一起。
樣例

select col1 [,col2] ,count(1),sel_expr（聚合操作）from table
where condition         -->Map端執行
group by col1 [,col2]   -->Reduce端執行
[having]                -->Reduce端執行

注意
select後面非聚合列，必須出現在group by中
select後面除了普通列就是一些聚合操作
group by後面也可以跟表達式，比如substr(col)
特性
使用了reduce操作，受限於reduce數量，設置reduce參數mapred.reduce.tasks
輸出文件個數與reduce數相同，文件大小與reduce處理的數據量有關。
問題
網絡負載過重
數據傾斜，優化參數hive.groupby.skewindata爲true，會啓動一個優化程序，避免數據傾斜。

set mapred.reduce.tasks=5;
select * from TabOrder order by ch asc,num desc;

set mapred.reduce.tasks=3;
select ch ,count(1) as num from TabOrder group by ch;

set hive.groupby.skewindata = true;
select ch ,count(1) as num from TabOrder group by ch having count(1)>2;

select col from tablename group by col; <==> select distinct col from tablename;

附上原鏈接：https://blog.csdn.net/scgaliguodong123_/article/details/46944519#t2

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

HIVE 權限配置 [沒有趟過坑的人生是不完美的]

這兩天被hive的權限問題,折騰的不輕.記錄一下 Hive的基本配置我就不細說了,自行配置,網上一堆堆的. 1.背景要求可以使用hdfs和hive用戶操作自己創建的數據庫. 權限不可亂. 要求,如下,[基本就是裸奔,沒做任何配置,但依舊

2020-07-08 02:23:22

Hive 窗口函數（Windowing Functions）

窗口函數對點擊流處理，和類似的時間序列/滑動窗分析很有用。最近在做時間序列分析，希望趁這個機會對窗口函數有進一步深入的瞭解。 Lead & Lag Lead 和Lag是金融方面的術語，意思是提前和延期。按照時間段統計時，有些

2020-07-08 12:17:40

hive使用tez環境配置

Tez引擎包下載： https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.8.4/apache-tez-0.8.4-bin.tar.gz 1：將下載的安裝包解壓 $ pwd /opt/ubd/

梦里却知是客

2020-07-08 11:59:58

tez 0.9.0 的安裝和測試

文章目錄1 tez的概覽1.1 tez介紹1.1.1 介紹2 tez的安裝2.1 tez下載2.2 tez源碼編譯2.3 tez的安裝2.3.1 解壓並配置環境2.3.2 配置配置文件2.4 tez、hadoop、hive整合2.

Aidon-东哥博客

2020-07-08 11:21:42

hive常用窗口函數

1 hive窗口函數在平時的開發中常用那些hive函數？？ 1、字符串操作函數？split、concat、ifnull、cast 2、聚合函數： hive適用於分析，所以常用。 3、時間函數：數倉的特徵隨時間變化而變化，所

Aidon-东哥博客

2020-07-08 11:21:42

hive配置教程詳解

使用到的工具 xshell centos7 xtpf apache-hive-2.3.6-bin mysql的驅動第一步：將下載好的hive安裝包上傳到/usr/local目錄下解壓解壓命令 tar -zxvf apache-

2020-07-08 11:12:13

datax同步mysql數據到hive

datax hdfswriter文檔 https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md 需要注意的是，hdfswriter寫入時的字段分隔符

2020-07-08 10:43:36

Apache Hive+Kerberos安裝配置及 Kettle訪問帶 Kerberos 認證的 Hive的集成

目錄1 連接2 KDC 安裝2.1 安裝 Kerberos 服務2.2 配置 /var/kerberos/krb5kdc/kdc.conf2.3 配置 /var/kerberos/krb5kdc/kadm5.acl2.4 配置 /

2020-07-08 09:55:10

hive鎖的問題

hive鎖的問題最近在insert into 插入數據的時候遇到了hive鎖表的問題，下面是報錯信息，原因就是一張hive的臨時表被鎖造成報錯。 1.Hive中定義了兩種鎖的模式：共享鎖（S）和排它鎖（X），顧名思義，多個共

2020-07-08 09:11:58

Hive批量刪除一段時間分區和動態分區更新數據

Hive批量刪除一段時間分區和動態分區更新數據 1.hive動態分區 -- 批量刪除分區數據 alter table dm.dm_call_gateway_bill_time_detail drop partition(dt >=

2020-07-08 09:11:58

如何批量修改hive local的存儲位置

1、背景由於公司原有的oss訪問AK被泄露，引發安全問題，AK被運維禁用，大數據同學發現原來正常訪問hive，現在不能訪問了，仔細看了一下原因是AK被禁用導致。於是只能替換新的AK。我們建表語句是 CREATE DATABA

2020-07-08 05:08:59

spark-sql使用hive的自定函數配置

1、spark-sql可以直接使用hive的自定義函數，而不需要重新寫一套spark-sql的自定義函數，這裏較大家一個簡單的配置方式即可 2、將hive的自定義函數jar拷貝到/usr/lib/spark-current/jars，我們

2020-07-08 05:08:59

hive 存儲格式對比

hive 存儲格式對比 Apache Hive支持Apache Hadoop中使用的幾種熟悉的文件格式，如TextFile，RCFile，SequenceFile，AVRO，ORC和Parquet格式。 Cloudera Impa

weixin_41734687

2020-07-08 01:20:46

hive 數據傾斜原因及解決

轉載添加鏈接描述 🚗 Index 什麼是數據傾斜數據傾斜的原因 Hadoop計算框架的特點優化的常用手段優化案例 🔍 什麼是數據傾斜我們在用hive取數的時候，有的時候只是跑一個簡單的join語句，但是卻跑了很長的時間，

weixin_41734687

2020-07-08 01:20:46

大數據 java01 hive udf函數（手機號碼脫敏）

Hive UDFHive UDF 函數1 POM 文件2.UDF 函數3 利用idea打包4 添加hive udf函數4.1 上傳jar包到集羣4.2 修改集羣hdfs文件權限4.3 註冊UDF4.4 使用UDF Hive UDF

weixin_41734687

2020-07-08 01:20:46

24小時熱門文章

最新文章

最新評論文章