Hive窗口函數row_number案例

原創

2020-06-07 03:16

數據文件是：rownumbertest.txt

字段信息是：id,sex,age,name

1,男,18,張三
2,女,18,李四
3,女,20,王五
4,男,18,趙六
5,男,18,劉七
6,男,19,石九
7,男,38,黃渤
8,女,22,劉嘉玲
9,女,23,王菲
10,女,28,劉亦菲
11,女,18,趙麗穎

用戶信息表

create database if not exists hive_test;

use hive_test;

drop table if exists rownumbertest;

create table rownumbertest(id int, sex string, age int, name string) row format delimited fields terminated by ",";

load data local inpath "/home/hadoop/rownumbertest.txt" into table rownumbertest;

select * from rownumbertest;

數據結果展示：

id   sex  age  name    rank
1    男   18   張三     3
2    女   18   李四     5
3    女   20   王五     4
4    男   18   趙六     3
5    男   18   劉七     3
6    男   19   石九     2
7    男   38   黃渤     1
8    女   22   劉嘉玲   3
9    女   23   王菲     2
10   女   28   劉亦菲   1
11   女   18   趙麗穎   5

需求：每種性別人羣中，年齡最大的兩個人，TopN的需求：分組取前幾

核心思路：

如果能實現一個操作：
把每一條記錄再對應的組中的編號如果能生成出來的話。那麼下面的這個SQL能很容易的求出結果
select * from rownumbertest where rank <= 2;

distribute by 和 sort by 搭配使用

select a.id, a.sex, a.age, a.name, row_number() over(distribute by a.sex sort by
a.age desc) as rank from rownumbertest a;

partition by 和 order by 搭配使用

select id, sex, age, name, row_number() over (partition by sex order by age desc) as
index from rownumbertest;

結果：

+-----+-----+------+-------+--------+
| id | xb | age | name | index |
+-----+-----+------+-------+--------+
| 10 | 女  | 28  | 劉亦菲  | 1   |
| 9  | 女  | 23  | 王菲    | 2   |
| 8  | 女  | 22  | 劉嘉玲  | 3   |
| 3  | 女  | 20  | 王五    | 4   |
| 11 | 女  | 18  | 趙麗穎  | 5   |
| 2  | 女  | 18  | 李四    | 6   |
| 7  | 男  | 38  | 黃渤    | 1   |
| 6  | 男  | 19  | 石九    | 2   |
| 5  | 男  | 18  | 劉七    | 3   |
| 4  | 男  | 18  | 趙六    | 4   |
| 1  | 男  | 18  | 張三    | 5   |
+-----+-----+------+-------+--------+

SQL語句：

select * from (select id, sex, age, name, row_number() over (partition by sex order
by age desc) as index from rownumbertest) abc where abc.index <= 3;

結果：

+---------+---------+----------+-----------+------------+
| abc.id | abc.xb | abc.age | abc.name | abc.index |
+---------+---------+----------+-----------+------------+
| 10   | 女    | 28    | 劉亦菲    | 1     |
| 9    | 女    | 23    | 王菲      | 2     |
| 8    | 女    | 22    | 劉嘉玲    | 3     |
| 7    | 男    | 38    | 黃渤      | 1     |
| 6    | 男    | 19    | 石九      | 2     |
| 5    | 男    | 18    | 劉七      | 3     |
+---------+---------+----------+-----------+------------+

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hive窗口函數row_number案例

【面試準備】又一次失敗的面試經歷，題目離譜～資深軟件測試工程師

dotnet 8 版本與銀河麒麟V10和UOS系統的 glibc 兼容性

Hive的SQL編譯源碼詳解

Spark的任務提交和執行流程詳解

Hive--筆試題05_2--求TopN

Python全詳解--大綱（全網最清晰學習思路）

四百多篇博客專欄歸類讓你直接晉級老手

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結