Hive的自定義查詢函數

1. Hive的自定義函數（UDF）： User Defined Function
可以直接應用於select語句，對查詢結構做格式化處理後，再輸出內容。

2. Hive自定義函數的實現細節
自定義UDF需要繼承org.apache.hadoop.hive.ql.UDF。
需要實現evaluate函數，evaluate函數支持重載。

3. Hive自定義函數案例
案例一：拼接兩個字符串

package udf;

import org.apache.hadoop.hive.ql.exec.UDF;

public class MyConcatString extends UDF {

	/**
	 *   自定義的連接函數
	 * @param a
	 * @param b
	 * @return
	 */
	public String evaluate(String a, String b) {
		return a + "***" + b;
	}
}

案例二：判斷員工表中工資的級別

package udf;

import org.apache.hadoop.hive.ql.exec.UDF;

/*
 * 	根據員工薪水判斷員工級別
	(*) sal < 1000     ----> Grade A
	(*) 1000<=sal <3000 ---> Grade B
	(*) sal >=3000      ---> Grade C
*/

public class CheckSalaryGrade extends UDF {
	
	public String evaluate(String salary) {
		int sal = Integer.parseInt(salary);
		
		if (sal < 1000) {
			return "Grade A";
		} else if (sal >= 1000 && sal < 3000) {
			return "Grade B";
		} else {
			return "Grade C";
		}
	}
}

4、Hive自定義函數的部署

把程序打包放到目標機器上去
進入hive客戶端，添加jar包：

hive> add jar /root/temp/udf.jar;

創建臨時函數：

hive> create temporary function myconcat as 'udf.MyConcatString';
hive> create temporary function checksal as 'udf.CheckSalaryGrade';

5、Hive自定義函數的調用

查詢HQL語句：

hive> select myconcat(ename,job) from emp;
hive> select ename,sal,checksalary(sal) from emp;

銷燬臨時函數：

hive> DROP TEMPORARY FUNCTION checksalary;

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hive的自定義查詢函數

Hive的自定義查詢函數

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

搭建NameNode聯盟

(轉載)關於android:id="@+id/xx"的理解

Kafka集成flume連接消費者Connection to node 2 could not be established. Broker may not be available.

吳恩達《機器學習》訓練營-緒論

Scala基礎之高階函數

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結