Hive的自定義查詢函數
1. Hive的自定義函數(UDF): User Defined Function
可以直接應用於select語句,對查詢結構做格式化處理後,再輸出內容。
2. Hive自定義函數的實現細節
自定義UDF需要繼承org.apache.hadoop.hive.ql.UDF。
需要實現evaluate函數,evaluate函數支持重載。
3. Hive自定義函數案例
案例一: 拼接兩個字符串
package udf;
import org.apache.hadoop.hive.ql.exec.UDF;
public class MyConcatString extends UDF {
/**
* 自定義的連接函數
* @param a
* @param b
* @return
*/
public String evaluate(String a, String b) {
return a + "***" + b;
}
}
案例二: 判斷員工表中工資的級別
package udf;
import org.apache.hadoop.hive.ql.exec.UDF;
/*
* 根據員工薪水判斷員工級別
(*) sal < 1000 ----> Grade A
(*) 1000<=sal <3000 ---> Grade B
(*) sal >=3000 ---> Grade C
*/
public class CheckSalaryGrade extends UDF {
public String evaluate(String salary) {
int sal = Integer.parseInt(salary);
if (sal < 1000) {
return "Grade A";
} else if (sal >= 1000 && sal < 3000) {
return "Grade B";
} else {
return "Grade C";
}
}
}
4、Hive自定義函數的部署
- 把程序打包放到目標機器上去
- 進入hive客戶端,添加jar包:
hive> add jar /root/temp/udf.jar;
- 創建臨時函數:
hive> create temporary function myconcat as 'udf.MyConcatString';
hive> create temporary function checksal as 'udf.CheckSalaryGrade';
5、Hive自定義函數的調用
- 查詢HQL語句:
hive> select myconcat(ename,job) from emp;
hive> select ename,sal,checksalary(sal) from emp;
- 銷燬臨時函數:
hive> DROP TEMPORARY FUNCTION checksalary;