transform調用腳本

原創

2020-03-17 11:37

Hive專欄
上一篇	主目錄	下一篇

目錄

【前言】
在使用hive處理數據時，除了可以使用內置函數、用戶自定義函數UDF，還可以使用hql調用腳本，這種調用腳本的方式由Hive的 TRANSFORM 關鍵字提供。

一個實例
Json數據： {"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}
需求：把timestamp的值轉換成日期編號

先加載rating.json文件到hive的一個原始表 rate_json

create table rate_json(line string) row format delimited;  
load data local inpath '/home/hadoop/rating.json' into table rate_json;

創建rate這張表用來存儲解析json出來的字段

create  table  rate(movie  int,  rate  int,  unixtime  int,  userid  int)  row  format  delimited  fields  terminated by '\t';

解析json，得到結果之後存入rate表

insert into table rate select   
get_json_object(line,'$.movie') as movie,  
get_json_object(line,'$.rate') as rate,  
get_json_object(line,'$.timeStamp') as unixtime,   get_json_object(line,'$.uid') as userid   
from rate_json;

使用transform+python腳本的方式去轉換unixtime爲weekday
創建最後的用來存儲調用python腳本解析出來的數據的表：lastjsontable

create table lastjsontable(movie int, rate int, weekday int, userid int) row format delimited  fields terminated by '\t';

編輯一個python腳本文件

 vi weekday_mapper.py

#!/bin/python  
import sys  
import datetime  
for line in sys.stdin:  
  line = line.strip()  
  movie,rate,unixtime,userid = line.split('\t')  
  weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
  print '\t'.join([movie, rate, str(weekday),userid])

保存文件。然後，將文件加入hive的classpath：

hive>add file /home/hadoop/weekday_mapper.py;  
hive> insert into table lastjsontable select transform(movie,rate,unixtime,userid)  using 'python weekday_mapper.py' as(movie,rate,weekday,userid) from rate;

最後查詢看數據是否正確：

select distinct(weekday) from lastjsontable;

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

hadoop-2單節點和hive安裝

1、下載hadoop-x.y.x.tar.gz 2、解壓：tar -zxvf hadoop-2.y.x.tar.gz 3、配置環境變量：$JAVA_HOME、$HADOOP_HOME、$PATH 4、修改配置：$HADOOP_HOME/et

2024-05-24 23:51:33

構建無服務器數倉（三）EMR Serverless 操作要點、優化以及開放集成測試

引言在數據驅動的世界中，企業正在尋求可靠且高性能的解決方案來管理其不斷增長的數據需求。本系列博客從一個重視數據安全和合規性的 B2C 金融科技客戶的角度來討論雲上雲下混合部署的情況下如何利用亞馬遜雲科技雲原生服務、開源社區產品以及第三方工

2024-05-23 21:22:10

CDH配置Kerberos和Sentry詳解

1.安全之Kerberos安全認證 1 Kerberos概述 1.1 什麼是Kerberos Kerberos是一種計算機網絡授權協議，用來在非安全網絡中，對個人通信以安全的手段進行身份認證。這個詞又指麻省理工學院爲這個協議開發的一套計算

2024-05-20 21:36:31

14 hive安裝

1.hive 1.1 解壓 tar -zxf apache-hive-1.2.2-bin.tar.gz -C .. mv apache-hive-1.2.2-bin/ hive-1.2.2 1.2 修改配置

2024-05-14 00:41:14

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

愛奇藝數據湖實戰 - 實時湖倉一體化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

ClickHouse內幕（3）基於索引的查詢優化

ClickHouse索引採用唯一聚簇索引的方式，即Part內數據按照order by keys有序，在整個查詢計劃中，如果算子能夠有效利用輸入數據的有序性，對算子的執行性能將有巨大的提升。本文討論ClickHouse基於索引的查詢算子優

2024-06-11 11:55:17

【數智化人物展】白鯨開源CEO郭煒：大模型時代下DataOps驅動企業數智化升級

本文由白鯨開源CEO郭煒投遞並參與由數據猿聯合上海大數據聯盟共同推出的《2024中國數智化轉型升級先鋒人物》榜單/獎項評選。隨着大數據、人工智能技術的飛速發展，我們已邁入了一個全新的時代------大模型時代。在這個時代背景下，企業提高

2024-06-04 21:21:58

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:39:24

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:37:09

pfinder實現原理揭祕

1. 引言在現代軟件開發過程中，性能優化和故障排查是保證應用穩定運行的關鍵任務之一。Java作爲一種廣泛使用的編程語言，其生態中湧現出了許多優秀的監控和診斷工具，諸如：SkyWalking、Zipkin等，它們幫助開發者和運維人員

2024-06-04 02:34:44

uniapp image圖片加載不夠清楚

image { will-change: transform; //解決加載時瞬間拉伸問題 width: auto; //解決加載時瞬間拉伸問題 height: auto; //解決加載時瞬間

2024-05-29 14:24:04

24小時熱門文章

最新文章

最新評論文章