一、Tez 安裝
1 下載地址
https://mirrors.tuna.tsinghua.edu.cn/apache/tez/0.9.0/
2 二進制包安裝
2.1 解壓並重命名
[root@hadoop01 ~]# tar -zxvf /home/apache-tez-0.9.0-bin.tar.gz -C /usr/local/
[root@hadoop01 ~]# mv /usr/local/apache-tez-0.9.0-bin/ /usr/local/tez-0.9.0/
2.2 上傳tez.tar.gz到hdfs
[root@hadoop01 tez-0.9.0]# hdfs dfs -mkdir /tez-0.9.0
[root@hadoop01 tez-0.9.0]# hdfs dfs -put /usr/local/tez-0.9.0/share/tez.tar.gz /tez-0.9.0
2.3 配置環境
[root@hadoop01 ~]# vi /etc/profile
增加內容如下:
export TEZ_CONF_DIR=$HADOOP_CONF_DIR
export TEZ_JARS=/usr/local/tez-0.9.0/*:/usr/local/tez-0.9.0/lib/*
export HADOOP_CLASSPATH=$TEZ_CONF_DIR:$TEZ_JARS:$HADOOP_CLASSPATH
[root@hadoop01 ~]# source /etc/profile
2.4 創建配置tez-site.xml文件
1、
[root@hadoop01 ~]# vi /home/hadoop/apps/hadoop-2.8.5/etc/hadoop/tez-site.xml
2、
tez-site.xml文件內容如下:
<?xml version="1.0" encoding="UTF-8"?>
<configuration>
<property>
<name>tez.lib.uris</name>
<value>${fs.defaultFS}/tez-0.9.0/tez.tar.gz</value>
</property>
<property>
<name>tez.container.max.java.heap.fraction</name>
<value>0.2</value>
</property>
</configuration>
更多配置參考默認配置:/usr/local/tez-0.9.0/conf/tez-default-template.xml
2.5 Tez和Hadoop的兼容
tez下的lib目錄中的hadoop包的版本和實際安裝的hadoop版本不一定一致,需要將其jar包更換
1、刪除不符合版本的jar:
[root@hadoop01 tez-0.9.0]# rm -rf ./lib/hadoop-mapreduce-client-core-2.7.0.jar ./lib/hadoop-mapreduce-client-common-2.7.0.jar
2、重新在hadoop目錄中拷貝:
[root@hadoop01 ~]# cp /home/hadoop/apps/hadoop-2.8.5/share/hadoop/mapreduce/hadoop-mapreduce-client-common-2.8.5.jar /usr/local/tez-0.9.0/lib/
[root@hadoop01 ~]# cp /home/hadoop/apps/hadoop-2.8.5/share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.8.5.jar /usr/local/tez-0.9.0/lib/
2.6 測試Tez引擎
[root@hadoop01 ~]# hive --service metastore &
[root@hadoop01 ~]# hive
hive> use xry;
hive> set hive.execution.engine=tez;
hive> select count(*) from u4 group by user_id;
二、Tez 簡介
1 官網
http://tez.apache.org/
2 介紹
Tez是一個apache的開源項目,目的在於構建一個應用框架,該框架允許處理數據的複雜有向無環任務圖。目前是基於Apache Hadoop YARN。
3 設計核心
3.1 增強終端用戶使用:
1 靈活的數據流定義API
2 靈活的輸入輸出運行模型(強調處理模型)
3 數據類型無關
4 簡介部署
3.2 執行性能
1 通過Map Reduce提高性能
2 資源優化管理
3 執行時計劃重新配置
4 物理數據流的動態決策
4 架構圖
通過允許像Apache Hive和Apache Pig這樣的項目運行復雜的任務DAG,Tez可以用來處理數據,早期使用多個MR作業,現在只需要一個Tez作業,如下所示。
三、Tez 優化
1 AM、Container 大小設置
1、tez.am.resource.memory.mb #設置 tez AM容器內存
默認值:1024
配置文件:tez-site.xml
建議:不小於或者等於yarn.scheduler.minimum-allocation-mb值。
2、hive.tez.container.size #設置 tez container內存
默認值:-1
默認情況下,Tez將生成一個mapper大小的容器。這可以用來覆蓋默認值。
配置文件:hive-site-xml
建議:不小於或者是yarn.scheduler.minimum-allocation-mb的倍數
2 AM、Container JVM參數設置
1、tez.am.launch.cmd-opts #設置 AM jvm,啓動TEZ任務進程期間提供的命令行選項。
默認值:-XX:+PrintGCDetails -verbose:gc -XX:+PrintGCTimeStamps -XX:+UseNUMA -XX:+UseParallelGC(用於GC),默認的大小:80%*tez.am.resource.memory.mb
配置文件:tez-site.xml
建議:不要在這些啓動選項中設置任何xmx或xms,以便tez可以自動確定它們。
2、hive.tez.java.ops #設置 container jvm
默認值:Hortonworks建議“–server –Djava.net.preferIPv4Stack=true–XX:NewRatio=8 –XX:+UseNUMA –XX:UseG1G”,默認大小:80%*hive.tez.container.size
說明:在hive 2.x的官方文檔中沒有找到這個參數。看有些博客裏面有這個值。
配置文件:hive-site.xml
3、tez.container.max.java.heap.fraction #設置task/AM佔用jvm內存大小的比例。
默認值:0.8
配置文件:tez-site.xml
說明:這個值按具體需要調整,當內存不足時,一般都要調小。
3 Hive內存Map Join參數設置
三、Hive內存Map Join參數設置
1、tez.runtime.io.sort.mb #設置輸出排序內存大小
默認值:100
配置文件:tez-site.xml
建議:40%*hive.tez.container.size,一般不超過2G
2、hive.auto.convert.join.noconditionaltask #是否將多個mapjoin合併爲一個
默認值:true
建議使用默認值。
配置文件:hive-site.xml
3、hive.auto.convert.join.noconditionaltask.size
默認值:10000000 (10M)
說明:這個參數使用的前提是hive.auto.convert.join.noconditionaltask值爲true,多個mapjoin轉換爲1個時,所有小表的文件大小總和小於這個值,這個值只是限制輸入的表文件的大小,並不代表實際mapjoin時hashtable的大小。 建議值:1/3* hive.tez.container.size
配置文件:hive-site.xml
4、tez.runtime.unordered.output.buffer.size-mb #如果不直接寫入磁盤,使用的緩衝區大小
默認值:100M
建議:10%* hive.tez.container.size
配置文件:tez-site.xml
5、tez.am.container.reuse.enabled #容器重用
默認值:true
配置文件:tez-ste.xml
4 參考文章鏈接
nordered.output.buffer.size-mb #如果不直接寫入磁盤,使用的緩衝區大小
默認值:100M
建議:10%* hive.tez.container.size
配置文件:tez-site.xml
5、tez.am.container.reuse.enabled #容器重用
默認值:true
配置文件:tez-ste.xml
## 4 參考文章鏈接
> https://www.cnblogs.com/yjt1993/p/11050791.html