yarn裏有大量的短暫killed的hive任務問題排查

原創

2020-07-06 11:05

問題：我們用AWS EMR的時候發現在yarn的application manager ui裏有大量killed的hive任務，而且非常之多，如截圖所,我們是通過hive server2方式提交任務的：

解決方案：

首先想到的是不是有什麼進程在不斷的搗鬼，後來grep 下所有hive進程，將該殺的都殺了之後，並沒有什麼特殊的異常進程，但是在grep的瞬間有遇到類似如下的命令：bash /usr/lib/hive/bin/hive -e show PARTITIONS mytable

因爲我們的集羣默認配置的是hive server2,對原生的/usr/lib/hive/bin/hive做的alias，按理說不會直接調用原生的hive cli，猜測可能是由於之前的老代碼沒有修改徹底導致的。但是這與yarn後臺大量的killed的hive任務是否有關係？顯然，只需要做一個測試即可。經過測試，hive cli確實產生了一個killed的hive任務，至此根本原因算是定位到了。那如何規避這一問題？或者說這一問題是怎麼間接產生的呢？排查的思路是先查看環境變量，如果環境變量正常，則只能進一步查看是哪個程序執行了這樣的操作。後來發現在環境變量裏有個alias bhive=hive,但是這個bhive=hive是在我們自定義的alias hive=/usr/bin/beeline 上面，所以並沒有生效，還是執行了一遍hive cli命令，這時只需要將alias bhive=hive放置在alias=/usr/bin/beeline 下面即可

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

對接HiveMetaStore，擁抱開源大數據

本文分享自華爲雲社區《對接HiveMetaStore，擁抱開源大數據》，作者：睡覺是大事。 1. 前言適用版本：9.1.0及以上在大數據融合分析時代，面對海量的數據以及各種複雜的查詢，性能是我們使用一款數據處理引擎最重要的考量

2024-04-24 22:33:08

用戶行爲分析模型實踐（四）—— 留存分析模型

作者：vivo 互聯網大數據團隊- Wu Yonggang、Li Xiong 本文是vivo互聯網大數據團隊《用戶行爲分析模型實踐》系列文章第4篇 -留存分析模型。本文詳細介紹了留存分析模型的概念及基本原理，並

2024-04-19 11:26:00

Hive引擎底層初探

1、什麼是Hive Hive是一個基於Hadoop的數據倉庫工具,用於處理和分析大規模結構化數據。Hive提供了類似SQL的查詢語言(HiveQL)，使得熟悉SQL的用戶能夠查詢數據。Hive將SQL查詢轉換爲MapReduce任務，以在

2024-04-17 11:18:21

探索GaussDB(DWS)湖倉融合：Hudi與元數據打通的深度解析

華爲雲數倉GaussDB(DWS)研發專家高若嶽老師，深入解析GaussDB(DWS)數據倉庫如何與大數據生態快速對接。隨着智能數據時代的到來，數據量爆發式增長，數據形態呈海量化和多樣化發展，不再是單一的結構化數據。從海量和多樣化的數

2024-04-01 22:33:07

Hive UDTF 接受參數及Redis連接問題

hive-exec-2.7.3版本中最通用的方法，所有的類型都可以接收。 ObjectInspector[] inputIOS; public StructObjectInspector initialize(ObjectInspec

2024-03-28 23:40:23

hive 、spark 、flink之想一想

hive 1：hive是怎麼產生的？ 2：hive的框架是怎麼樣的？ 3：hive 執行流程是什麼？ 4：hive sql是如何把sql語句一步一步到最後執行的？ 5：hive sql任務常用參數調優做過什麼？ spark 6：sp

2024-03-27 01:22:41

03-SparkSQL入門

0 Shark Spark 的一個組件，用於大規模數據分析的 SQL 查詢引擎。Shark 提供了一種基於 SQL 的交互式查詢方式，可以讓用戶輕鬆地對大規模數據集進行查詢和分析。Shark 基於 Hive 項目，使用 Hive 的元數據存

2024-03-24 02:48:20

數據湖三大框架

一、數據湖框架目前市面上流行的三大開源數據湖方案分別爲：Delta Lake、Apache Iceberg和Apache Hudi 1、Delta Lake：DataBricks公司推出的一種數據湖方案，官網 2、Apache Iceb

2024-03-14 00:16:55

愛奇藝數據湖實戰 - Hive數倉平滑入湖

愛奇藝基於 Hive 構建了傳統的離線數據倉庫，支持了公司運營決策、用戶增長、視頻推薦、會員、廣告等業務需求。近幾年，隨着業務對數據實時性的更高要求。我們引入了基於 Iceberg 的數據湖技術，大幅提升數據查詢性能及整體流通效率。從性能

愛奇藝技術產品團隊

2024-03-12 03:21:25

hive分區和分桶你熟悉嗎？

兩種用於優化查詢性能的數據組織策略，數倉設計的關鍵概念，可提升Hive在讀取大量數據時的性能。 1 分區（Partitioning）根據表的某列的值來組織數據。每個分區對應一個特定值，並映射到HDFS的不同目錄。常用於經常查詢的列，如日

2024-03-11 02:23:15

Apache Linkis 1.3.0 適配華爲MRS+Scriptis 實戰分享

一、概述團隊有需求要在頁面上同時使用sql和python語法對數據進行分析，在調研過程中發現linkis可以滿足需要，遂將其引入內網，由於使用的是華爲MRS，與開源的軟件有所不同，又進行了二次開發適配，本文將分享使用經驗，希望對有需

2024-02-23 21:45:28

財務數據處理問題及解決方案分享

一、平臺介紹財務自營計費主要承接京東自營數據在整個供應鏈中由C端轉B端的功能實現，在整個供應鏈中屬於靠後的階段了，系統主要功能是計費和向B端的彙總。二、問題描述近年來自營計費數據量大增，有百億+的數據量，一天中彙總佔據了一半的數據

2024-02-04 12:03:52

老知識覆盤-SQL從提交到執行到底經歷了什麼 | 京東雲技術團隊

一、什麼是SQL sql(Structured Query Language: 結構化查詢語言)是高級的費過程化編程語言,允許用戶在高層數據結構上工作, 是一種數據查詢和程序設計語言, 也是(ANSI)的一項標準的計算機語言. but...

2023-11-22 12:37:34

架構探索之路-第一站-clickhouse | 京東雲技術團隊

一、前言架構, 軟件開發中最熟悉不過的名詞, 遍佈在我們的日常開發工作中, 大到項目整體, 小到功能組件, 想要實現高性能、高擴展、高可用的目標都需要優秀架構理念輔助. 所以本人嘗試編寫架構系列文章, 去剖析市面上那些經典優秀的開源項目

2023-11-21 12:08:02

Iceberg入門介紹

1、Iceberg簡介本質：一種數據組織格式 1.1、應用場景 ①面向大表：單表包含數十個PB的數據 ②分佈式引擎非必要：不需要分佈式SQL引擎來讀取或查找文件 ③高級過濾：使用表元數據，使用分區和列級統計信息修建數據文件 1.2、集成方

2023-08-02 00:02:27

24小時熱門文章

最新文章

最新評論文章