人力家：藉助 Information Schema 合理治理費用

業務簡介

人力家是由阿里釘釘和人力窩共同投資成立，幫助客戶進入人力資源數字化，依靠產品技術創新驅動戰略的互聯網公司。公司主要提供包括人事管理、薪酬管理、社保管理、增值服務在內的人力資源SaaS服務，加速對人力資源領域賦能，實現人力資源新工作方式。目前已服務電子商務、零售服務等領域的多行業客戶。

人力家是一家典型的創業公司，目前處於一個競爭激烈的市場環境中，公司具有多產品性質，每個產品的數據具有獨立性，同時爲了配合內部CRM數據需求，更好地把數據整合，對於數倉團隊來說是一個不小的挑戰，對於數倉團隊要求的是穩，準，及時響應。需要數倉團隊既要滿足內部的數據需求，也需要在計算的成本上實現優化。

業務痛點

MaxCompute作爲一款優秀的大數據產品，其不僅可以高性價比分析處理海量數據，同時MaxCompute支持開發接口和生態，爲數據、應用遷移、二次開發提供靈活性。QuickBI可以直連MaxCompute產出報表數據供公司內部分析、統計、決策。因爲公司開通的MaxCompute是按量付費規格，所以計算任務和QuickBI 報表每次不同的查詢都會耗費計算資源導致MaxCompute計算費用增加，在過去的一段時間，MaxCompute每個月的成本波動較大，不符合期望值，且不能有效、及時的發現一些高成本sql和多頻訪問報表數據集。

具體原因分析

分析 MaxCompute 賬單發現費用波動是因爲大計算任務和QuickBI報表數據集的自定義sql，主要爲以下五點。

1、單SQL查詢費用較高

MaxCompute計算和部分QuickBI報表按照時間維度來進行查詢數據，但是有些時間查詢跨度較大，或者基表數據量大從而形成一條大查詢sql。

2、分區不合理

部分MaxCompute計算邏輯和報表數據集設置不合理，有些查詢是直接查詢近3年分區的數據，造成計算成本費用增加。

3、報表訪問頻率高，篩選項不同

部分QuickBI報表的數據集成本其實很低，但是每天訪問的次數確實很大，由於重複執行造成MaxCompute計算作業量增加，從而導致計算費用增加。

4、兼容報表增加維表數據

部分報表數據集爲了兼容數據產出，需要增加部分維表數據來進行關聯，但有些維表數據集其實很大，最後也會形成一條大查詢sql。

5、運行時間較長

MaxCompute部分計算sql和QuickBI報表數據集計算時間較長，影響整體業務運行時間和報表數據產出。

基於Information Schema分析項目作業

MaxCompute元數據服務Information Schema提供了項目元數據及使用歷史數據等信息。在ANSI SQL-92的Information Schema基礎上，添加了面向MaxCompute服務特有的字段及視圖。

租戶級別Information Schema是原項目級別Information Schema的升級版，是在每個阿里雲賬號下創建名爲SYSTEM_CATALOG的項目，並內置Information Schema，通過訪問該內置Schema提供的只讀視圖，查詢當前用戶所有項目的元數據信息以及使用歷史信息。元數據視圖列表如下

對於以上部分視圖元數據信息，我們更關心的是Information_Schema.TASKS_HISTORY表中每日任務計算的時間、成本和次數。

分析SQL腳本

這裏我們使用的是租戶級別的 Information Schema，相比於項目級別的 Information Schema，租戶級別的只需要創建一個計算節點就可以計算所有 project 的任務，而項目級別的 Information Schema 每個 project 都需要一個計算節點，這裏更推薦租戶級別的 Information Schema。

set odps.namespace.schema=true;
set odps.sql.decimal.odps2=true;

create table if not exists ads_project_cost_pay_di
(
    env_type  string comment '環境類型'
    ,cost_type string comment '消費類型'
    ,inst_id string comment  '唯一id，作業id'
    ,owner_name string comment  '作業所屬人'
    ,task_type string  comment  '作業類型  SQL：SQL作業 CUPID：Spark或Mars作業 SQLCost：SQL預估作業 SQLRT：查詢加速SQL作業 LOT：MapReduce作業 PS：PAI的Parameter Server AlgoTask：機器學習作業'
    ,input_records string comment  '作業輸入的records數目'
    ,output_records string comment '作業輸出的records數目'
    ,input_bytes string comment '實際掃描的數據量，與Logview相同。'
    ,output_bytes string comment '輸出字節數。'
    ,status string comment '數據採集瞬間的運行狀態（非實時狀態）。包含以下狀態：Terminated：作業已執行結束。Failed：作業失敗。 Cancelled：作業被取消。'
    ,cost_pay DECIMAL(18,5) comment '費用 單位元'
    ,complexity string  comment  '任務複雜度'
    ,settings string comment '上層調度或用戶傳入的信息，以JSON格式存儲。包含字段：USERAGENT、BIZID、SKYNET_ID和SKYNET_NODENAME。'
    ,sql_script string comment 'sql 代碼'
    ,start_time string comment '開始時間'
    ,end_time string comment '結束時間'
        ,data_collection string comment  'quickbi數據集'
)
comment 'odps 費用 明細'
partitioned by (ds string comment '分區')
;

insert overwrite table ads_project_cost_pay_di partition(ds=${bizdate})
select  case when task_catalog = 'renlijia_ng' then '生產' 
             when task_catalog = 'renlijia_ng_dev' then '測試'
             else  task_catalog
         end as   env_type
        ,if(regexp_count(settings,'quickbi')>0,'quickbi',task_catalog)cost_type
        ,inst_id
        ,owner_name
        ,task_type
        ,input_records
        ,output_records
        ,input_bytes
        ,output_bytes
        ,status
        ,nvl(case   when task_type = 'SQL' then cast(input_bytes/1024/1024/1024 * complexity * 0.3 as DECIMAL(18,5) )
                    when task_type = 'SQLRT' then cast(input_bytes/1024/1024/1024 * complexity * 0.3 as DECIMAL(18,5) )
                    when task_type = 'CUPID' and status='Terminated'then cast(cost_cpu/100/3600 * 0.66 as DECIMAL(18,5) ) 
                    else 0 
        end,0) cost_pay
        ,complexity 
        ,settings
        ,operation_text sql_script
        ,start_time
        ,end_time
        ,regexp_extract(operation_text,'(?<=quickbi=).*?(?==quickbi)',0)data_collection
from  SYSTEM_CATALOG.INFORMATION_SCHEMA.TASKS_HISTORY where ds=${bizdate};

注：sql成本計算公式（官方示例）：

case   
when task_type = 'SQL' then cast(input_bytes/1024/1024/1024 * complexity * 0.3 as DECIMAL(18,5) )
when task_type = 'SQLRT' then cast(input_bytes/1024/1024/1024 * complexity * 0.3 as DECIMAL(18,5) )
when task_type = 'CUPID' and status='Terminated'then cast(cost_cpu/100/3600 * 0.66 as DECIMAL(18,5) ) 
else 0 
end;

治理前後MaxCompute整體成本對比

報表產出明細數據

因爲公司是按量付費的MaxCompute，所有我們主要關心的是成本問題和報表的訪問情況。對此我們主要從環境、數據集、用戶等維度進行分析。

QuickBI數據集（查ads_project_cost_pay_di表）

QuickBI報表Demo

QuickBI數據集字段是從sql-script中正則匹配出來，且QuickBI數據集需要單獨增加一個字段用來抽取數據集名。

1、手動在QuickBI數據集增加如下字段：

‘quickbi=xxx數據集=quickbi’ as 數據集自定義字段

2、利用MaxCompute函數regexp_extract按照如下方式正則匹配：

regexp_extract(operation_text,'(?<=quickbi=).*?(?==quickbi)',0)

分析改進項：

1、替換分區不合理數據表或數據集。

2、維表數據在上層加工，下層減少依賴項，做到最好只查一張表。

3、高頻訪問數據集優化存儲大小和QuickBI 報表儀表盤數量。

4、減少報表產出時間。

綜上：藉助MaxCompute 租戶級別Information Schema，拉取每日曆史作業信息，公司成功把每日MaxCompute成本降低到合理波動區間。

作者：石玉陽人力家高級數據研發工程師

點擊立即免費試用雲產品開啓雲上實踐之旅！

原文鏈接

本文爲阿里雲原創內容，未經允許不得轉載。

人力家：藉助 Information Schema 合理治理費用

業務簡介

業務痛點

具體原因分析

1、單SQL查詢費用較高

2、分區不合理

3、報表訪問頻率高，篩選項不同

4、兼容報表增加維表數據

5、運行時間較長

基於Information Schema分析項目作業

分析SQL腳本

治理前後MaxCompute整體成本對比

報表產出明細數據

分析改進項：

推薦2款開源、美觀的WinForm UI控件庫

NET9 AspnetCore將整合OpenAPI的文檔生成功能而無需三方庫

在Linux下管理MySQL的大小寫敏感性

Fedora 開啓視頻的硬件解碼功能

鯤鵬平臺的銀河麒麟，修復音頻

定時清理服務器上log文件，清理docker日誌文件

安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具?

智能測試持續加碼，大模型引領軟件測試新生態

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結