基於MaxCompute InformationSchema進行血緣關係分析

一、需求場景分析
在實際的數據平臺運營管理過程中,數據表的規模往往隨着更多業務數據的接入以及數據應用的建設而逐漸增長到非常大的規模,數據管理人員往往希望能夠利用元數據的分析來更好地掌握不同數據表的血緣關係,從而分析出數據的上下游依賴關係。
本文將介紹如何去根據MaxCompute InformationSchema中作業ID的輸入輸出表來分析出某張表的血緣關係。
二、方案設計思路
MaxCompute Information_Schema提供了訪問表的作業明細數據tasks_history,該表中有作業ID、input_tables、output_tables字段記錄表的上下游依賴關係。根據這三個字段統計分析出表的血緣關係
1、根據某1天的作業歷史,通過獲取tasks_history表裏的input_tables、output_tables

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章