基本數倉建設(含最詳細步驟)

最簡單數倉建設,原理:將所有源數據抽取到同一個地方,建模,加工處理。

需求:將不同mysql庫數據,抽取到同一個pg庫,對抽取數據進行加工,生成報表。如:在B機器上抽取A機器上數據到C機器上。

使用工具:DataX

步驟:

  1. B機器上安裝java,python,安裝DataX
    詳細步驟參考:DataX使用
  2. 獲取源數據相關參數
    生成固定格式文件:schema|table|target_table|pk_column|columns|add_column
    參考mysql參數獲取:查詢Mysql表名、主鍵、列名
    參考postgresql參數獲取:查看Postgresql表名、主鍵、列名
  3. 批量生成json文件
    寫一個簡單的java文件,讀取步驟2生成的文件,並按DataX要求生成對應格式的json文件。
    詳細參考:DataX批量生成json文件(簡單java代碼)
  4. 通用執行sh腳本
    參考:
  5. 批量生成目標庫建表語句
    結合excel用起來比較方便,這事本該dba去做的,因爲涉及表太多,dba不肯搞,只能自己搞個工具生成建表語句了。
    參考詳細步驟:Mysql表結構遷移到Postgresql
  6. 調度系統部署
    B機器上安裝airflow,並裝上對應的調度資料庫
  7. 配置調度任務
    參考網上
  8. 數據加工處理
    參考:阿里OneData體系
  9. 生成報表目標表
  10. 接入報表系統

 

 
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章