最簡單數倉建設,原理:將所有源數據抽取到同一個地方,建模,加工處理。
需求:將不同mysql庫數據,抽取到同一個pg庫,對抽取數據進行加工,生成報表。如:在B機器上抽取A機器上數據到C機器上。
使用工具:DataX
步驟:
- B機器上安裝java,python,安裝DataX
詳細步驟參考:DataX使用 - 獲取源數據相關參數
生成固定格式文件:schema|table|target_table|pk_column|columns|add_column
參考mysql參數獲取:查詢Mysql表名、主鍵、列名
參考postgresql參數獲取:查看Postgresql表名、主鍵、列名 - 批量生成json文件
寫一個簡單的java文件,讀取步驟2生成的文件,並按DataX要求生成對應格式的json文件。
詳細參考:DataX批量生成json文件(簡單java代碼) - 通用執行sh腳本
參考: - 批量生成目標庫建表語句
結合excel用起來比較方便,這事本該dba去做的,因爲涉及表太多,dba不肯搞,只能自己搞個工具生成建表語句了。
參考詳細步驟:Mysql表結構遷移到Postgresql - 調度系統部署
B機器上安裝airflow,並裝上對應的調度資料庫 - 配置調度任務
參考網上 - 數據加工處理
參考:阿里OneData體系 - 生成報表目標表
- 接入報表系統