1. Source, 3NF/File, 源數據
2. Stg, 3NF,暫存數據(同源同構,不對外提供服務)
3. ODS, 3NF,操作數據(簡單處理,提供基於業務數據的應用)
4. BL, Star, 明細數據(面向主題域,數據加工,產生衍生指標)
5. DM, Start, 彙總數據(特定領域的應用)
6. OLAP, Cube, 多維數據
7. Report。
最難:需求分析、模型設計
工作量最大:ETL(60-80%)
標準化:格式,缺省值,類型,長度,範圍,去空格
Load: delete/rebuild index/RI
數據源調研:值域,空值,主外鍵,數據字典,ER關係,樣本數據,業務規則
處理: Reject,error, rerun.
不要絕對正確,但要知道爲什麼不正確(統計口徑)