8. 監視器
- 任務
- 發現一個數據來源中的數據操縱。
- 策略
- 基於觸發器
- 活躍的數據庫機制
- 當數據更改時觸發觸發器;
- 複製更改的元組至其他的區域;
- 基於複製/重複
- 使用複製機制來傳遞更改過的數據;
- 基於日誌
- 分析DBMS中的事務日誌文件以識別更改;
- 基於時間戳
- 爲元組分配時間戳;
- 更改時更新;
- 通過時間對比驗證自從上次提取的所有更改;
- 基於快照
- 數據庫定期複製到文件中(快照);
- 對比快照以驗證更改;
9. 數據清洗區域
- 任務
- 數據採集區域的核心數據存儲組件(暫存區);
- 用於集成的臨時緩存;
- 使用
- 直接在緩存上執行轉換(清洗,集成等等);
- 只有在轉換成功結束之後纔將轉換過的數據加載到數據倉庫或者基本數據庫;
- 優勢
- 對來源或者數據倉庫沒有影響;
- 不接收錯誤/有誤差的數據;
10. 提取組件
- 任務
- 將源中的數據傳遞到數據採集區域;
- 功能:取決於監視策略
- 週期性的;
- 備查;
- 事件驅動 / 控制(比如:達到了預先定義的更改數量);
- 立即提取;
- 實現
- 使用標準藉口(比如,ODBC,JDBC);
- 發生錯誤時進行異常處理以繼續;
11. 轉換組件
- 準備和調整數據以加載
- 內容:數據/實例集成和清洗;
- 結構:模式集成。
- 以統一的格式傳遞所有數據
- 數據類型;
- 日期;
- 計量單位;
- 編碼 等。
- 消除雜質(數據清理)
- 錯誤值或者缺省值;
- 冗餘;
- 過時值。
- 數據清洗
- 使用特定域的知識(比如:業務規則)以識別雜質;
- 比如:識別冗餘。
- 數據審計/審查
- 使用數據挖掘方法以闡明規則;
- 發現誤差/偏差。
12. 加載組件
- 任務
- 加載清洗和整理過的數據至基礎數據庫或者數據倉庫。
- 特點
- 使用特定的加載工具(比如,Oracle的SQL* Loader)→ 批量加載;
- 歷史化:更改源不允許覆寫數據倉庫,取而代之的是額外存儲。
- 加載過程
- 在線:進一步利用基本數據庫或者數據倉庫;
- 離線: 不可用(時間空擋:午夜,週末)。
13. 基本數據庫
- 任務
- 用於不同分析的集成的數據庫 → 獨立於具體的分析,意味着還沒有聚合;
- 向數據倉庫提供清洗過的數據(可能通過壓縮)。
- 附註
- 經常在實踐中省略;
- 對應於Inmon的操作型數據存儲(ODS)。
14. 數據立方體
- 任務
- 用於分析目的的數據庫(關係或者多維度);
- 在結構中面向分析需求;
- 基礎:DBMS;
- 特點
- 支持加載過程
- 大數據量的快速加載 → 繞過多用戶協調和一致性檢測的批量加載;
- 支持分析過程
- 有效的查詢處理(索引結構,緩存);
- 多維度數據模型(比如:關於OLE DB for OLAP)。
15. 數據倉庫
狹義上講,基礎數據庫和數據立方體表示數據倉庫。
廣義上講,數據集市也表示數據倉庫的組件。
16. 數據集市
- 任務
- 提供一個數據倉庫的內容有限的視圖。
- 基礎/根本/原因
- 獨立、保護數據、負載均衡、數據量等。
- 實現
- 分配數據倉庫數據。
- 格式
- 依賴型數據集市
- 獨立型數據集市
17. 依賴型數據集市
- 在 之後分配數據庫
- 集成和清洗(基礎數據庫)
- 組織對應的分析需求(數據立方體)
- ”輪輻“架構 (hub and spoke)
- 數據集市
- 只提取(也包括集成)數據倉庫
- 不清洗或者標準化/泛化
- 數據集市的分析於數據倉庫的分析一致
- 簡單實現
- DBMS的複製機制或者視圖機制
18. ”輪輻“架構
19. 依賴型數據集市:提取構成
- 結構提取
- 部分模式的限制
- 比如:只有某些特徵值或者維度
- 內容提取
- 內容限制
- 比如:只有某些分店或者去年淨利潤
- 聚合提取
- 減少/降低粒度
- 比如:月淨利潤的限制