轉自:http://baike.baidu.com/view/69207.htm
ETL
簡介
ETL一詞較常出現在數據倉庫,但其對象並不侷限於數據倉庫。
ETL是數據倉庫中的非常重要的一環。它是承前啓後的必要的一步。相對於關係數據庫,數據倉庫技術沒有嚴格的數學理論基礎,它更面向實際工程應用。所以從工程應用的角度來考慮,按着物理數據模型的要求加載數據並對數據進行一些系列處理,處理過程與經驗直接相關,同時這部分的工作直接關係數據倉庫中數據的質量,從而影響到聯機分析處理和數據挖掘的結果的質量。
數據倉庫是一個獨立的數據環境,需要通過抽取過程將數據從聯機事務處理環境、外部數據源和脫機的數據存儲介質導入到數據倉庫中;在技術上,ETL主要涉及到關聯、轉換、增量、調度和監控等幾個方面;數據倉庫系統中數據不要求與聯機事務處理系統中數據實時同步,所以ETL可以定時進行。但多個ETL的操作時間、順序和成敗對數據倉庫中信息的有效性至關重要。
概念
ETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程)作爲BI/DW(Business Intelligence)的核心和靈魂,能夠按照統一的規則集成並提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。如果說數據倉庫的模型設計是一座大廈的設計藍圖,數據是磚瓦的話,那麼ETL就是建設大廈的過程。在整個項目中最難部分是用戶需求分析和模型設計,而ETL規則設計和實施則是工作量最大的,約佔整個項目的60%~80%,這是國內外從衆多實踐中得到的普遍共識。