大數據挖掘——數據預處理

第三章 數據預處理

3.1 數據預處理

3.1.1 數據質量

  數據質量涉及很多因素,包括準確性、完整性、一致性、時效性、可信性和可解釋性。

3.1.2 數據預處理的主要任務

  數據處理的主要步驟:數據清理、數據集成、數據歸約和數據變換。數據清理通過填寫缺失的值,光滑噪聲數據,識別或刪除離羣點,並解決不一致性來清理數據。假設你想在分析中使用來自多個數據源的數據,這涉及集成多個數據庫、數據立方體或文件,即數據集成。數據歸約,得到數據集的簡化表示,它小的多,但能夠產生同樣的(或幾乎同樣)的分析結果,數據歸約包括維歸約和數值歸約。維歸約使用數據編碼方案,以便得到原始數據的簡化或壓縮表示,例如小波變換、主成分分析等;數值歸約使用參數模型(迴歸和對數線性模型)或非參數模型(直方圖、聚類、抽樣或數據聚類),用較小的表示取代數據。數據變換主要有規範化、數據離散化和概念分層等形式。

3.2 數據清理

3.2.1 缺失值

  缺失值的處理方法有:忽略元組、人工填寫缺失值、使用一個全局常量填充缺失值、使用屬性的中心度量填充缺失值、使用與給定元組同意類的所有樣本屬性的均值或中位數、使用最可能的值填充缺失值(利用迴歸、貝葉斯推理、決策樹方法)。

3.2.2 噪聲數據

  什麼是噪聲?噪聲就是被測量的變量的隨機誤差會方差。我們則怎樣才能“光滑”數據、去掉噪聲呢?主要的方法有分箱、迴歸、離羣點分析等。

3.2.3 數據清理作爲一個過程

數據清理過程第一步是偏差檢測,第二步是數據變換。

3.3 數據集成

數據挖掘經常需要數據集成——合併來自多個數據存儲的數據。

3.3.1 實體識別問題

3.3.2 冗餘和相關分析

  有些冗餘是可以被相關分析檢測到。給定兩個屬性,這種分析可以根據可用的數據,度量另一個屬性能在多大程度上蘊含另一個。對於標稱數據,我們使用卡方檢驗。對於數值屬性,我們使用相關係數。

3.4 數據歸約

  數據歸約技術可用來得到數據集的歸約表示,它小的多,但接近於保持原始數據的完整性。也就是說,在歸約後的數據集上挖掘更有效,仍然產生相同(或幾乎相同)的分析結果。
  維規約:減少鎖考慮的隨機變量或屬性個數,主要包括小波變換和主成分分析。數量歸約:用替代的、較小的數據表示形式替代元數據。數據壓縮:使用變換,以便得到原數據的歸約或“壓縮”表示。

3.5 數據變換與數據離散化

3.5.1 通過規範化變換數據

規範化的主要方法有:最小-最大規範化;z分數規範化;小數定標規範化等。

3.5.2 通過分箱離散化

3.5.3 通過直方圖離散化

3.5.4 通過聚類、決策樹和相關分析離化

3.5.5 標稱數據的概念分層產生

總結:

  • 數據質量:用準確性、完整性、一致性、時效性、可信性和可解釋性定義。
  • 數據清理:例程試圖填充缺失的值,光滑噪聲同時識別離羣點,並糾正數據的不一致性。數據清理主要包括偏差檢驗和數據變換。
  • 數據集成:將來自多個數據源的數據整合成一致的數據存儲。
  • 數據歸約:得到數據個歸約表示,而使得信心內容的損失最小化。數據歸約的方法包括維歸約、數值歸約和數據壓縮。維歸約減少所考慮的隨機變量或維的個數,方法包括小波變換、主成分分析、屬性子集選擇和屬性創建。數值歸約方法使用參數或非參數模型,得到原始數據的較小表示,方法主要有迴歸和對數線性模型、直方圖、聚類、抽樣和數據立方體聚集等。數據壓縮方法使用變換,得到原始數據的歸約或“壓縮”表示。
  • 數據變換:例程將數據變換成適用於挖掘的形式。主要方法有規範化、數據離散化、概念分層。
  • 數據離散化:通過把值映射到區間或概念標號變換數值數據。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章