數據挖掘預處理

 數據預處理的主要任務如下:
(1)數據清理:填寫空缺值,平滑噪聲數據,識別,刪除孤立點,解決不一致性
(2)數據集成:集成多個數據庫,數據立方體,文件
(3)數據變換:規範化(消除冗餘屬性)和聚集(數據彙總),將數據從一個較大的子空間投影到一個較小的子空間
(4)數據歸約:得到數據集的壓縮表示,量小,但可以得到相近或相同的結果
(5)數據離散化:數據規約的一部分,通過概念分層和數據的離散化來規約數據,對數字型數據比較重要。
 
1.數據清洗
 
(1)處理空缺值:
 
A.  忽略元組
 
B.人工填寫空缺值
 
C.使用一個全局變量填充空缺值
 
D.使用屬性的平均值填充空缺值
 
E.使用與給定元組屬同一類的所有樣本的平均值
 
F.使用最可能的值填充空缺值,使用像Bayesian公式或判定樹這樣的基於推理的方法(目前最流行的方法是基於這個思路的)
 
注意:並非所有的空缺值都是說數據有錯誤,如果該值允許空缺值,那麼說明數據是沒問題的,但是應該給與空缺值一個合理的意義。
 
 
2.處理噪聲數據
 
噪聲:一個測量變量中的隨機錯誤或偏差
 
A.分箱(binning)(等深或等寬分箱)
 
首先排序數據,並將他們分到等深的箱中
 
然後可以按箱的平均值平滑,按箱中值平滑,按箱的邊界值平滑
 
B.聚類:檢測並且去除孤立點
 
C.計算機和人工檢查結合:計算機檢測可疑數據,然後對他們進行人工判斷
 
D.迴歸:通過讓數據適應迴歸函數來平滑數據,對連續的數字型數據較好
 
 
3.數據變換
 
A.平滑:去除數據中的噪聲
 
B.聚集:數據彙總,數據立方體的構建,數據立方體的計算/物化(一個數據立方體在方體的最底層叫基本方體,基本方體就是已知存在的數據,對現有的數據按照不同維度進行彙總就可以得到不同層次的方體,所有的方體聯合起來叫做一個方體的格,也叫數據立方體。數據立方體中所涉及到的計算就是彙總)
 
C.數據概化:沿概念分層向上彙總,數據立方體的不同的維之間可能存在着一個概念分層的關係
 
D.規範化:將數據按比例縮放,使這些數據落入到一個較小的特定的區間之內。方法有:
 
   a.最小----最大規範化
 
   b.Z-score規範化
 
   c.小數定標規範化
 
E.屬性的構造:通過現有屬性構造新的屬性,並添加到屬性集中
 
4.數據歸約
 
(1)數據歸約可以用來得到數據集的歸約表示,它小得多,但可以產生相同(或幾乎相同的)分析結果
 
(2)數據歸約策略
 
   A.數據立方體聚集:
 
   數據立方體是根據不同的維度對數據進行彙總,立方體的越頂層,其彙總程度就越高,數據量就越少。
 
對數據的表示就越概化。最底層的方體對應於基本方體,基本方體對應於感興趣的實體。
 
在數據立方體中存在着不同級別的彙總,數據立方體可以看做方體的格,每一個較高層次的抽象將進一步減少結果數據集。
 
數據立方體提供了對預計算的彙總數據的快速訪問,原則是使用與給定任務相關的最小方體,並且在可能的情況下,對於彙總數據的查詢應當使用數據立方體。
 
   B.維歸約:用來檢測或刪除不相關的或基本不相關的屬性或冗餘屬性或維,來減少數據量。
 
屬性子集的選擇:找出最小屬性集,使得數據類的概念分佈儘可能的接近使用所有屬性的原分佈,把不相關的屬性全部刪除。
 
可以減少出現在發現模式上的屬性的數目,使得模式便於理解。
 
主要方法有:啓發式的(探索式的try and error)方法,該方法包括逐步向前選擇(從空屬性集開始,每次選擇都選擇當前屬性集中最符合的目標,
 
最好的屬性,加到當前的屬性集中,這樣逐步的向前選擇,把有用的屬性一個一個的添加進來),
 
逐步向後刪除(從屬性全集開始,每次刪除還在當前屬性集中的最不適合的那個屬性,最壞的屬性,這樣一個一個的刪除,最後留下來的就是相關的屬性),
 
向前選擇和向後刪除相結合(每次選擇一個最好的屬性,並且刪除一個最壞的屬性),判定歸納樹
 
   C.數據壓縮:使用一些編碼機制來壓縮數據集。無損壓縮(可以根據壓縮之後的數據完整的構造出壓縮之前的數據wrar. zip等,如字符串壓縮)
 
和有損壓縮(無法通過壓縮之後的數據來完整的構造出壓縮之前的數據,如音頻/視頻壓縮,有時可以在不解壓縮整體數據的情況下,重構某個片段,主要應用於流媒體傳輸)。
 
兩種有損數據壓縮的方法:小波變換和主要成分分析
 
   D.數值歸約:使用較小的,替代的數據來估計,替換,表示原數據(用參數模型):通過選擇替代的,較小的數據表示形式來減少數據量。
 
方法主要有:有參方法(使用一個參數模型來估計數據,最後只要存儲參數即可,有線性迴歸方法,多元迴歸,對數線性模型(近似離散的多維數據概率分佈))和
 
無參方法(直方圖(將某屬性的數據劃分爲不相交的子集或桶,桶中放置該值的出現頻率,其中桶和屬性值的劃分規則有:等深,等寬,V-最優,MaxDiff),
 
聚類(將數據集劃分爲聚類,然後通過聚類來表示數據集,如果數據可以組成各種不同的聚類,則該技術非常有效,反之如果數據界線模糊,則該方法無效。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章