數據挖掘預處理

數據預處理的主要任務如下：

（1）數據清理：填寫空缺值，平滑噪聲數據，識別，刪除孤立點，解決不一致性

（2）數據集成：集成多個數據庫，數據立方體，文件

（3）數據變換：規範化（消除冗餘屬性）和聚集（數據彙總），將數據從一個較大的子空間投影到一個較小的子空間

（4）數據歸約：得到數據集的壓縮表示，量小，但可以得到相近或相同的結果

（5）數據離散化：數據規約的一部分，通過概念分層和數據的離散化來規約數據，對數字型數據比較重要。

1.數據清洗

（1）處理空缺值：

A. 忽略元組

B．人工填寫空缺值

C．使用一個全局變量填充空缺值

D．使用屬性的平均值填充空缺值

E．使用與給定元組屬同一類的所有樣本的平均值

F．使用最可能的值填充空缺值，使用像Bayesian公式或判定樹這樣的基於推理的方法（目前最流行的方法是基於這個思路的）

注意：並非所有的空缺值都是說數據有錯誤，如果該值允許空缺值，那麼說明數據是沒問題的，但是應該給與空缺值一個合理的意義。

2.處理噪聲數據

噪聲：一個測量變量中的隨機錯誤或偏差

A.分箱（binning）（等深或等寬分箱）

首先排序數據，並將他們分到等深的箱中

然後可以按箱的平均值平滑，按箱中值平滑，按箱的邊界值平滑

B．聚類：檢測並且去除孤立點

C．計算機和人工檢查結合：計算機檢測可疑數據，然後對他們進行人工判斷

D．迴歸：通過讓數據適應迴歸函數來平滑數據，對連續的數字型數據較好

3.數據變換

A．平滑：去除數據中的噪聲

B．聚集：數據彙總，數據立方體的構建，數據立方體的計算/物化(一個數據立方體在方體的最底層叫基本方體，基本方體就是已知存在的數據，對現有的數據按照不同維度進行彙總就可以得到不同層次的方體，所有的方體聯合起來叫做一個方體的格，也叫數據立方體。數據立方體中所涉及到的計算就是彙總)

C．數據概化：沿概念分層向上彙總，數據立方體的不同的維之間可能存在着一個概念分層的關係

D．規範化：將數據按比例縮放，使這些數據落入到一個較小的特定的區間之內。方法有：

a.最小----最大規範化

b.Z-score規範化

c.小數定標規範化

E．屬性的構造：通過現有屬性構造新的屬性，並添加到屬性集中

4.數據歸約

（1）數據歸約可以用來得到數據集的歸約表示，它小得多，但可以產生相同（或幾乎相同的）分析結果

（2）數據歸約策略

A.數據立方體聚集：

數據立方體是根據不同的維度對數據進行彙總，立方體的越頂層，其彙總程度就越高，數據量就越少。

對數據的表示就越概化。最底層的方體對應於基本方體，基本方體對應於感興趣的實體。

在數據立方體中存在着不同級別的彙總，數據立方體可以看做方體的格，每一個較高層次的抽象將進一步減少結果數據集。

數據立方體提供了對預計算的彙總數據的快速訪問，原則是使用與給定任務相關的最小方體，並且在可能的情況下，對於彙總數據的查詢應當使用數據立方體。

B.維歸約：用來檢測或刪除不相關的或基本不相關的屬性或冗餘屬性或維，來減少數據量。

屬性子集的選擇：找出最小屬性集，使得數據類的概念分佈儘可能的接近使用所有屬性的原分佈，把不相關的屬性全部刪除。

可以減少出現在發現模式上的屬性的數目，使得模式便於理解。

主要方法有：啓發式的（探索式的try and error）方法，該方法包括逐步向前選擇（從空屬性集開始，每次選擇都選擇當前屬性集中最符合的目標，

最好的屬性，加到當前的屬性集中，這樣逐步的向前選擇，把有用的屬性一個一個的添加進來），

逐步向後刪除（從屬性全集開始，每次刪除還在當前屬性集中的最不適合的那個屬性，最壞的屬性，這樣一個一個的刪除，最後留下來的就是相關的屬性），

向前選擇和向後刪除相結合（每次選擇一個最好的屬性，並且刪除一個最壞的屬性），判定歸納樹

C.數據壓縮：使用一些編碼機制來壓縮數據集。無損壓縮（可以根據壓縮之後的數據完整的構造出壓縮之前的數據wrar. zip等，如字符串壓縮）

和有損壓縮（無法通過壓縮之後的數據來完整的構造出壓縮之前的數據，如音頻/視頻壓縮，有時可以在不解壓縮整體數據的情況下，重構某個片段，主要應用於流媒體傳輸）。

兩種有損數據壓縮的方法：小波變換和主要成分分析

D.數值歸約：使用較小的，替代的數據來估計，替換，表示原數據（用參數模型）：通過選擇替代的，較小的數據表示形式來減少數據量。

方法主要有：有參方法（使用一個參數模型來估計數據，最後只要存儲參數即可，有線性迴歸方法，多元迴歸，對數線性模型（近似離散的多維數據概率分佈））和

無參方法（直方圖（將某屬性的數據劃分爲不相交的子集或桶，桶中放置該值的出現頻率，其中桶和屬性值的劃分規則有：等深，等寬，V-最優，MaxDiff），

聚類(將數據集劃分爲聚類，然後通過聚類來表示數據集，如果數據可以組成各種不同的聚類，則該技術非常有效，反之如果數據界線模糊，則該方法無效。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘預處理

MySQL本地可以連接，遠程連接不上的解決

Django源碼解析：middleware

數據挖掘預處理

Django源碼解析：setting.py

android apk 簽名

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結