PCA和SVD區別和聯繫

原創

2020-02-25 20:35

參考：http://blog.csdn.net/wangjian1204/article/details/50642732

http://www.cnblogs.com/lzllovesyl/p/5243370.html

PCA

圖1.尋找主成分方向

對於正交屬性空間的樣本點，如何用一個超平面（直線的高維推廣）對所有樣本進行恰當表達？

最近重構性：一樣本點到這個超平面的距離都足夠近
最大可分性：樣本點在這個超平面上的投影儘可能分開

SVD

如果對矩陣M做奇異值矩陣分解（SVD分解）：

M = U S V ⊤

區別與聯繫：

SVD另一個方向上的主成分

SVD可以獲取另一個方向上的主成分，而PCA只能獲得單個方向上的主成分：

1 n X X ⊤ = 1 n U S V ⊤ V S ⊤ U ⊤ = U S 2 n U ⊤

SVD計算僞逆

求解矩陣的最小二乘問題需要求僞逆，使用SVD可以很容易得到矩陣X的僞逆：

X + = V S - 1 U ⊤

LSI

隱語義索引（Latent semantic indexing，簡稱LSI）通常建立在SVD的基礎上，通過低秩逼近達到降維的目的。

X k = min A r a n k (A) = k ∥ X - A ∥

注意到PCA也能達到降秩的目的，但是PCA需要進行零均值化，且丟失了矩陣的稀疏性。

數值穩定性

通過SVD可以得到PCA相同的結果，但是SVD通常比直接使用PCA更穩定。因爲PCA需要計算X⊤X的值，對於某些矩陣，求協方差時很可能會丟失一些精度。例如Lauchli矩陣：

X = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ 1 e 00 10 e 0 100 e ⎤ ⎦ ⎥ ⎥ ⎥ ⎥

在Lauchli矩陣裏，

e是很小的數，

e2無法用計算機精確表示，從而計算

X⊤X會丟失

e這部分信息。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

特徵工程入門與實踐----特徵增強

特徵增強是對數據的進一步修改，我們開始清洗和增強數據。主要涉及的操作有識別數據中的缺失值刪除有害數據輸入缺失值對數據進行歸一化/標準化 1. 識別數據中的缺失值特徵增強的第一種方法是識

勤奋的小学生

2020-07-06 20:33:18

特徵工程入門與實踐----特徵工程簡介

人工智能的發展，讓我們將那些需要手動操作才能處理的問題，讓計算機也可以解決。例如，自然語言處理、人臉識別和圖片分類等。因此，我們需要藉助機器學習的知識來構建一個AI系統，從用戶那裏讀取到原始數據，讓計算機來幫助我們

勤奋的小学生

2020-07-06 20:33:18

特徵工程入門與實踐----特徵理解

特徵理解，簡單說就是理解數據中都有什麼，對數據的理解方便我們認清數據，從而對數據進行操作，構造有用的特徵。我們將從以下幾個方面來認清數據：結構化數據與非結構化數據定量數據與定性數據數據的4個等級探索性數據

勤奋的小学生

2020-07-06 20:33:18

時間切片特徵衍生

在sql中比較容易處理類似“近n個月金額之和／最大值／最小值／平均值” 這樣的變量，使用sum(case when date then amount else 0 end) 即可，如果是出差在外只能處理離線數據不能使用數據庫時，這個時候

2020-07-05 12:30:32

jieba 中文分詞介紹及使用

目錄基本介紹功能及使用 1. 分詞 2. 添加自定義詞典 2.1 載入詞典 2.2 調整詞典 3. 關鍵詞提取 3.1 基於 TF-IDF 算法的關鍵詞抽取 3.2 基於 TextRank 算法的關鍵詞抽取 4. 詞性標註 5

2020-07-05 12:30:32

fasttext算法原理及使用

1. FastText原理 fastText是一種簡單高效的文本表徵方法，性能與深度學習比肩。fastText的核心思想就是：將整篇文檔的詞及n-gram向量疊加平均得到文檔向量，然後使用文檔向量做softmax多分類。這中間涉及到兩個

2020-07-05 12:30:32

從詞袋到 tf-idf

複習一下文本處理的一些基本概念。詞袋：Bag-of-words，基於單詞數量統計的最簡單的文本特徵表示方法。對於文本數據，詞袋可以理解爲單詞數量的統計列表。文本“it is a puppy and it is extremely

2020-07-05 12:30:32

特徵工程（一）——數值數據

2020-07-05 10:54:07

【精通特徵工程】學習筆記（二）

【精通特徵工程】學習筆記Day2&2.5&D3章&P33-頁 3、文本數據:扁平化、過濾和分塊 3.1 元素袋:將自然文本轉換爲扁平向量 3.1.1 詞袋一個特徵就是一個單詞，一個特徵向量由這個單詞在每篇文檔中出現的次數組成

2020-07-05 05:52:56

處理正負樣本不均衡問題

在原文的基礎上 Ref: https://www.zhihu.com/question/27535832/answer/223882022 進行修改。記憶輔助：樣本不均衡就是正樣本太少，負樣本太對，(1)增加正樣本-過採樣;減少負樣本-

2020-07-03 17:35:33

數據挖掘——特徵選擇

數據挖掘——特徵選擇前言特徵選擇前言特徵選擇是數據挖掘人物中相當重要的一步，選擇地好既能去除冗餘特徵減少不必要的計算，又能增加數據的表達性，增加算法的準確率。特徵選擇的方法很多，需要一個蘿蔔一個坑，所以需要找到最適合當前任務的

2020-07-03 16:10:50

特徵工程——特徵交叉、交叉特徵、特徵組合

特徵工程——特徵交叉、交叉特徵、特徵組合關於特徵交叉的作用以及原理，我這裏不進行詳細描述，因爲大佬們已經說得很清楚了，這裏就附上幾個連接：特徵組合&特徵交叉 (Feature Crosses) 結合sklearn進行特徵工程

2020-07-03 16:10:50

數據挖掘——爲什麼使用啞變量？啞變量有哪些作用？哪些情況應該使用啞變量？

數據挖掘——爲什麼使用啞變量？啞變量有哪些作用？哪些情況應該使用啞變量？直接給鏈接： https://www.cnblogs.com/sddai/p/8834373.html

2020-07-03 16:10:50

問題記錄——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'

問題記錄——pd.read_hdf throws 'cannot set WRITABLE flag to True of this array'解決辦法:降級numpy 可以使用如下寫入h5文件 df.to_hdf('../te

2020-07-03 16:10:50

day 7 特徵選擇

import pandas as pd import numpy as np data = pd.read_csv("digit recognizor.csv") # print(data.head()) x = data.iloc[

口袋里的小小哥

2020-07-03 03:13:47

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章