實訓補充線性迴歸的總體介紹【相關分析、迴歸分析】

相關分析

相關分析定義

相關分析（correlation analysis），相關分析是研究現象之間是否存在某種依存關係，並對具體有依存關係的現象探討其相關方向以及相關程度，是研究隨機變量之間的相關關係的一種統計方法。

相關關係是一種非確定性的關係，例如，以X和Y分別記一個人的身高和體重，或分別記每公頃施肥量與每公頃小麥產量，則X與Y顯然有關係，而又沒有確切到可由其中的一個去精確地決定另一個的程度，這就是相關關係。

[編輯本段]

相關分析的分類

1、線性相關分析：研究兩個變量間線性關係的程度。用相關係數r來描述。

-正相關：如果x,y變化的方向一致，如身高與體重的關係，r>0；一般地，

·|r|>0.95 存在顯著性相關；

·|r|≥0.8 高度相關；

·0.5≤|r|<0.8 中度相關；

·0.3≤|r|<0.5 低度相關；

·|r|<0.3 關係極弱，認爲不相關

負相關：如果x,y變化的方向相反，如吸菸與肺功能的關係，r<0；

無線性相關：r=0。

如果變量Y與X間是函數關係，則r=1或r=-1；如果變量Y與X間是統計關係，則-1

r的計算有三種：

·Pearson相關係數：對定距連續變量的數據進行計算。

·Spearman和Kendall相關係數：對分類變量的數據或變量值的分佈明顯非正態或分佈不明時，計算時先對離散數據進行排序或對定距變量值排（求）秩。

2、偏相關分析：研究兩個變量之間的線性相關關係時，控制可能對其產生影響的變量。如控制年齡和工作經驗的影響，估計工資收入與受教育水平之間的相關關係。

3、距離分析：是對觀測量之間或變量之間相似或不相似程度的一種測度，是一種廣義的距離。分爲觀測量之間距離分析和變量之間距離分析。

- 不相似性測度：

·a、對等間隔(定距)數據的不相似性（距離）測度可以使用的統計量有Euclid歐氏距離、歐氏距離平方等。

·b、對計數數據使用卡方。

·c、對二值（只有兩種取值）數據，使用歐氏距離、歐氏距離平方、尺寸差異、模式差異、方差等。

- 相似性測度：

·a、等間隔數據使用統計量Pearson相關或餘弦。

·b、測度二元數據的相似性使用的統計量有20餘種。

[編輯本段]

相關分析與迴歸分析的關係

相關分析與迴歸分析在實際應用中有密切關係。然而在迴歸分析中，所關心的是一個隨機變量Y對另一個（或一組）隨機變量X的依賴關係的函數形式。而在相關分析中，所討論的變量的地位一樣，分析側重於隨機變量之間的種種相關特徵。例如，以X、Y分別記小學生的數學與語文成績，感興趣的是二者的關係如何，而不在於由X去預測Y。

[編輯本段]

複相關

研究一個變量 x0與另一組變量 (x1,x2,…，xn)之間的相關程度。例如,職業聲望同時受到一系列因素（收入、文化、權力……）的影響，那麼這一系列因素的總和與職業聲望之間的關係，就是複相關。複相關係數R0.12…n的測定，可先求出 x0對一組變量x1，x2，…，xn的迴歸直線，再計算x0與用迴歸直線估計值憫之間的簡單直線迴歸。複相關係數爲

R0.12…n的取值範圍爲0≤R0.12…n≤1。複相關係數值愈大，變量間的關係愈密切。

偏相關研究在多變量的情況下，當控制其他變量影響後，兩個變量間的直線相關程度。又稱淨相關或部分相關。例如，偏相關係數 r13.2表示控制變量x2的影響之後，變量 x1和變量x3之間的直線相關。偏相關係數較簡單直線相關係數更能真實反映兩變量間的聯繫。

迴歸分析

目錄[隱藏]

迴歸分析

迴歸分析的應用

[編輯本段]

迴歸分析

迴歸分析（regression analysis)是確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。運用十分廣泛，迴歸分析按照涉及的自變量的多少，可分爲一元迴歸分析和多元迴歸分析；按照自變量和因變量之間的關係類型，可分爲線性迴歸分析和非線性迴歸分析。如果在迴歸分析中，只包括一個自變量和一個因變量，且二者的關係可用一條直線近似表示，這種迴歸分析稱爲一元線性迴歸分析。如果迴歸分析中包括兩個或兩個以上的自變量，且因變量和自變量之間是線性關係，則稱爲多元線性迴歸分析。

方差齊性

線性關係

效應累加

變量無測量誤差

變量服從多元正態分佈

觀察獨立

模型完整（沒有包含不該進入的變量、也沒有漏掉應該進入的變量）

誤差項獨立且服從（0,1）正態分佈。

現實數據常常不能完全符合上述假定。因此，統計學家研究出許多的迴歸模型來解決線性迴歸模型假定過程的約束。

研究一個或多個隨機變量Y1 ，Y2 ，…，Yi與另一些變量X1、X2，…，Xk之間的關係的統計方法。又稱多重回歸分析。通常稱Y1，Y2，…，Yi爲因變量，X1、X2，…，Xk爲自變量。迴歸分析是一類數學模型，特別當因變量和自變量爲線性關係時，它是一種特殊的線性模型。最簡單的情形是一個自變量和一個因變量，且它們大體上有線性關係，這叫一元線性迴歸，即模型爲Y＝a＋bX＋ε，這裏X是自變量，Y是因變量，ε是隨機誤差，通常假定隨機誤差的均值爲0，方差爲σ^2（σ^2大於0）σ2與X的值無關。若進一步假定隨機誤差遵從正態分佈，就叫做正態線性模型。一般的情形，差有k個自變量和一個因變量，因變量的值可以分解爲兩部分：一部分是由自變量的影響，即表示爲自變量的函數，其中函數形式已知，但含一些未知參數；另一部分是由於其他未被考慮的因素和隨機性的影響，即隨機誤差。當函數形式爲未知參數的線性函數時，稱線性迴歸分析模型；當函數形式爲未知參數的非線性函數時，稱爲非線性迴歸分析模型。當自變量的個數大於1時稱爲多元迴歸，當因變量個數大於1時稱爲多重回歸。

迴歸分析的主要內容爲：①從一組數據出發確定某些變量之間的定量關係式，即建立數學模型並估計其中的未知參數。估計參數的常用方法是最小二乘法。②對這些關係式的可信程度進行檢驗。③在許多自變量共同影響着一個因變量的關係中，判斷哪個（或哪些）自變量的影響是顯著的，哪些自變量的影響是不顯著的，將影響顯著的自變量選入模型中，而剔除影響不顯著的變量，通常用逐步迴歸、向前迴歸和向後迴歸等方法。④利用所求的關係式對某一生產過程進行預測或控制。迴歸分析的應用是非常廣泛的，統計軟件包使各種迴歸方法計算十分方便。

[編輯本段]

迴歸分析的應用

相關分析研究的是現象之間是否相關、相關的方向和密切程度，一般不區別自變量或因變量。而回歸分析則要分析現象之間相關的具體形式，確定其因果關係，並用數學模型來表現其具體關係。比如說，從相關分析中我們可以得知“質量”和“用戶滿意度”變量密切相關，但是這兩個變量之間到底是哪個變量受哪個變量的影響，影響程度如何，則需要通過迴歸分析方法來確定。

一般來說，迴歸分析是通過規定因變量和自變量來確定變量之間的因果關係，建立迴歸模型，並根據實測數據來求解模型的各個參數，然後評價迴歸模型是否能夠很好的擬合實測數據；如果能夠很好的擬合，則可以根據自變量作進一步預測。

例如，如果要研究質量和用戶滿意度之間的因果關係，從實踐意義上講，產品質量會影響用戶的滿意情況，因此設用戶滿意度爲因變量，記爲Y；質量爲自變量，記爲X。根據圖8－3的散點圖，可以建立下面的線性關係：

Y=A+BX+§

式中：A和B爲待定參數，A爲迴歸直線的截距；B爲迴歸直線的斜率，表示X變化一個單位時，Y的平均變化情況；§爲依賴於用戶滿意度的隨機誤差項。

在SPSS軟件裏可以很容易地實現線性迴歸，迴歸方程如下：

y=0.857+0.836x

迴歸直線在y軸上的截距爲0.857、斜率0.836，即質量每提高一分，用戶滿意度平均上升0.836分；或者說質量每提高1分對用戶滿意度的貢獻是0.836分。

740)this.width=740">

上面所示的例子是簡單的一個自變量的線性迴歸問題，在數據分析的時候，也可以將此推廣到多個自變量的多元迴歸，具體的迴歸過程和意義請參考相關的統計學書籍。此外，在SPSS的結果輸出裏，還可以彙報R2，F檢驗值和T檢驗值。R2又稱爲方程的確定性係數（coefficient of determination），表示方程中變量X對Y的解釋程度。R2取值在0到1之間，越接近1，表明方程中X對Y的解釋能力越強。通常將R2乘以100％來表示迴歸方程解釋Y變化的百分比。F檢驗是通過方差分析表輸出的，通過顯著性水平（significant level）檢驗迴歸方程的線性關係是否顯著。一般來說，顯著性水平在0.05以下，均有意義。當F檢驗通過時，意味着方程中至少有一個迴歸係數是顯著的，但是並不一定所有的迴歸係數都是顯著的，這樣就需要通過T檢驗來驗證迴歸係數的顯著性。同樣地，T檢驗可以通過顯著性水平或查表來確定。在上面所示的例子中，各參數的意義如表8－2所示。

表8－2 線性迴歸方程檢驗

指標	顯著性水平	意義
R	0.89		“質量”解釋了89％的“用戶滿意度”的變化程度
F	276.82	0.001	迴歸方程的線性關係顯著
T	16.64	0.001	迴歸方程的係數顯著

示例 SIM手機用戶滿意度與相關變量線性迴歸分析

我們以SIM手機的用戶滿意度與相關變量的線性迴歸分析爲例，來進一步說明線性迴歸的應用。從實踐意義講上，手機的用戶滿意度應該與產品的質量、價格和形象有關，因此我們以“用戶滿意度”爲因變量，“質量”、“形象”和“價格”爲自變量，作線性迴歸分析。利用SPSS軟件的迴歸分析，得到迴歸方程如下：

用戶滿意度＝0.008×形象＋0.645×質量＋0.221×價格

對於SIM手機來說，質量對其用戶滿意度的貢獻比較大，質量每提高1分，用戶滿意度將提高0.645分；其次是價格，用戶對價格的評價每提高1分，其滿意度將提高0.221分；而形象對產品用戶滿意度的貢獻相對較小，形象每提高1分，用戶滿意度僅提高0.008分。

方程各檢驗指標及含義如下：

指標	顯著性水平	意義
R2	0.89		“質量”和“形象”解釋了89％的“用戶滿意度”的變化程度
F	248.53	0.001	迴歸方程的線性關係顯著
T（形象）	0.00	1.000	“形象”變量對迴歸方程幾乎沒有貢獻
T（質量）	13.93	0.001	“質量”對迴歸方程有很大貢獻
T（價格）	5.00	0.001	“價格”對迴歸方程有很大貢獻

從方程的檢驗指標來看，“形象”對整個迴歸方程的貢獻不大，應予以刪除。所以重新做“用戶滿意度”與“質量”、“價格”的迴歸方程如下：

用戶滿意度＝0.645×質量＋0.221×價格

對於SIM手機來說，質量對其用戶滿意度的貢獻比較大，質量每提高1分，用戶滿意度將提高0.645分；用戶對價格的評價每提高1分，其滿意度將提高0.221分（在本示例中，因爲“形象”對方程幾乎沒有貢獻，所以得到的方程與前面的迴歸方程係數差不多）。

方程各檢驗指標及含義如下：

指標	顯著性水平	意義
R	0.89		“質量”和“形象”解釋了89％的“用戶滿意度”的變化程度
F	374.69	0.001	迴歸方程的線性關係顯著
T（質量）	15.15	0.001	“質量”對迴歸方程有很大貢獻
T（價格）	5.06	0.001	“價格”對迴歸方程有很大貢獻

擴展閱讀：

1.簡明農業詞典科學出版社 1978年8月 188頁

2.農業試驗設計與統計方法一百例陝西科學技術出版社 1987年9月 473頁，569頁

3.http://www.dina.com.cn/ShowInfoContent4.asp?ID=106

迴歸分析與相關分析的區別與聯繫
區別：
1、相關分析研究的兩個變量是對等關係，迴歸分析研究的兩個變量不是對等關係
2、相關分析的兩個變量都是隨機變量，迴歸分析自變量是可以設定和控制的普通變量，因變量是隨機變量
3、迴歸方程在進行預測估計時，只能由自變量的數值來估計因變量的可能值，不能由因變量來推測自變量
聯繫：
1、相關分析是迴歸分析的基礎
2、迴歸分析是相關分析的繼續

實訓補充線性迴歸的總體介紹【相關分析、迴歸分析】

python gdal 安裝使用（Windows， python 3.6.8）

畢業設計（3）potrace 算法

畢業設計（2）Code::Blocks16.01配置opencv3.1.0

機器學習算法的基礎（使用Python和R代碼）之決策樹

畢業設計——漢字字體的矢量化方法研究（4）利用potrace算法

實訓2018-07-18 換種思路解決問題---利用lm（）多元迴歸預測NBA勝負（常規賽16強預測）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

實訓補充 線性迴歸的總體介紹【相關分析、迴歸分析】

實訓補充線性迴歸的總體介紹【相關分析、迴歸分析】