統計建模與R軟件——書籍問題

望知道出錯原因的同學能夠解答本人的疑惑,謝謝!
Traumereiisun @_@

第三章 數據描述性分析

p127

如果 x 是數據框,則 mean() 的返回值就是向量,如
mean(as.data.frame(x))
V1 V2 V3 V4
2 5 8 11

本人實踐:

> x<-1:12;dim(x)<-c(3,4)
> x;mean(x);as.data.frame(x);mean(as.data.frame(x))
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12
[1] 6.5
  V1 V2 V3 V4
1  1  4  7 10
2  2  5  8 11
3  3  6  9 12
[1] NA
Warning message:
In mean.default(as.data.frame(x)) : 參數不是數值也不是邏輯值:回覆NA

p128
該頁的 weighted.mean() 函數也出現類似問題

p141

> 樣本的偏度係數(記爲g1)

如偏度小於0,直方圖偏右等.

偏度:
(1)正態分佈(偏度 = 0)
算術平均值 = 中位數 = 衆數,

(2)右偏分佈,右邊的尾部相對於與左邊的尾部要長
(也叫正偏分佈,其偏度 > 0)
衆數 < 中位數 < 算術平均值
在這裏插入圖片描述

由偏度的公式可知,影響偏度正負取值的主要因素是紅色方框。已知“右偏:衆數 < 算術平均值”,那麼紅色方框取值應爲負數啊!爲什麼右偏的結果是偏度 > 0 ?

我與左同學的討論結果:
(不夠精確,待大神指點)
假設左邊的樣本多於右邊的樣本。
左邊:(xi-xbar)< 0,3次方與sum導致負數越來越負;
右邊:因爲右邊尾巴很長,所以(xi-xbar)的3次方遠遠 > 0,sum導致正數越來越正
最終,儘管左邊的樣本多於右邊的樣本,但是,左右相抵,右邊勝出!

(3)左偏分佈,左邊的尾部相對於與右邊的尾部要長
(也叫負偏分佈,其偏度 < 0)
算術平均值 < 中位數 < 衆數
在這裏插入圖片描述

同理,爲什麼左偏的結果是偏度 < 0 ?應該是偏度 > 0啊!

p145

scale = 2,即將10個個位數分成兩段,0 ~ 4 爲一段,5 ~ 9 爲另一段
如果選擇 scale = 1/2,即將 10 個個位數分成 1/2 段,即 20 個數一段???

> x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,91,92,100)
> length(x)
[1] 31
> stem(x)

  The decimal point is 1 digit(s) to the right of the |

   2 | 5
   3 | 
   4 | 5
   5 | 045
   6 | 148
   7 | 25589
   8 | 1344456667999
   9 | 0112
  10 | 0

> stem(x,scale=2)

  The decimal point is 1 digit(s) to the right of the |

   2 | 5
   3 | 
   3 | 
   4 | 
   4 | 5
   5 | 04
   5 | 5
   6 | 14
   6 | 8
   7 | 2
   7 | 5589
   8 | 13444
   8 | 56667999
   9 | 0112
   9 | 
  10 | 0

> stem(x,scale=0.5)

  The decimal point is 1 digit(s) to the right of the |

   2 | 5
   4 | 5045
   6 | 14825589
   8 | 13444566679990112
  10 | 0

p149
對箱線圖的理解記憶:

  1. 四分位距,即 IQR = Q3 - Q1
    Q3: 75%分位數
    Q1: 25%分位數 , Q3和Q1爲四分位數
    50% 的數據集中於箱體內。若箱體太大,即數據分佈離散,數據波動較大;箱體小表示數據集中。
  2. 箱子的上邊爲上四分位數Q3,下邊爲下四分位數Q1,箱體中的橫線爲中位數Q2(50%分位數)
  3. 箱子的上觸鬚爲數據的最大值Max下觸鬚爲數據的最小值Min注意非離羣點最大最小值,稱爲上下相鄰值
  4. 若數據值 > Q3 + 1.5 IQR(上限值) 或 數據值 < Q1 - 1.5 IQR(下限值) ,均視爲異常值。數據值 > Q3 + 3 IQR 或 數據值 < Q1 - 3 IQR ,均視爲極值。在實際應用中,不會顯示異常值與極值的界限,而且一般統稱爲異常值。

圖形記憶:
在這裏插入圖片描述
圖片參考網址

p149
箱線圖帶有切口,但是,不知道黑圈圈圈出的地方代表什麼?
在這裏插入圖片描述

> boxplot(count~spray,data=InsectSprays,col="lightgray")
> boxplot(count~spray,data=InsectSprays,notch=TRUE,col=2:7,add=TRUE)
Warning message:
In bxp(list(stats = c(7, 11, 14, 18.5, 23, 7, 12, 16.5, 18, 21,  :
  一些槽在折葉點外('box'): 可能是因爲notch=FALSE

p151
1. 正態性W檢驗方法

函數 shapiro.test() 提供 W 統計量和相應的 p 值,當p 值小於某個顯著性水平 α\alpha(比如 0.05),則認爲樣本爲不是來自正態分佈的總體;否則承認樣本來自正態分佈的總體。

eg 1:

> w
 [1] 75.0 64.0 47.4 66.9 62.2 62.2 58.7
 [8] 63.5 66.6 64.0 57.0 69.0 56.9 50.0
[15] 72.0
> shapiro.test(w)

	Shapiro-Wilk normality test

data:  w
W = 0.96862, p-value = 0.8371

p 值 = 0.8371 > 0.05,認爲來自正態分佈的總體 ,與 QQ 圖得到的結論相同。

> qqnorm(w);qqline(w)

在這裏插入圖片描述
eg 2:

> shapiro.test(runif(100,min=2,max=4))

	Shapiro-Wilk normality test

data:  runif(100, min = 2, max = 4)
W = 0.94089, p-value = 0.0002185

p 值 = 0.0002185 < 0.05,認爲樣本不是來自正態分佈的總體。當然,這是來自均勻分佈的隨機數。

**2. 經驗分佈的 Kolmogorov-Smirnov 檢驗方法 **

經驗分佈擬合檢驗的方法是檢驗經驗分佈函數 Fn(x)F_n(x) 與假設的總體分佈函數 F0(x)F_0(x) 之間的差異。
統計量是計算 Fn(x)F_n(x)F0(x)F_0(x) 之間的距離 DD
D=sup<x<Fn(x)F0(x)D=sup_{-\infty<x<\infty}|F_n(x)-F_0(x)|

> x<-rt(100,5) # x是T(5)隨機數
> 
> # 認爲樣本是來自總體爲F(2,5)分佈
> ks.test(x,"pf",2,5)

	One-sample Kolmogorov-Smirnov
	test

data:  x
D = 0.49, p-value < 2.2e-16
alternative hypothesis: two-sided

結果拒絕,即不認爲 xx 服從 F2,5F_{2,5} 分佈

發佈了4 篇原創文章 · 獲贊 0 · 訪問量 157
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章