望知道出錯原因的同學能夠解答本人的疑惑,謝謝!
Traumereiisun @_@
第三章 數據描述性分析
p127
如果 x 是數據框,則 mean() 的返回值就是向量,如
mean(as.data.frame(x))
V1 V2 V3 V4
2 5 8 11
本人實踐:
> x<-1:12;dim(x)<-c(3,4)
> x;mean(x);as.data.frame(x);mean(as.data.frame(x))
[,1] [,2] [,3] [,4]
[1,] 1 4 7 10
[2,] 2 5 8 11
[3,] 3 6 9 12
[1] 6.5
V1 V2 V3 V4
1 1 4 7 10
2 2 5 8 11
3 3 6 9 12
[1] NA
Warning message:
In mean.default(as.data.frame(x)) : 參數不是數值也不是邏輯值:回覆NA
p128
該頁的 weighted.mean() 函數也出現類似問題
p141
如偏度小於0,直方圖偏右等.
偏度:
(1)正態分佈(偏度 = 0)
算術平均值 = 中位數 = 衆數,
(2)右偏分佈,右邊的尾部相對於與左邊的尾部要長
(也叫正偏分佈,其偏度 > 0)
衆數 < 中位數 < 算術平均值
由偏度的公式可知,影響偏度正負取值的主要因素是紅色方框。已知“右偏:衆數 < 算術平均值”,那麼紅色方框取值應爲負數啊!爲什麼右偏的結果是偏度 > 0 ?
我與左同學的討論結果:
(不夠精確,待大神指點)
假設左邊的樣本多於右邊的樣本。
左邊:(xi-xbar)< 0,3次方與sum導致負數越來越負;
右邊:因爲右邊尾巴很長,所以(xi-xbar)的3次方遠遠 > 0,sum導致正數越來越正
最終,儘管左邊的樣本多於右邊的樣本,但是,左右相抵,右邊勝出!
(3)左偏分佈,左邊的尾部相對於與右邊的尾部要長
(也叫負偏分佈,其偏度 < 0)
算術平均值 < 中位數 < 衆數
同理,爲什麼左偏的結果是偏度 < 0 ?應該是偏度 > 0啊!
p145
scale = 2,即將10個個位數分成兩段,0 ~ 4 爲一段,5 ~ 9 爲另一段
如果選擇 scale = 1/2,即將 10 個個位數分成 1/2 段,即 20 個數一段???
> x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,91,92,100)
> length(x)
[1] 31
> stem(x)
The decimal point is 1 digit(s) to the right of the |
2 | 5
3 |
4 | 5
5 | 045
6 | 148
7 | 25589
8 | 1344456667999
9 | 0112
10 | 0
> stem(x,scale=2)
The decimal point is 1 digit(s) to the right of the |
2 | 5
3 |
3 |
4 |
4 | 5
5 | 04
5 | 5
6 | 14
6 | 8
7 | 2
7 | 5589
8 | 13444
8 | 56667999
9 | 0112
9 |
10 | 0
> stem(x,scale=0.5)
The decimal point is 1 digit(s) to the right of the |
2 | 5
4 | 5045
6 | 14825589
8 | 13444566679990112
10 | 0
p149
對箱線圖的理解記憶:
- 四分位距,即 IQR = Q3 - Q1
Q3: 75%分位數
Q1: 25%分位數 , Q3和Q1爲四分位數
50% 的數據集中於箱體內。若箱體太大,即數據分佈離散,數據波動較大;箱體小表示數據集中。 - 箱子的上邊爲上四分位數Q3,下邊爲下四分位數Q1,箱體中的橫線爲中位數Q2(50%分位數)
- 箱子的上觸鬚爲數據的最大值Max,下觸鬚爲數據的最小值Min(注意是非離羣點的最大最小值,稱爲上下相鄰值)
- 若數據值 > Q3 + 1.5 IQR(上限值) 或 數據值 < Q1 - 1.5 IQR(下限值) ,均視爲異常值。數據值 > Q3 + 3 IQR 或 數據值 < Q1 - 3 IQR ,均視爲極值。在實際應用中,不會顯示異常值與極值的界限,而且一般統稱爲異常值。
圖形記憶:
圖片參考網址
p149
箱線圖帶有切口,但是,不知道黑圈圈圈出的地方代表什麼?
> boxplot(count~spray,data=InsectSprays,col="lightgray")
> boxplot(count~spray,data=InsectSprays,notch=TRUE,col=2:7,add=TRUE)
Warning message:
In bxp(list(stats = c(7, 11, 14, 18.5, 23, 7, 12, 16.5, 18, 21, :
一些槽在折葉點外('box'): 可能是因爲notch=FALSE
p151
1. 正態性W檢驗方法
函數 shapiro.test() 提供 W 統計量和相應的 p 值,當p 值小於某個顯著性水平 (比如 0.05),則認爲樣本爲不是來自正態分佈的總體;否則承認樣本來自正態分佈的總體。
eg 1:
> w
[1] 75.0 64.0 47.4 66.9 62.2 62.2 58.7
[8] 63.5 66.6 64.0 57.0 69.0 56.9 50.0
[15] 72.0
> shapiro.test(w)
Shapiro-Wilk normality test
data: w
W = 0.96862, p-value = 0.8371
p 值 = 0.8371 > 0.05,認爲來自正態分佈的總體 ,與 QQ 圖得到的結論相同。
> qqnorm(w);qqline(w)
eg 2:
> shapiro.test(runif(100,min=2,max=4))
Shapiro-Wilk normality test
data: runif(100, min = 2, max = 4)
W = 0.94089, p-value = 0.0002185
p 值 = 0.0002185 < 0.05,認爲樣本不是來自正態分佈的總體。當然,這是來自均勻分佈的隨機數。
**2. 經驗分佈的 Kolmogorov-Smirnov 檢驗方法 **
經驗分佈擬合檢驗的方法是檢驗經驗分佈函數 與假設的總體分佈函數 之間的差異。
統計量是計算 與 之間的距離 :
> x<-rt(100,5) # x是T(5)隨機數
>
> # 認爲樣本是來自總體爲F(2,5)分佈
> ks.test(x,"pf",2,5)
One-sample Kolmogorov-Smirnov
test
data: x
D = 0.49, p-value < 2.2e-16
alternative hypothesis: two-sided
結果拒絕,即不認爲 服從 分佈