統計建模與R軟件——書籍問題

望知道出錯原因的同學能夠解答本人的疑惑，謝謝！
Traumereiisun @_@

第三章數據描述性分析

p127

如果 x 是數據框，則 mean() 的返回值就是向量，如
mean(as.data.frame(x))
V1 V2 V3 V4
2 5 8 11

本人實踐：

> x<-1:12;dim(x)<-c(3,4)
> x;mean(x);as.data.frame(x);mean(as.data.frame(x))
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12
[1] 6.5
  V1 V2 V3 V4
1  1  4  7 10
2  2  5  8 11
3  3  6  9 12
[1] NA
Warning message:
In mean.default(as.data.frame(x)) : 參數不是數值也不是邏輯值：回覆NA

p128
該頁的 weighted.mean() 函數也出現類似問題

p141

如偏度小於0，直方圖偏右等.

偏度：
（1）正態分佈（偏度 = 0）
算術平均值 = 中位數 = 衆數，

（2）右偏分佈，右邊的尾部相對於與左邊的尾部要長
（也叫正偏分佈，其偏度 > 0）
衆數 < 中位數 < 算術平均值

由偏度的公式可知，影響偏度正負取值的主要因素是紅色方框。已知“右偏：衆數 < 算術平均值”，那麼紅色方框取值應爲負數啊！爲什麼右偏的結果是偏度 > 0 ？

我與左同學的討論結果：
（不夠精確，待大神指點）
假設左邊的樣本多於右邊的樣本。
左邊：（xi-xbar）< 0，3次方與sum導致負數越來越負；
右邊：因爲右邊尾巴很長，所以（xi-xbar）的3次方遠遠 > 0，sum導致正數越來越正
最終，儘管左邊的樣本多於右邊的樣本，但是，左右相抵，右邊勝出！

（3）左偏分佈，左邊的尾部相對於與右邊的尾部要長
（也叫負偏分佈，其偏度 < 0）
算術平均值 < 中位數 < 衆數

同理，爲什麼左偏的結果是偏度 < 0 ？應該是偏度 > 0啊！

p145

scale = 2，即將10個個位數分成兩段，0 ~ 4 爲一段，5 ~ 9 爲另一段
如果選擇 scale = 1/2，即將 10 個個位數分成 1/2 段，即 20 個數一段？？？

> x<-c(25,45,50,54,55,61,64,68,72,75,75,78,79,81,83,84,84,84,85,86,86,86,87,89,89,89,90,91,91,92,100)
> length(x)
[1] 31
> stem(x)

  The decimal point is 1 digit(s) to the right of the |

   2 | 5
   3 | 
   4 | 5
   5 | 045
   6 | 148
   7 | 25589
   8 | 1344456667999
   9 | 0112
  10 | 0

> stem(x,scale=2)

  The decimal point is 1 digit(s) to the right of the |

   2 | 5
   3 | 
   3 | 
   4 | 
   4 | 5
   5 | 04
   5 | 5
   6 | 14
   6 | 8
   7 | 2
   7 | 5589
   8 | 13444
   8 | 56667999
   9 | 0112
   9 | 
  10 | 0

> stem(x,scale=0.5)

  The decimal point is 1 digit(s) to the right of the |

   2 | 5
   4 | 5045
   6 | 14825589
   8 | 13444566679990112
  10 | 0

p149
對箱線圖的理解記憶：

四分位距，即 IQR = Q3 - Q1
Q3: 75%分位數
Q1: 25%分位數 , Q3和Q1爲四分位數
50% 的數據集中於箱體內。若箱體太大，即數據分佈離散，數據波動較大；箱體小表示數據集中。
箱子的上邊爲上四分位數Q3，下邊爲下四分位數Q1，箱體中的橫線爲中位數Q2（50%分位數）
箱子的上觸鬚爲數據的最大值Max，下觸鬚爲數據的最小值Min（注意是非離羣點的最大最小值，稱爲上下相鄰值）
若數據值 > Q3 + 1.5 IQR（上限值）或數據值 < Q1 - 1.5 IQR（下限值） ,均視爲異常值。數據值 > Q3 + 3 IQR 或數據值 < Q1 - 3 IQR ,均視爲極值。在實際應用中，不會顯示異常值與極值的界限，而且一般統稱爲異常值。

圖形記憶：

圖片參考網址

p149
箱線圖帶有切口，但是，不知道黑圈圈圈出的地方代表什麼？

> boxplot(count~spray,data=InsectSprays,col="lightgray")
> boxplot(count~spray,data=InsectSprays,notch=TRUE,col=2:7,add=TRUE)
Warning message:
In bxp(list(stats = c(7, 11, 14, 18.5, 23, 7, 12, 16.5, 18, 21,  :
  一些槽在折葉點外('box'): 可能是因爲notch=FALSE

p151
1. 正態性W檢驗方法

函數 shapiro.test() 提供 W 統計量和相應的 p 值，當p 值小於某個顯著性水平 $\alpha$ （比如 0.05），則認爲樣本爲不是來自正態分佈的總體；否則承認樣本來自正態分佈的總體。

eg 1:

> w
 [1] 75.0 64.0 47.4 66.9 62.2 62.2 58.7
 [8] 63.5 66.6 64.0 57.0 69.0 56.9 50.0
[15] 72.0
> shapiro.test(w)

	Shapiro-Wilk normality test

data:  w
W = 0.96862, p-value = 0.8371

p 值 = 0.8371 > 0.05，認爲來自正態分佈的總體，與 QQ 圖得到的結論相同。

> qqnorm(w);qqline(w)

eg 2:

> shapiro.test(runif(100,min=2,max=4))

	Shapiro-Wilk normality test

data:  runif(100, min = 2, max = 4)
W = 0.94089, p-value = 0.0002185

p 值 = 0.0002185 < 0.05，認爲樣本不是來自正態分佈的總體。當然，這是來自均勻分佈的隨機數。

**2. 經驗分佈的 Kolmogorov-Smirnov 檢驗方法 **

經驗分佈擬合檢驗的方法是檢驗經驗分佈函數 $F_n(x)$ 與假設的總體分佈函數 $F_0(x)$ 之間的差異。
統計量是計算 $F_n(x)$ 與 $F_0(x)$ 之間的距離 $D$ ：
$D=sup_{-\infty<x<\infty}|F_n(x)-F_0(x)|$

> x<-rt(100,5) # x是T(5)隨機數
> 
> # 認爲樣本是來自總體爲F(2,5)分佈
> ks.test(x,"pf",2,5)

	One-sample Kolmogorov-Smirnov
	test

data:  x
D = 0.49, p-value < 2.2e-16
alternative hypothesis: two-sided

結果拒絕，即不認爲 $x$ 服從 $F_{2,5}$ 分佈

小太陽Devil

發佈了4 篇原創文章 · 獲贊 0 · 訪問量 157

私信關注

統計建模與R軟件——書籍問題

第三章數據描述性分析

【SQL進階】CASE語句的使用

npm error Cannot read properties of null (reading 'isDescendantOf')

爪哇，我初學乍道

Word 論文頁碼、頁眉、目錄等設置

最簡潔分清：標準差 & 標準誤

江湖救急：高德地圖Bug

Matrix Derivation

Lasso求解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

統計建模與R軟件——書籍問題

第三章 數據描述性分析

第三章數據描述性分析