CDA數據分析師培訓筆記（二）20151114-20151115

原創

2018-10-02 10:14

（續）

關於正太分佈：

f（x）實際上是概率密度曲線，曲線的面積才表示概率值，f（x）表示密度，比如X=10的時候，f（x）等於多少。Y軸不表示概率。

我百度了一下中學時所學的密度的定義

f（x）函數和上面這個類似。所以最後我們求概率都是使用求積分的方式。

關於Z統計量

自然界很多變量都屬於正太分佈（已知了均值和標準差，我們就知道這個分佈的樣子），但不一定是正太分佈，我們用Z統計量是講變量矯正到標準正太分佈，然後用標準正太分佈的特殊性求得區間或者概率。

其他的統計量，或者只要是能夠構造出來的統計量必定知道他的分佈，如果不知道這個統計量的分佈，構造出來就沒有意義。正因爲我們知道分佈，所以我們就能根據值求得概率。這個構造出來的統計量就是概率密度函數的X軸的值。

關於SQL

之前公司有上一個ERP軟件，說實話真的很難用，一年好幾次更新，更新還要執行很多SQL語句，雖然我不會寫，但是時間長了就知道語句是幹什麼用的了。我現在電腦上還存着很多SQL語句，有些單據錯誤還得靠這些語句。這個軟件讓我頭疼了好幾年，不過也從中學到的數據庫的一些知識還是蠻有用的。

關於區間估計

給定一個置信度（95%、99%），我們可以求出一個概率度t，Z統計量在正負t間的範圍的面積就爲置信度。Z統計量是根據樣本均數，總體均數，平均抽樣誤差計算的，樣本均數知道，平均抽樣誤差知道，反過來就可以推算總體均數。

關於假設檢驗

在一定的假設條件下，構造一個統計量，這個統計量服從一個已知分佈，我們根據這個統計量的計算值，求得相應的概率，根據概率大小判斷是不是小概率事件。

關於P值

表示對原假設的支出程度。在原假設成立的條件下，我們一次抽樣得到現在這個樣本的概率。

（未完）

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.