CDA數據分析師培訓筆記(二)20151114-20151115

(續)

         關於正太分佈:

         f(x)實際上是概率密度曲線,曲線的面積才表示概率值,f(x)表示密度,比如X=10的時候,f(x)等於多少。Y軸不表示概率。

         我百度了一下中學時所學的密度的定義

CDA數據分析師培訓筆記(二)20151114-20151115
 

f(x)函數和上面這個類似。所以最後我們求概率都是使用求積分的方式。

         關於Z統計量

         自然界很多變量都屬於正太分佈(已知了均值和標準差,我們就知道這個分佈的樣子),但不一定是正太分佈,我們用Z統計量是講變量矯正到標準正太分佈,然後用標準正太分佈的特殊性求得區間或者概率。

        其他的統計量,或者只要是能夠構造出來的統計量必定知道他的分佈,如果不知道這個統計量的分佈,構造出來就沒有意義。正因爲我們知道分佈,所以我們就能根據值求得概率。這個構造出來的統計量就是概率密度函數的X軸的值。

         關於SQL

         之前公司有上一個ERP軟件,說實話真的很難用,一年好幾次更新,更新還要執行很多SQL語句,雖然我不會寫,但是時間長了就知道語句是幹什麼用的了。我現在電腦上還存着很多SQL語句,有些單據錯誤還得靠這些語句。這個軟件讓我頭疼了好幾年,不過也從中學到的數據庫的一些知識還是蠻有用的。

          關於區間估計

          給定一個置信度(95%、99%),我們可以求出一個概率度t,Z統計量在正負t間的範圍的面積就爲置信度。Z統計量是根據樣本均數,總體均數,平均抽樣誤差計算的,樣本均數知道,平均抽樣誤差知道,反過來就可以推算總體均數。

          關於假設檢驗

          在一定的假設條件下,構造一個統計量,這個統計量服從一個已知分佈,我們根據這個統計量的計算值,求得相應的概率,根據概率大小判斷是不是小概率事件。

          關於P值

          表示對原假設的支出程度。在原假設成立的條件下,我們一次抽樣得到現在這個樣本的概率。

 

(未完)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章