【描述數據的統計學工具】

一、統計分爲兩大類

一個是分析數據集中度和分散度的描述性統計
一個是通過樣本對總體情況作出推斷的推斷性統計

只有掌握了統計學基礎，我們才能在統計學的基礎上進行聚類、迴歸、分類、組間差異這四個常見的數據分析方法

二、數據案例引入

2.1銷售數據

原始數據中上萬條的記錄都被保存着，一眼看上去是雜亂無章的數據

2.2銷售額表現怎麼樣?

闡述解釋數據的狀況，這就是描述統計

2.3可視化

描述數據有兩個關鍵的問題（描述性統計分析）

中心度：銷售額集中在哪個區
分散度：最小值和最大值之間的區間（左側箭頭）

三、數據的集中度

包括以下三點：

均值，平均數，均件，最常用的衡量集中度的指標（誤區：有非常大的或者非常小的銷售額會拉高整體均值，因此需要同時提供中位數和衆數）
中位數，將數據從小到大排列之後，處於最中間位置的那個數字
衆數，數據中出現最頻繁的那個數字，可能有很多衆數，或者找不到衆數

四、數據的離散度

包括以下四點：

全距，數據中最大值和最小值的差，是簡單實用的指標
四分位數，對全距的改進，從小到大排序，均分爲四等分，四分位數有三個,處在25%位置上的數值(Q1)，處在50%位置上數值即中位數(Q2),和處在75%6位置上的數值(Q3)，確定四分位數的位置公式
Q1的位置=(n+1) x 0.25
Q2的位置=(n+1) x 0.5
Q3的位置=(n+1) x 0.75
方差，更全面的反映離散度，偏離
標準差，方差的開方結果，越大，表示偏離越遠

五、數據的相關性

5.1案例

數據有很多種類---------------->研究不同數據之間的關係

用戶在app上的使用時間和他們購買產品金額大小之間的關係
用戶個人資產大小以及他們申請貸款的金額等等

5.2散點圖

可以藉助散點圖來幫助理解
相關關係三種可能的結果：

正相關關係
負相關關係
完全散亂的散點圖

5.3計算相關係數

相關係數的取值是在-1到1之間
越接近1正相關關係越強
越接近-1負相關關係越強
越接近0相關關係越弱

六、總結

數據分析師最關心的問題：是否存在因果關係
所以第一步一般都是散點圖和相關係數

【概率與概率分佈】

一、描述性統計的侷限性

數據往往由無法控制的事件組成，比如:

用戶註冊app的時間
工作日用戶下單購買產品的數量
某個產品的銷售數額

通過對歷史數據大量的重複觀察，可以找到他們的某種規律
因此我們需要學到概率和概率分佈

二、兩種主要的數據類型

類別型數據，取值有限的若干個
數字型數據，某個範圍內的任何點（可能這個範圍沒有明顯的界限）

三、概率

定義：用來衡量時間發送可能性的比例
用概率來抽象歸納的數據，對於兩種不同的數據類型，給出的答案也不相同

四、應用

4.1從分類型數據來看概率的具體應用

用戶點擊頁面的概率是0.6
只有兩種可能，點擊或者不點擊
且每個用戶的訪問決定都是互相獨立的(假設)

如果是四千萬個用戶呢？
分類型的還有扔硬幣，生男孩女孩

4.2從數字型數據來看概率的具體應用

評估用戶的收入水平

正態分佈

原理：

【估計和假設檢驗驗證】

一、樣本

基於所擁有的的數據
比如：
某-家新的初創公司，向市場上推出了新的APP，
運行了一段時間之後，累積了-定的用戶數據
樣本之外，是所有智能手機可以下載這個app的用戶

二、抽樣與估計

對於總體(所有智能手機可以下載這個app的用戶)，想了解的問題:
1.我們的市場用戶平均每個月在我們的app下單的次數是多少?
從現有用戶中，進行不重複的抽取1萬個用戶來分析

1萬個用戶抽樣，發現數據的平均值爲3.5
是否直接可以用這個3.5
作爲以後所有用戶平均購買的參照標準呢?
分析與結論：

2.我們的市場用戶平均每個月在我們的app上花多少錢呢?

抽樣平均數預測整體的問題- >是一個孤立的數據點
實際工作中，將推測的數據放在區間內，保證預測的精確性以及工作的靈活度
解決方法：使用正態分佈的置信區間
例子：

【重要，這個對於我們瞭解整體分佈具有巨大意義】
記住：

三、假設檢驗

3.1分析數據的思路

爲了得到用戶的年齡或者消費情況，
參數估計，基於用戶樣本的數據來去估計總體用戶

3.2假設檢驗的思路

根據經驗或者其他方面的信息來假設一個總體用戶可能的值

3.3例子

前面用戶數據中
平均的消費3900元

某個第三方數據公司，
對於所有用戶電商數據進行了統計，
揭示了“總體”的用戶平均消費是在4100元

那麼，就是相差了200元，但是我們要知道，我們的用戶是不是比傳統的消費能力低？？？

我們假設我們的平均消費4100元
驗證結果：接受還是拒絕這個假設？

等於4100假設的話，是雙尾檢驗

計算檢驗統計量

方差分析：兩個及以上樣本差別的顯著性檢驗
兩組閱讀量的差別是由於什麼造成了
1.假設無差異
2.計算

3.選擇合適的顯著水平和臨界值
4.發現無法拒絕原假設，則在閱讀量上沒有很大差別

數據分析模型及商業決策（一）：帶你一文掌握統計學基礎

文章目錄