數據分析模型及商業決策(一):帶你一文掌握統計學基礎

【描述數據的統計學工具】

一、統計分爲兩大類

  • 一個是分析數據集中度和分散度的描述性統計
  • 一個是通過樣本對總體情況作出推斷的推斷性統計

只有掌握了統計學基礎,我們才能在統計學的基礎上進行聚類、迴歸、分類、組間差異這四個常見的數據分析方法

二、數據案例引入

2.1銷售數據

原始數據中上萬條的記錄都被保存着,一眼看上去是雜亂無章的數據

2.2銷售額表現怎麼樣?

闡述解釋數據的狀況,這就是描述統計

2.3可視化

描述數據有兩個關鍵的問題(描述性統計分析)

  • 中心度:銷售額集中在哪個區
    在這裏插入圖片描述
  • 分散度:最小值和最大值之間的區間(左側箭頭)
    在這裏插入圖片描述

三、數據的集中度

包括以下三點:

  • 均值,平均數,均件,最常用的衡量集中度的指標(誤區:有非常大的或者非常小的銷售額會拉高整體均值,因此需要同時提供中位數和衆數)
  • 中位數,將數據從小到大排列之後,處於最中間位置的那個數字
  • 衆數,數據中出現最頻繁的那個數字,可能有很多衆數,或者找不到衆數

四、數據的離散度

包括以下四點:

  • 全距,數據中最大值和最小值的差,是簡單實用的指標
  • 四分位數,對全距的改進,從小到大排序,均分爲四等分,四分位數有三個,處在25%位置上的數值(Q1),處在50%位置上數值即中位數(Q2),和處在75%6位置上的數值(Q3),確定四分位數的位置公式
    Q1的位置=(n+1) x 0.25
    Q2的位置=(n+1) x 0.5
    Q3的位置=(n+1) x 0.75
  • 方差,更全面的反映離散度,偏離
    在這裏插入圖片描述
  • 標準差,方差的開方結果,越大,表示偏離越遠

五、數據的相關性

5.1案例

數據有很多種類---------------->研究不同數據之間的關係

  • 用戶在app上的使用時間和他們購買產品金額大小之間的關係
  • 用戶個人資產大小以及他們申請貸款的金額等等

5.2散點圖

可以藉助散點圖來幫助理解
相關關係三種可能的結果:

  • 正相關關係
    在這裏插入圖片描述
  • 負相關關係
    在這裏插入圖片描述
  • 完全散亂的散點圖
    在這裏插入圖片描述

5.3計算相關係數

相關係數的取值是在-1到1之間
越接近1正相關關係越強
越接近-1負相關關係越強
越接近0相關關係越弱

六、總結

數據分析師最關心的問題:是否存在因果關係
所以第一步一般都是散點圖和相關係數

【概率與概率分佈】

一、描述性統計的侷限性

數據往往由無法控制的事件組成,比如:

  • 用戶註冊app的時間
  • 工作日用戶下單購買產品的數量
  • 某個產品的銷售數額

通過對歷史數據大量的重複觀察,可以找到他們的某種規律
因此我們需要學到概率和概率分佈

二、兩種主要的數據類型

  • 類別型數據,取值有限的若干個
  • 數字型數據,某個範圍內的任何點(可能這個範圍沒有明顯的界限)
    在這裏插入圖片描述

三、概率

定義:用來衡量時間發送可能性的比例
用概率來抽象歸納的數據,對於兩種不同的數據類型,給出的答案也不相同
在這裏插入圖片描述

四、應用

4.1從分類型數據來看概率的具體應用

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
用戶點擊頁面的概率是0.6
只有兩種可能,點擊或者不點擊
且每個用戶的訪問決定都是互相獨立的(假設)
在這裏插入圖片描述
如果是四千萬個用戶呢?
分類型的還有扔硬幣,生男孩女孩

4.2從數字型數據來看概率的具體應用

  • 評估用戶的收入水平
    在這裏插入圖片描述

正態分佈

在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
原理:
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

【估計和假設檢驗驗證】

一、樣本

基於所擁有的的數據
比如:
某-家新的初創公司,向市場上推出了新的APP,
運行了一段時間之後,累積了-定的用戶數據
樣本之外,是所有智能手機可以下載這個app的用戶

二、抽樣與估計

對於總體(所有智能手機可以下載這個app的用戶),想了解的問題:
1.我們的市場用戶平均每個月在我們的app下單的次數是多少?
從現有用戶中,進行不重複的抽取1萬個用戶來分析
在這裏插入圖片描述
1萬 個用戶抽樣,發現數據的平均值爲3.5
是否直接可以用這個3.5
作爲以後所有用戶平均購買的參照標準呢?
分析與結論:
在這裏插入圖片描述
2.我們的市場用戶平均每個月在我們的app上花多少錢呢?

  • 抽樣平均數預測整體的問題- >是一個孤立的數據點
  • 實際工作中,將推測的數據放在區間內,保證預測的精確性以及工作的靈活度
  • 解決方法:使用正態分佈的置信區間
    例子:

在這裏插入圖片描述
在這裏插入圖片描述
【重要,這個對於我們瞭解整體分佈具有巨大意義】
記住:
在這裏插入圖片描述

三、假設檢驗

3.1分析數據的思路

爲了得到用戶的年齡或者消費情況,
參數估計,基於用戶樣本的數據來去估計總體用戶

3.2假設檢驗的思路

根據經驗或者其他方面的信息來假設一個總體用戶可能的值

3.3例子

前面用戶數據中
平均的消費3900元

某個第三方數據公司,
對於所有用戶電商數據進行了統計,
揭示了“總體”的用戶平均消費是在4100元

那麼,就是相差了200元,但是我們要知道,我們的用戶是不是比傳統的消費能力低???

我們假設我們的平均消費4100元
驗證結果:接受還是拒絕這個假設?
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
等於4100假設的話,是雙尾檢驗

計算檢驗統計量
在這裏插入圖片描述
方差分析:兩個及以上樣本差別的顯著性檢驗
兩組閱讀量的差別是由於什麼造成了
1.假設無差異
2.計算
在這裏插入圖片描述
3.選擇合適的顯著水平和臨界值
4.發現無法拒絕原假設,則在閱讀量上沒有很大差別

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章