工作中我常用的分析算法

統計性描述經常用到散點圖

統計性描述更爲側重單變量的描述，即描述X、X與X之間的關係，在通過X去描述Y的時候，我更關心X與Y間存在何種關係，此時便需要藉助散點圖去印證X與Y相關的內在一致性，並通過方差、協方差過渡到統計相關的本質。

散點圖是唯一一個能夠描述變量與變量間相關關係的圖形，在實際我的工作中出鏡頻率非常高，它很好的過渡了描述性統計與推論性統計之間的鴻溝。

檢驗與方差分析幾乎不用

概率理論部分涉及到假設檢驗，由此可以過渡到差異性分析。

其實T檢驗和方差分析都可以看成是差異類的分析方法，差異分析能夠幫忙回答就是你我之間有無區別的問題，其實，工作中幾乎不太會使用到差異化分析，但是作爲統計學的基本底層框架，熟悉並掌握還是非常有必要，不一定能用到，但是你要會

不同領域相關分析側重不同

依據不同的分析環境，相關分析會有完全不同的分析思路，不同領域中對同一種方法的使用、視角、判斷以及應用完全不同。

傳統的市場分析領域中，數據收集成本昂貴且非常強調精度，相關分析並不能解決精度上的問題，甚至連經常遇到的事物的因果關係都很難說清，因此大家並不會將相關分析作爲最終的分析結論，相關分析僅僅是預分析的一小部分。

數據挖掘領域中，相關分析便顯得非常重要。例如捆綁銷售案例，冬瓜和拖布捆綁在一起營銷效果會比較好，也許根本無從知曉其背後的真正原因，對於商家而言關注的只是盈利商品組合，其背後的原因似乎也並不是特別重要。爲什麼不追本溯源的去問其背後的爲什麼呢？如果非要深究其背後的原因，便需要通過線下調查、數據分析、人力投入等等種種工作，這便涉及到了昂貴的分析成本，數據挖掘領域中控制成本是一個很重要的問題。

線性迴歸的Y你不一定能拿到

以二元線性迴歸爲例，迴歸公式爲：

Y=b0+b1*x1+b2*x2+u

其中Y是由實物轉化爲統計問題的結構，通常用來表示具體的需求，實際建迴歸模型時最主要的兩個問題，一是Y的可獲取性（能不能拿到Y），另一個是如何量化Y，這兩個問題涉及到你的現實問題能不能轉化成統計學問題並加以處理。

如果某天領導要求分析客戶的信用情況，能不能實現呢？

如果所在電商行業，那麼可以第一時間拒絕，理由是X質量差、Y不易獲得且無法量化。通常銀行業中則能夠實現，銀行業中指標獲取便利。

邏輯迴歸太重要

邏輯迴歸模型的方程式與線性迴歸類似，區別在於Y的量化特徵不同。通常，Y有0-1類型、多分類類型、計數類型等，不同的量化特徵決定使用的建模方法不同。

Y爲0-1類型的邏輯迴歸模型，其統計方法使用非常久，與其相比其他所有的方法都稍顯遜色，0-1類型的邏輯迴歸可以解決非常多的預測類問題，例如客戶會不會流失、公司會不會倒閉、明天會不會下雨等等

需要注意的是，不同的量化方案也意味着業務環境不同，如果將Y量化成0-1分類，說明當前業務環境非常緊湊，Y爲當務之急要解決的問題，例如客戶流失過於嚴重時可以將Y定義爲0-1的形式。反之，如果當前的需求是開發新興市場，那麼Y的定義可以不必如此激烈嚴格。

因子分析害怕過擬合

T檢驗、F檢驗、迴歸、邏輯迴歸均針對Y進行分析，針對龐大的X的分析則需要用到降維的思想將X進行壓縮，通常2-15個影響因素是合理的，如果超出此範圍，工作中便很難論證模型的科學性，因此將變量壓縮至合理的數量範圍便變得非常重要，使用的方法便是主成分與因子分析。

因子也可以叫做主成分，兩者本質相同，市場分析中利用問卷調查消費者潛在行爲時經常會用到因子分析。當然，弊端是當統計量過多時會帶來模型過擬合的問題，模型一旦過擬合則會導致後續問題無法處理。

什麼是過擬合？例如Y爲明天要不要去逛街，如果你要顧忌明天的天氣、明天的交通狀況、明天穿的衣服顏色、明天能不能吃早飯等等等等，顧忌的因素這麼多，乾脆不要去了，這，就是過擬合。

聚類分析做的是市場細分

主成分分析是沒有Y的，針對的是龐大的X間的分析，即分析的是樣本的列，而聚類分析則分析的是行。

針對行的分析與針對列的分析不同，列表示各種變量，而行表示人的特徵或是行爲特徵，商業中對行較爲關注，而研究領域中對列的分析尤爲看重。

聚類做的事情就是市場細分，即將相似特徵的事物聚合在一起，對聚合後的每一組進行描述，即對每一組的特徵進行細分，細分的過程即貼標籤，標籤非常有意思，京東叫做京東畫像，淘寶叫做千人千面計劃。其實市場細分也具有侷限，其僅僅能對客戶進行描述，例如一個人站在奢飾品店的門口，有經驗的店員第一眼能夠看出她的穿衣揹包檔次從而給這個人進行定位，這便是市場細分，但是，這個人會不會進店買東西店員則無從知曉，如何判斷買與不買，這便是後續的客戶價值分析。

客戶價值分析

客戶價值分析領域常用的模型爲RFM模型，例如某人在京東下了第一單，發現物流服務、線上購物體驗、客服服務都很好，於是後續接連下單購買多次，通常，單量、購買時間長短、消費金額這三個指標是客戶價值模型的核心衡量指標。

其實，市場細分也好、判別歸屬也好，都基於客戶價值模型，市場細分主要是針對X的分析，客戶價值主要是針對Y的分析，判別模型主要針對的是X與Y的分析，他們歸根結底，都是一套的數據挖掘方法流。

對應分析與聯合分析

對應分析與聯合分析是市場分析與數據挖掘領域中使用較爲廣泛的方法。

對應分析是針對X的模型的延伸，例如可以將對應分析看成是主成分模型的延伸，主要解決四象限的問題。例如可以以收入數據作爲X、幸福感數據作爲Y畫圖，會發現一三象限的數據隨着收入的增加幸福感也會增加，符合常規認知，但是二四象限的數據便不符合常理了，收入高爲什麼不幸福？收入低的人有什麼可快樂的呢？通過後續分析你就會發現，其中涉及到人的一種特質-即安全感。原來，收入高但是不幸福的人很可能是缺少了安全感，那麼可以將安全感這一特質放入其中，處理後發現數據基本分佈在了一三象限，那麼，這個過程中涉及到的異常客戶便是值得你後續重點關注的有價值客戶，很可能，他們身上，蘊藏着巨大的空白市場。

由Y的模型延伸出來的方法便是聯合分析，主要解決的是產品的結構問題，例如新買了筆記本，開始選擇這個型號是因爲喜歡它的顏色，然而隨着時間的推移我的口味也隨之升級，我開始關注內存、性能。當客戶對商品的滿意度下降，反映了這個商品的結構已經不再合理，聯合分析便是實時的監控產品的結構屬性特徵，判斷出最優組合，分辨出商品的主打特性與附庸特性，是一種對新產品潛在屬性的預測，是迴歸分析的延伸方法。

時間序列分析強調預測

前面的分析都是基於橫截面數據進行的分析，橫截面數據強調結構性問題，時間序列則強調預測，實際工作中用到的也不是很多。

生存分析

客戶價值分析中，當客戶向右流動時稱爲客戶轉換，可以利用判別分析進行分析處理，當客戶向左流動時，則稱爲客戶流失，這時利用的是生存分析進行處理。

我的公衆號：Data Analyst

工作中我常用的分析算法

統計性描述經常用到散點圖

檢驗與方差分析幾乎不用

不同領域相關分析側重不同

線性迴歸的Y你不一定能拿到

邏輯迴歸太重要

因子分析害怕過擬合

聚類分析做的是市場細分

客戶價值分析

對應分析與聯合分析

時間序列分析強調預測

生存分析

客戶分羣決定營銷成敗

方差分析分類及SAS實現代碼

迴歸模型的基礎是相關

關於密度函數、分佈函數與生存函數的一點看法（一）

方差分析中的多因子交互作用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

工作中我常用的分析算法

​ 統計性描述經常用到散點圖

​ 檢驗與方差分析幾乎不用

​ 不同領域相關分析側重不同

​ 線性迴歸的Y你不一定能拿到

​ 邏輯迴歸太重要

​ 因子分析害怕過擬合

​ 聚類分析做的是市場細分

​ 客戶價值分析

​ 對應分析與聯合分析

​ 時間序列分析強調預測

​ 生存分析

統計性描述經常用到散點圖

檢驗與方差分析幾乎不用

不同領域相關分析側重不同

線性迴歸的Y你不一定能拿到

邏輯迴歸太重要

因子分析害怕過擬合

聚類分析做的是市場細分

客戶價值分析

對應分析與聯合分析

時間序列分析強調預測

生存分析