數據分析概述

概念
數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息形成結論而對數據加以詳細研究和概括總結的過程。

目的:把隱藏在一大批看似雜亂無章的數據背後的信息集中和提煉出來,總結出所研究對象的內在規律

主要類型描述性分析,探索性分析,驗證性分析

職業要求
1.五懂:懂業務、懂管理、懂分析、懂工具、懂設計
2.態度嚴謹負責
3.好奇心強烈
4.邏輯思維清晰
5.擅長模仿學習
6.勇於創新

數據分析基本流程
1.明確分析目的和思路
2.數據收集
3.數據處理
4.數據分析
5.數據展現
6.報告撰寫

常用的數據分析方法
1.PEST分析法:政治環境、經濟環境、技術環境、社會環境。(行業分析)
2.5W2H分析法:何因、何事、何人、何時、何地、如何做、何價。(用戶行爲分析、業務問題、專題分析)
3.邏輯樹:要素化、框架化、關聯化。 (業務問題、專題分析)
4.4P營銷理論:產品、價格、渠道、促銷。(公司業務分析、經營情況分析)
用戶行爲理論 (用戶行爲研究分析)

數據分析必須遵循的原則
1、數據分析是爲了驗證假設的問題,提供必要的數據驗證。
2、數據分析是爲了挖掘更多的問題,並找到深層次的原因。
3、不能爲了做數據分析而做數據分析。

數據分析誤區
1.分析目的不明確,爲分析而分析。
2.缺乏業務知識,分析結果偏離實際。
3.一味追求使用高級分析方法,熱衷研究模型。

商業數據分析

目的:用統計分析、機器學習、數據挖掘的各種方法來解決商業領域裏的各種問題。

流程
首先,需要對現狀和預期有一個很好的把握。其次,弄清現狀和預期之間的差距,並調查導致差距產生的關鍵因素,即發現問題。因爲可能有多個這樣的因素,所以要分別實施數據的收集和加工,並在此基礎上進行數據分析。分析時需要對分析對象的結構進行分解,把握各個因素的影響力的大小並相互比較,從而確定導致差距產生的最關鍵因素。完成上述過程之後,在執行解決方案的過程中,還需要考慮人力成本和金錢成本,提出解決對策並推進。

現狀與預期:所謂的“問題”其實是隨着當時商業環境下產生的“預期”而變化的。也就是說,有了“原來的預期”和“現狀”之間的差距,纔會導致問題的出現。

發現問題:牢記“預期”,並認識到“現狀”與其之間的差距。對數據分析來說,“銷售額上升/ 下降”僅僅是一種現象。而通過思考“預期”,並理解“預期”和“現狀”之間差距的構造,則有助於找出根本的問題。

如何理解“預期”和“現狀”之間的差距呢?
在使用數據分析的方法中,通常的處理手法是首先從下面的角度來觀察數據。
觀察數據的大小:針對“預期”和“現狀”之間的差距,考慮有哪些因素可能會導致這種差距,並把握其中的多個關鍵因素的大小。這裏所說的“大小”,指的是各因素對“現狀”和“預期”之間的差距的影響程度。首先我們需要對“預期”有一個好的理解,確認現在要進行分析的關鍵因素對於整體有多大的影響。根據確認的結果,如果該因素的影響較小,那麼就可以判斷出該處並不是本質性的問題,需要從其他的角度來尋找關鍵的因素。

將數據分解後觀察:是指從多種角度來觀察所發生的現象,分解出構成這種現象的因素,並找出導致這種現象出現的原因。在分解的時候,必須要遵循MECE 的原則:相互性、排重性、完整性、全面性。比較有效的是因數分解分析,比如:銷售額 = 人均銷售額 × 購買人數。通過觀察它們的時間序列變化圖,就可以發現在什麼時候哪個因素的值下降了。這種情況下重要的是區分是“能被調控的因素”,還是“不能被調控或難以調控的因素”。而在進行MECE 分解時,重要的是通過分解得到可調控的因素。

將數據比較後觀察:指的是將發生問題時的數據和沒發生問題時的數據相互比較,並找出問題出現的原因。進行這種數據比較分析的目的是達到某種程度的類型化處理。首先,在使用時間序列進行比較的情況下,可以把過去的數據和現在的情況比較;和其他類似商品或者服務的數據相比較;分析用戶屬性也是經常使用的方法。

數據的收集和加工

數據的收集
(1)爲了驗證問題,什麼樣的數據是必要的。
(2)這些必要的數據保存成分析師可以馬上使用的形式了嗎?
(3)這些必要的數據在分析師提出申請後能使用嗎、
(4)當某些必要的數據沒有被保存時,還能重新獲得這些數據嗎?
(5)當某些必要的數據沒有被保存,並且重新獲得這些數據的代價太大時,有沒有其他可替代的數據?
在上述各項內容中,除第一條之外,越排在前面的條目獲取數據的代價就越小。在充分考慮效率的情況下,分析師首先應儘可能地使用手頭上已有的數據、馬上可以利用的數據或者申請後就能使用的數據來完成分析。

數據的存儲:存儲的方式:文件、數據庫、Hadoop(HDFS)。

數據的讀取
a.從文件中讀取數據:當數據以文件的形式保存時,多以CSV(以逗號作爲分隔符)或者TSV(以製表符作爲分隔符)的格式保存。數據分析時,就從這些文件中對必要的數據進行抽取和組合。
b.從數據庫中讀取數據:數據庫有很多種,但多數企業一般使用諸如MySQL 等的RDBMS系統來保存數據。數據分析師可以通過在數據庫中執行命令(參照後文的SQL 命令)的方式來獲取分析時所需的數據。
c.從Hadoop(HDFS)中讀取數據:Hadoop 就是用來保存所謂的大數據的。企業爲了手動處理數據,經常使用Hadoop 這個中間件。在這個中間件上保存的數據是通過HDFS(Hadoop 分佈式文件系統)架構來管理的。數據分析師使用Hadoop 命令或Hive 之類的工具,從這個中間件中獲取分析必需的數據。

數據加工:
數據的整合:爲了完成數據的整合,如果數據存儲在數據庫中,就使用SQL 命令;如果存儲在文件中,就使用Excel 或R 等。
生成用於判定的變量:我們將某天來訪問的用戶的數據和消費數據加以整合,那麼那些沒有消費的用戶由於在消費數據中沒有記錄,將不會被整合到最終的數據當中。在這種情況下,可以新創造一個變量,該變量的值只有“已消費(1)”/“未消費(0)”兩個標誌位。有了這樣的標誌位,不僅可以通過“已消費的標誌位數/總用戶數”得到消費率,還可以將消費標誌位作爲因變量建立相應的模型等。
生成離散變量:在商業領域,爲了方便在數據分析後採取相應的解決對策,需要像這樣將連續數值離散化。

數據分析

決策支持:目的是幫助用戶做出決策並執行。
a.在進行以“決策支持”爲主的數據分析時,相較於那些高級複雜的分析模型,簡單且易於理解的分析模型更有效果,所以這種情況下經常使用簡單求和或交叉列表。
b.有助於決策支持的統計分析,對決策支持有效的數據分析,基本上都是簡單求和或者交叉列表之類的數據分析。
c.有時還會基於統計分析建立預測模型。預測模型能夠明確“什麼樣的因素會對結果產生什麼樣的影響”這樣的因果關係,因此有助於決策支持。在事前調研階段,如果引發問題現象的因素很複雜,則需要建立一個由多個因素組成的預測模型。此時可以使用各種多重回歸分析法或者協方差結構分析法。

自動化·最優化:
目的是幫助用戶構建讓計算機執行問題解決方案的算法。相較於易於理解性,更重視算法的計算量和精度。而最有助於自動化·最優化的是 機器學習,機器學習能夠從數據中學習出其本身包含的模式或者規律,並以此來建立模型。基於這個模型,就能夠從用戶購買行爲的規律出發,自動地向每個用戶提供他們各自需要的商品。

解決對策
解決對策有兩個意思:“人們做出決策並着手開始做某事或者停止做某事”和“構建用於執行解決對策的算法並在計算機上運行”。這兩個意思分別和之前介紹數據分析時提到的“決策支持”和“自動化·最優化”相對應。“決策支持”的說服成本主要花在上司或者策劃人員上,而“自動化·最優化”的說服成本則大都花在開發人員或運維人員上。
無論是哪種解決對策,都需要在對其改善或實施的費用和效果進行評估的基礎上決定是否執行。建立預測模型來進行模擬仿真,如果過去的數據在未來也能夠復現,那麼就提示所預估的具體效果有多大。在採取解決對策時,未來將要面臨的情況不可能和過去完全一致,所以一併提示會出現多大的偏差也很重要。

小結:委託人和分析師需要對數據分析的預期達成共識,認真進行數據分析,以得出切實可行的方案,這是商業數據分析裏最爲重要的部分。做好這部分工作就是輕鬆提升數據分析效果的方法論。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章