數據分析系列之數據挖掘基礎

瞭解什麼是數據挖掘

1.假設背景

1. 在傳統企業現狀,以連鎖餐飲爲例?
今年來餐飲企業面臨原材料上漲,房租上漲,人力成本升高的必然趨勢,導致淨利潤大幅度下降,同時同業競爭的加劇的環境下,如何在保證產品的品質的基礎下提高企業效率,成爲當前餐飲企業必須解決的問題.
2. 目前做了什麼改變,有什麼樣的基礎?
餐飲企業目前通過企業信息化系統來提高效率,已具有的信息系統包括如下:
1.客戶關係管理系統:保存客戶會員信息,客戶生日關懷,客戶點餐喜好等.
2.前廳管理系統:平板或者微信點餐,實現快速點單,直達廚房.
3.後廚管理系統:後廚按照電子菜單做餐,同時收銀臺打印紙質菜單送抵用戶,已備客戶查詢.
4.財務管理系統:日銷售統計,菜品銷售統計,日客戶流量,財務審計等.
5.物流管理系統:物資進銷存,包括供應商管理,入庫,消耗,剩餘,連鎖配送等.
3. 以上系統積累了大量同質化數據,如何讓企業在數據中撿漏,實現差異化服務?
數據分析可以做什麼,這個還得從業務出發,企業最爲關注於顧客和產品.譬如那些顧客是優質顧客,如何給不同的顧客提供差異化服務,四川的喜歡喫辣的,就推薦辣的.產品就是那幾個產品銷量最好,什麼時候準備什麼產品,如何備貨,如何搭配獲得更好地銷量.
目前該企業大量依靠服務員的基礎素質,依靠經驗提供差異化服務,存在"人治"的隨意性和不確定性導致的風險,必須依靠一種工具來提供精細化營銷,這種工具數據分析可以提供.

2.數據挖掘過程

1. 數據分析基本目標?
對於餐飲企業來說,數據分析基本任務就是通過客戶會員消費,菜品銷量,成本單價,促銷情況,貨物存儲等內部數據,加之節假日信息,商圈信息,天氣等外部數據,通過數據分析,實現菜品智能推薦,促銷預測,客戶價值分析,商圈選點,菜品銷量預測,最後把信息結果推送到管理者提供決策參考,實現降低運營成本,精準營銷.
2. 數據分析過程?
首先要對整個流程做到心裏有數.我們在對以上內容有了初步瞭解之後,決定對餐飲企業做以下步驟,實現整個數據分析流程:
1.理解需求,確定目標任務,指標:餐飲,前廳,後廚,倉儲等部門訪談,調研.
2.數據採集,抽樣,數據質量把控,實時採集:原材料,銷量,客戶以及外部數據收集.
3.數據整理,數據探索,清洗,變換:通過採集到的數據進行整理,去除異常,錯誤等數據.
4.模型發現,構建模型,驗證模型:菜品推薦,客戶價值,選址優化,銷量預測等模型構建.
5.模型評價,設定評價標準,多模型對比,模型優化:實現最優模型.
6.模型發佈,部署,重構:提供菜品推薦,客戶價值,選址優化,銷量預測等服務.
3.對於餐飲企業具體分析來說,挖掘目標爲?
1.實現菜品智能推薦,幫助用戶快速發現自己最感興趣的菜品,同時確保推薦給用戶的是餐飲企業所期望的,實現雙贏.
2.對餐飲客戶進行細分,瞭解不同客戶的消費特徵和貢獻度,針對不同用戶實現不同策略,確保有限營銷資源投放在最有價值的用戶身上.
3.基於菜品銷售數據以及競爭對手,天氣,節假日等,對菜品銷量進行預測,方便備貨.
4.基於餐飲大數據,優化新店選址,同時基於地址,進行菜品調整.
4. 如何進行數據採集取樣?
在明確了數據挖掘目標,我們需要從業務系統抽取與數據目標相關的數據子集,抽取數據子集需要考慮相關性,有效性,可靠性.數據子集可以減少數據處理量,更好凸出數據特徵.即使是對一個數據倉庫進行抽取,也必須考慮數據質量,衡量數據標準爲:數據資料完整無缺,準確無誤,反映正常狀態.
至於抽樣方法,多種多樣:

  • 隨機抽樣:按照10%比例對數據進行隨機抽樣,每一個數據有10%的概率被抽取.
  • 等距抽樣:按照10%比例對100組數據抽樣,則抽取10,20,30等10組數據.
  • 分層抽樣:將樣本數據分成不同層次,同一層次概率相同,不同層次概率不同.
  • 分類抽樣:將樣本數據依據某些類進行分類後再抽樣.
  • 從起始順序抽樣:從輸入數據集起始處開始抽樣.
    從餐飲企業信息化系統進行抽樣:
  • 餐飲企業信息:名稱,位置,規模,聯繫方式,部門,人員,角色等.
  • 餐飲客戶信息:姓名,會員等級,聯繫方式,消費時間,消費金額等.
  • 餐飲菜品信息:名稱,單價,成本,部門等.
  • 餐飲銷量數據:名稱,日期,銷量,銷售金額.
  • 餐飲物流數據:供應商姓名,地址,名稱,客戶評價等.
  • 促銷活動數據:日期,內容,描述.
  • 外部數據:天氣,節假日,競爭對手,商圈信息等.

5. 如何進行數據探索,確保數據質量?
數據模型質量不會超過樣本數據質量,確保數據質量非常重要,我們基於經驗抽取樣本數據,所以要看樣本數據是否符合我們要求,是否體現出新的特徵,是否有較強的規律性特徵趨勢,屬性之間是否具有相關性等,後續介紹相關函數實現數據探索.
6. 如何對數據進行預處理,實現可挖掘的標準化數據?
當採集數據的維度過大,設計多個表多個屬性,必然存在一些缺失數據,不一致數據,噪音數據,同時需要進行降維.針對餐飲企業數據,我們預處理包括:數據篩選,數據缺失值處理,數據變量轉化,壞數據處理,主成分分析,屬性選擇,數據標準化,數據規約等.
7. 獲得標準化數據後,我們挖掘建模應該採用哪種算法來挖掘數據,解決問題?
一般挖掘建模有分類,聚類,關聯規則,時序模式,智能推薦等.基於餐飲行業的數據挖掘應用,我們選擇基於關聯規則的動態菜品智能推薦,基於聚類算法的客戶價值分析,基於分類與預測算法的菜品銷售預測,基於整體優化的新店選址.
以菜品銷量預測爲例,模型構建是以菜品歷史銷量,綜合考慮了節假日,氣候,競爭對手等數據,它反映了採樣數據內部結構一般特徵,並與採樣數據結構吻合.模型具體化就是菜品預測公式,通過公式產生預測值.
8. 獲得模型之後,如何選擇最優模型,進行模型評價?
不同模型評價方法不同,通過評價,自動找出最優模型,同時根據業務對模型進行解釋與應用.

3.常用數據分析工具

1. SAS Enterprise Miner
Enterprise Mincr(EM)是SAS推出的一個集成的數據挖掘系統,允許使用和比較不同的技術 。同時還集成了複雜的數據庫管理軟件 。它的運行方式是通過在一個工作空間(workspace)中按照一定的順序添加各種可以實現不同功能的節點,然後對不同節點進行相應的設置,最後運行整個工作流程(workflow),便可以得到相應的結果。
2. IBM SPSS Modeler
IBM SPSS Modeler原名Clemen丨inc, 2009年被IBM公司收購後對產品的性能和功能進行大幅度改進和提升。它封裝最先進的統計學和數據挖掘技術來獲得預測知識,並將相應的決策方案部署到現有的業務系統和業務過程中,從而提高企業的效益。IBM SPSS Modeler擁有直觀的操作界面,自動化的數據準備和成熟的預測分析模切,結合商業技術外以快速建立預測性模型。
3. SQL Server
Microsoft公司的SQL Server中集成廣數挖掘約組件—Analysis Servers,藉助SQL Server的數據庫管理功能,可以無縫地集成在SQL Server數據庫中。在SQL Server 2008中提供了決策樹貨法、聚類分析W法、Naive Bayes 法、關聯規則算法、時序算法、神經網絡算法、線性迴歸算法等9種常用的數據挖掘算法。但是,預測建模的實現是基於SQL Server平臺.
的,平臺移植性相對較差。
4. Python
Python(Matrix Laboratory,矩陣實驗室)是美國Mathworks公司開發的應用軟件,具備強大的科學及工程計算能力,它具行以矩陣計算爲基礎的強大數學計算能力和分析功能,而且還具有豐富的可視化圖形表現功能和方便的程序設計能力。Python並不提供一個專門的數據挖掘環境 ,但是它提供非常多的相關算法的實現函數,是學習和開發數據挖掘算法的很好選擇。
5. WBKA
WEKA ( Waikato Environment for Knowledge Analysis)足一款知名度較高的開源機器學習和數椐挖掘軟件。高級用戶可以通過Java編程和命令行來調用其分析組件。同時, WBKA也爲普通用戶提供了圖形化界面,稱爲WEKA Knowledge Flow Environment和WEKA Explorer,可以實現預處理、分類、聚類、關聯規則、文本挖掘、可視化等。
6. KNIME
ICNIME (Konstanz InformalionMiner, http://www.knime.org) 是基於Java開發的,可以擴展使用Weka中的挖掘算法。KNIME採用類似數據流(data flow)的方式來建立分析挖掘流程。挖掘流程由一系列功能許點組成,每個節點苻輸入/輸出端口,用於接收數據或模型,導出結果。
7. RapidMiner
RapidMiner也稱爲YALE(Yet Another Learning Environment,https://rapidminer.com),提供圖形化界面,採用類似Windows資源管理器中的樹狀結構來組織分析組件,樹上每個節點表示不同的運算符(operator)。YALE中提供了大量的運算符,包括數據處理、變換、探索、建模、評估等各個環節。YALE是用Java開發的,基於Weka來構迮,可以調用Weka中的各種分析組件。RapidMiner拓展的套件Radoop,可以和Hadoop集成起來,在Hadoop集羣上運行任務。
8. TipDM
TipDM (頂尖數據挖掘平臺 )使用Java語言開發,能從各種數據源獲取數據,建立多種數椐挖掘模塑。 TipDM目前已集成數十種預測算法和分析技術,基本薄蓋了國外主流挖掘系統支持的算法。TipDM支持數據挖掘流程所需的主要過程:數據探索(相關性分析、主成分分析、週期性分析);數據預處理(屬性選擇、特徵提取、壞數據處理、空值處理);預測違模(參數設置、交叉驗證、模型訓練、模型驗證、模型預測)聚類分析、關聯規則挖掘等一系列功能。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章