本文梳理了學習大數據挖掘分析的思路和步驟,爲大家提供了一些參考,希望能對大家有所幫助。
最近,很多人都諮詢過,想學大數據,但不知道怎麼開始,在哪裏開始學習,需要學什麼東西?對於初學者來說,學習大數據挖掘分析的邏輯是什麼?本文從0開始梳理如何學習大數據挖掘分析和學習步驟,並給出一個學習建議。
很多人認爲數據挖掘需要掌握複雜、深刻的算法,掌握數據挖掘技術和分析技術是很有必要的。如果你鑽研複雜的算法和技術開發,你只會讓自己發瘋,而且會越來越難。在公司的實際工作中,最好的大數據挖掘工程師必須是最熟悉和理解的人。對於大數據挖掘的學習,筆者認爲學習數據挖掘必須結合實際的業務背景和案例背景進行研究,這是一種面向問題的學習方法。因此,一般來說,大數據挖掘分析的經典案例如下:
預測用戶在下一段時間內是否會丟失或丟失。
該公司做了一個促銷活動來預測活動的效果以及用戶如何接受它。
評估用戶的信用度。
細分現有客戶市場,哪些客戶是目標客戶?
產品投放市場後,用戶轉換率和哪種運營策略最有效?
運營已經做了大量的工作,公司資源也投入了很多,如何提高產品投入產出比;
有些用戶購買大量商品,哪些商品同時購買。
預測產品在未來一年的銷售額和收入。
大數據挖掘需要將上述類似的業務運作問題轉化爲數據挖掘問題。
首先,如何將業務運營問題轉化爲大數據挖掘問題。
所以,問題是,我們應該如何將上述業務操作轉化爲數據挖掘問題?我們可以將數據挖掘問題細分爲四類:分類、聚類、關聯和預測。
1、分類問題
用戶的流失率、促銷活動的響應和用戶度的評價屬於數據挖掘的分類問題。我們需要掌握分類的特點,知道什麼是監督學習,掌握常用的分類方法:決策樹、拜厄斯、KNN、支持向量機、神經網絡和Logistic迴歸。
2,聚類問題
細分市場和客戶羣細分屬於數據挖掘的聚類問題。我們需要掌握聚類的特點,瞭解無監督學習,理解常用的聚類算法,如分區聚類、層次聚類、密度聚類、網格聚類、模型聚類等。
三。相關問題
交叉銷售與相關問題相關,關聯分析也被稱爲購物籃分析。我們需要掌握常用的關聯分析算法:Aprior算法、CARMA算法、序列算法等。
4、預測問題
我們應該掌握簡單的線性迴歸分析、多元線性迴歸分析、時間序列等。
二。你用什麼工具做大數據挖掘?
有很多工具和方法來實現數據挖掘,如SPSS、SAS、Python、R等等,但是我們需要掌握什麼或掌握什麼來學習數據挖掘?這取決於你在做什麼,你想去哪裏。
第一層次:達到理解水平
理解統計和數據庫。
二級:達到初級職場應用水平
數據庫+統計+ SPSS(也可以是SPSS而不是軟件)。
第三級:達到中層應用水平
SAS或R
第四級:達到數據挖掘的劃分層次
SAS或R+Python(或其他編程語言)
三。如何使用Python學習大數據挖掘
只要我們能解決實際問題,我們用什麼工具來學習數據挖掘並不重要。Python是這裏首先要做的事情。如何使用Python來學習數據挖掘?關於Python你需要知道什麼?
1大熊貓圖書館的運作
熊貓是一個非常重要的數據分析數據庫。我們要掌握以下三點:
熊貓分組計算;
大熊貓指數和多重指數;
這個索引很難,但是很重要。
熊貓多桌經營與PivotTable
2元數值計算
數據計算是數據挖掘的主要應用,對於未來的機器學習、深入的學習來說,這也是一個必須掌握的庫,我們必須掌握以下幾點:
麻木陣列的理解;
數組索引操作;
數組計算;
廣播(線性代數知識)
三。數據可視化- MatPultLIB和海運
Mat普羅蒂布文法
Python最基本的可視化工具是Matplotlib。讓我們看看MatMattLIB有點像MatLabb。我們需要弄清楚兩者之間的關係,這樣就更容易學了。
海運的使用
Seabn是一個非常漂亮的可視化工具。
熊貓繪圖功能
正如我之前所說的,熊貓正在做數據分析,但它也提供了一些繪圖的API。
4。數據挖掘導論
這部分是最困難和最有趣的部分。我們應該掌握以下幾個部分:
機器學習的定義
數據挖掘並沒有什麼區別。
成本函數的定義
培訓/測試/驗證
過擬合的定義與避免
5。數據挖掘算法
隨着數據挖掘的發展,有很多算法。接下來,我們需要掌握最簡單、最核心和最常用的算法。
最小二乘算法;
梯度下降;
矢量化;
極大似然估計;
邏輯迴歸;
決策樹;
RandomForesr;
XGBoost;
6、數據挖掘實戰
通過機器學習,最著名的圖書館SCIKIT學習瞭解模型。
以上是大數據挖掘的學習邏輯的邏輯。然而,這僅僅是個開始,在數據挖掘和數據科學家的道路上,我們必須學習文本處理和自然語言知識、Linux和火花知識、深入的學習知識等等,並且我們需要對數據挖掘保持持續的興趣。