如何提高你的數據分析能力

如何提高你的數據分析能力

第一步：數據準備（80%時間）

獲取數據(爬蟲，數據倉庫)

驗證數據

數據清理(缺失值、孤立點、垃圾信息、規範化、重複記錄、特殊值、合併數據集)

使用python進行文件讀取csv或者txt便於操作數據文件(I/O和文件串的處理，逗號分隔)

抽樣(大數據時。關鍵是隨機)

存儲和歸檔

第二步：數據觀察（發現隱藏的規律）

單一變量：點圖、抖動圖;直方圖、核密度估計;累計分佈函數

兩個變量：散點圖、LOESS平滑、殘差分析、對數圖、傾斜

多個變量：假色圖、馬賽克圖、平行左邊圖

第三步：數據建模

推算和估算(均衡可行性和成本消耗)

縮放參數模型(縮放維度優化問題)

建立概率模型(二項、高斯、冪律、幾何、泊松分佈與已知模型對比)

第四步：數據挖掘

選擇合適的機器學習算法(蒙特卡洛模擬，相似度計算，主成分分析)

大數據考慮用Map/Reduce

得出結論，繪製最後圖表

循環到第二步到第四步，進行數據分析，根據圖表得出結論完成文章。

二、以業務爲核心做數據分析

“無尺度網絡模型”的作者艾伯特-拉斯洛·巴拉巴西認爲——人類93%的行爲是可以預測的。數據作爲人類活動的痕跡，就像金礦等待發掘。但是首先你得明確自己的業務需求，數據纔可能爲你所用。

1.數據爲王、業務是核心

瞭解整個產業鏈的結構

制定好業務的發展規劃

衡量的核心指標有哪些

有了數據必須和業務結合纔有效果。首先你需要摸清楚所在產業鏈的整個結構，對行業的上游和下游的經營情況有大致的瞭解。然後根據業務當前的需要，指定發展計劃，從而歸類出需要整理的數據。

最後一步詳細的列出數據核心指標(KPI)，並且對幾個核心指標進行更細緻的拆解，當然具體結合你的業務屬性來處理，找出那些對指標影響幅度較大的影響因子。前期資料的收集以及業務現況的全面掌握非常關鍵。

2.思考指標現狀，發現多維規律

熟悉產品框架，全面定義每個指標的運營現狀

對比同行業指標，挖掘隱藏的提升空間

拆解關鍵指標，合理設置運營方法來觀察效果

爭對核心用戶，單獨進行產品用研與需求挖掘

發現規律不一定需要很高深的編程方法，或者複雜的統計公式，更重要的是培養一種感覺和意識。

不能用你的感覺去揣測用戶的感覺，因爲每個人的教育背景、生活環境都不一樣。很多數據元素之間的關係沒有明顯的顯示，需要使用直覺與觀察(數據可視化技術來呈現)。

3.規律驗證，經驗總結

發現了規律之後不能立刻上線，需要在測試機上對模型進行驗證。

數據分析技術

發佈了1 篇原創文章 · 獲贊 87 · 訪問量 33萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何提高你的數據分析能力

實例講解Python設計模式編程之工廠方法模式的使用

詳解Python設計模式編程中觀察者模式與策略模式的運用

Python下線程之間的共享和釋放示例

數據分析4要素，常用的“套路”也要會

如何提高你的數據分析能力

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結