指標與維度是數據分析中最常用到的術語,它們是非常基礎的,但是又很重要,經常有朋友沒有搞清楚它們之間的關係,只有掌握理解了,我們的數據分析工作開展就就容易多了。現在就來說說指標與維度的那些事。
1、指標
指標,用於衡量事物發展程度的單位或方法,它還有個IT上常用的名字,也就是度量。例如:人口數、GDP、收入、用戶數、利潤率、留存率、覆蓋率等。很多公司都有自己的KPI指標體系,就是通過幾個關鍵指標來衡量公司業務運營情況的好壞。
指標需要經過加和、平均等彙總計算方式得到,並且是需要在一定的前提條件進行彙總計算,如時間、地點、範圍,也就是我們常說的統計口徑與範圍。
指標可以分爲絕對數指標和相對數指標,絕對數指標反映的是規模大小的指標,如人口數、GDP、收入、用戶數,而相對數指標主要用來反映質量好壞的指標,如利潤率、留存率、覆蓋率等。我們分析一個事物發展程度就可以從數量跟質量兩個角度入手分析,以全面衡量事物發展程度。
剛纔說過,指標用於衡量事物發展程度,那這個程度是好還是壞,這就需要通過不同維度來對比,才能知道是好還是壞。
2、維度
維度:是事物或現象的某種特徵,如性別、地區、時間等都是維度。其中時間是一種常用、特殊的維度,通過時間前後的對比,就可以知道事物的發展是好了還是壞了,如用戶數環比上月增長10%、同比去年同期增長20%,這就是時間上的對比,也稱爲縱比;
另一個比較就是橫比,如不同國家人口數、GDP的比較,不同省份收入、用戶數的比較、不同公司、不同部門之間的比較,這些都是同級單位之間的比較,簡稱橫比;
維度可以分爲定性維度跟定量維度,也就是根據數據類型來劃分,數據類型爲字符型(文本型)數據,就是定性維度,如地區、性別都是定性維度;數據類型 爲數值型數據的,就爲定量維度,如收入、年齡、消費等,一般我們對定量維度需要做數值分組處理,也就是數值型數據離散化,這樣做的目的是爲了使規律更加明 顯,因爲分組越細,規律就越不明顯,最後細到成最原始的流水數據,那就無規律可循。
最後強調一點,只有通過事物發展的數量、質量兩大方面,從橫比、縱比角度進行全方位的比較,我們才能夠全面的瞭解事物發展的好壞。
3、序列
序列:在某一維度下的,具體統計對象。有些報表僅有一個序列,也有的報表有兩種或多種序列。就像是 統計一段時間內的任務數,若是按照狀態 完成和未完成 劃分,那就會有兩個序列,完成序列和未完成序列。有點像sql中的group by
一堆統計數據集合中的某一類分組。(也可以理解爲某一維度下的細分維度)
如下圖:
左側的Y軸,500、1000、1500就些是統計指標,這裏指標是 具體的銷售數量,以500爲一個刻度
X軸上,有兩個維度。分別是:產品類型,地區類別(一般X軸的維度都爲一個)
圖例中的,蘋果汁、牛奶這些 就是序列。
像下面的圖就是兩種序列的統計圖
進一步拓展思考,我理解爲指標拆分和維度對比。
其實在實際產品數據分析的過程中也可參照以上思想。
通過大量的數據分析軟件工具應用可以發現,主要包括以下內容:
-
整體情況的分析和彙總:全局數據的概況、變化趨勢、佔比等
-
多個維度的分析:如果是日誌數據,已經存在多個數據項,以某一個數據項作爲主關鍵詞彙總分析,同比、環比變化,佔總數的變化。如果沒有日誌數據,則需要想清楚解決這個問題原因是什麼?需要採集哪些數據項?
-
重要場景問題的分析:根據分析的重要問題、用戶關心的問題進行分析
-
軟硬件性能管理、告警管理、報表管理、基礎參數配置和用戶管理等等
在多維度分析、告警、報表,數據圖表可視化設計呈現方面也存在許多共性,總結如下:
-
數據的呈現方式是表格還是圖表?若是時間範圍,時間統計粒度是多少?
-
表格需要呈現哪些數據?數據的單位?保留幾位小數?數據計算的方法?排序依據?
-
圖表採用哪一種?呈現的範圍是多少?
-
常見的數據項操作:新增、刪除、修改、查詢
-
新增哪些是必填數據項?校驗重複性和有效性?
-
刪除是否需要提醒?是否具有權限刪除?
-
修改可修改的數據項有哪些?修改後是否要進行校驗有效性和重複項?是否有修改的權限?
-
查詢是精準查詢還是模糊查詢?是單一查詢還是支持批量查詢?批量查詢輸入方式的講究?查詢的內容輸入什麼是否支持大小寫 空格等?數據區間的查詢是自定義還是給出範圍劃分?
人們總認爲與大數據分析沾點邊的技術都要花大價錢才能得到。但事實上,大數據分析的思想纔是最貴的,技術可以實現數據批量清洗,處理,呈現地更快、更美。但卻不知道要哪些數據算有效,哪些數據纔是重點需要分析得出有價值的信息。