LESSON 3
我們將數據分析過程組織爲五個步驟:提問、整理、探索、得出結論和傳達結果。重點是清楚整個流程,不要去背每個步驟幹什麼,最有效的方法是來一遍。
第 1 步:提問
你要麼獲取一批數據,然後根據它提問,要麼先提問,然後根據問題收集數據。在這兩種情況下,好的問題可以幫助你將精力集中在數據的相關部分,並幫助你得出有洞察力的分析。
第 2 步:整理數據
你通過三步來獲得所需的數據:收集,評估,清理。你收集所需的數據來回答你的問題,評估你的數據來識別數據質量或結構中的任何問題,並通過修改、替換或刪除數據來清理數據,以確保你的數據集具有最高質量和儘可能結構化。
第 3 步:執行 EDA(探索性數據分析)
你可以探索並擴充數據,以最大限度地發揮你的數據分析、可視化和模型構建的潛力。探索數據涉及在數據中查找模式,可視化數據中的關係,並對你正在使用的數據建立直覺。經過探索後,你可以刪除異常值,並從數據中創建更好的特徵,這稱爲特徵工程。
第 4 步:得出結論(或甚至是做出預測)
這一步通常使用機器學習或推理性統計來完成,不在本課程範圍內,本課的重點是使用描述性統計得出結論。
第 5 步:傳達結果
你通常需要證明你發現的見解及傳達意義。或者,如果你的最終目標是構建系統,則通常需要分享構建的結果,解釋你得出設計結論的方式,並報告該系統的性能。傳達結果的方法有多種:報告、幻燈片、博客帖子、電子郵件、演示文稿,甚至對話。數據可視化總會給你呈現很大的價值。
數據分析過程練習
讓我們通過對數據分析過程的每一步提問,來了解所有步驟。我們將使用來自 Kaggle 的單車共享需求 競賽的數據。此數據集給出了自華盛頓特區實施“首都共享單車”計劃以來的兩年,自行車的每小時租金數據。下面是此數據前 5 行的屏幕截圖。注意: 此數據集做了輕微修改。
使用下表來幫助你回答第一個問題。每個特徵都是數據集中的一列。
特徵 | 描述 |
---|---|
日期時間 datetime | 小時 + 時間戳 |
季節 season | 1 = 春季、2 = 夏季、3 = 秋季、4 = 冬季 |
假期 holiday | 該天是否爲假日 |
工作日 workingday | 該天是否既不是週末,也不是假日 |
天氣 weather* | 1、2、3、4(參見下面的描述) |
溫度 temp | 攝氏度溫度 |
環境溫度 atemp | "感覺"溫度(攝氏度) |
溼度 humidity | 相對溼度 |
風速 windspeed | 風速 |
遊客 casual | 非註冊用戶使用共享單車的數量 |
會員 registered | 註冊用戶使用共享單車的數量 |
總計 count | 總使用次數 |
*天氣特徵關鍵字
1 = 晴朗、少雲、局部多雲
2 = 薄霧 + 多雲、薄霧 + 碎雲、薄霧 + 少雲、薄霧
3 = 小雪、小雨 + 雷雨 + 散雲、小雨 + 散雲
4 = 大雨 + 冰粒 + 雷雨 + 薄霧、雪 + 大霧
習題 1/5
提問步驟
根據上面給出的有可能影響每小時租用自行車數量的變量數據,可以提出哪些相關問題?(可多選)
- 哪些屬性在預測租用自行車的數量方面最爲重要?
- 哪種自行車類型更容易被租出去?
- 給定車站是否應該增加車輛?以增加利潤?
- 如果目標是使整個星期的租用數量呈現平穩狀態,共享單車公司應該在一週中的哪天開展促銷活動?
25%、50%、75%指的是四分位數(Quartile)。
上面是表中的數據類型
在此圖中,有4列是 float - 浮點型,7列是 int - 整型,1列是object - 對象。其中datetime經過打印查看,確定類型爲 str - 字符串。
習題 2/5
整理步驟
在繼續分析前,可以看到此 Kaggle 單車共享數據有何需要解決的潛在問題?(可多選)
- 日期未採用日期格式
- 一些值缺失
- 溫度值遠遠超出了地球上的現實範圍
- 天氣不能用數值表示
租賃的自行車數量與星期幾、溫度和溼度的散點圖
習題 3/5
探索步驟
根據這些散點圖,這三個特徵中的哪一個似乎最有助於預測計數?(提示:可以考慮下 x 軸數據和 y 軸數據的關係,如果有明顯的相關性,比如 y 隨 x 的增大而變大或減小,則說明有助於預測;反之,如果數據並無明顯趨勢,則說明無法憑藉這個特徵預測)
名詞解釋: Day of week 星期幾 Temp 溫度 Humidity 溼度
- 星期幾
- 溫度
- 溼度
計數與溫度散點圖,及下一個問題的最佳匹配直線
習題 4/5
得出結論步驟
根據這個自行車租賃與溫度關係迴歸圖表,如果溫度從 2 攝氏度升至 30 攝氏度,你認爲會有多少額外的自行車被租用?
- 50輛直行車
- 250 輛自行車
- 500輛直行車
- 600輛直行車
習題 5/5
傳達結果步驟
下面的哪種方法能夠最有效地傳遞你從共享單車數據中得出的結論?
-
溫度與溼度的散點圖
-
一份書面報告,詳細說明了預測自行車租賃量的最重要變量
-
不同溫度的迴歸線
聲明:以上爲在Udacity上課的時的課件整理