003-理解數據分析過程

LESSON 3

 
我們將數據分析過程組織爲五個步驟:提問、整理、探索、得出結論和傳達結果。重點是清楚整個流程,不要去背每個步驟幹什麼,最有效的方法是來一遍。

第 1 步:提問
你要麼獲取一批數據,然後根據它提問,要麼先提問,然後根據問題收集數據。在這兩種情況下,好的問題可以幫助你將精力集中在數據的相關部分,並幫助你得出有洞察力的分析。

第 2 步:整理數據
你通過三步來獲得所需的數據:收集,評估,清理。你收集所需的數據來回答你的問題,評估你的數據來識別數據質量或結構中的任何問題,並通過修改、替換或刪除數據來清理數據,以確保你的數據集具有最高質量和儘可能結構化。

第 3 步:執行 EDA(探索性數據分析)
你可以探索並擴充數據,以最大限度地發揮你的數據分析、可視化和模型構建的潛力。探索數據涉及在數據中查找模式,可視化數據中的關係,並對你正在使用的數據建立直覺。經過探索後,你可以刪除異常值,並從數據中創建更好的特徵,這稱爲特徵工程。

第 4 步:得出結論(或甚至是做出預測)
這一步通常使用機器學習或推理性統計來完成,不在本課程範圍內,本課的重點是使用描述性統計得出結論。

第 5 步:傳達結果
你通常需要證明你發現的見解及傳達意義。或者,如果你的最終目標是構建系統,則通常需要分享構建的結果,解釋你得出設計結論的方式,並報告該系統的性能。傳達結果的方法有多種:報告、幻燈片、博客帖子、電子郵件、演示文稿,甚至對話。數據可視化總會給你呈現很大的價值。
 

數據分析過程練習

讓我們通過對數據分析過程的每一步提問,來了解所有步驟。我們將使用來自 Kaggle 的單車共享需求 競賽的數據。此數據集給出了自華盛頓特區實施“首都共享單車”計劃以來的兩年,自行車的每小時租金數據。下面是此數據前 5 行的屏幕截圖。注意: 此數據集做了輕微修改。

在這裏插入圖片描述

使用下表來幫助你回答第一個問題。每個特徵都是數據集中的一列。

特徵 描述
日期時間 datetime 小時 + 時間戳
季節 season 1 = 春季、2 = 夏季、3 = 秋季、4 = 冬季
假期 holiday 該天是否爲假日
工作日 workingday 該天是否既不是週末,也不是假日
天氣 weather* 1、2、3、4(參見下面的描述)
溫度 temp 攝氏度溫度
環境溫度 atemp "感覺"溫度(攝氏度)
溼度 humidity 相對溼度
風速 windspeed 風速
遊客 casual 非註冊用戶使用共享單車的數量
會員 registered 註冊用戶使用共享單車的數量
總計 count 總使用次數

*天氣特徵關鍵字
1 = 晴朗、少雲、局部多雲
2 = 薄霧 + 多雲、薄霧 + 碎雲、薄霧 + 少雲、薄霧
3 = 小雪、小雨 + 雷雨 + 散雲、小雨 + 散雲
4 = 大雨 + 冰粒 + 雷雨 + 薄霧、雪 + 大霧

習題 1/5
提問步驟
根據上面給出的有可能影響每小時租用自行車數量的變量數據,可以提出哪些相關問題?(可多選)

  • 哪些屬性在預測租用自行車的數量方面最爲重要?
  • 哪種自行車類型更容易被租出去?
  • 給定車站是否應該增加車輛?以增加利潤?
  • 如果目標是使整個星期的租用數量呈現平穩狀態,共享單車公司應該在一週中的哪天開展促銷活動?

在這裏插入圖片描述
25%、50%、75%指的是四分位數(Quartile)。

在這裏插入圖片描述
上面是表中的數據類型

在此圖中,有4列是 float - 浮點型,7列是 int - 整型,1列是object - 對象。其中datetime經過打印查看,確定類型爲 str - 字符串。

習題 2/5
整理步驟

在繼續分析前,可以看到此 Kaggle 單車共享數據有何需要解決的潛在問題?(可多選)

  • 日期未採用日期格式
  • 一些值缺失
  • 溫度值遠遠超出了地球上的現實範圍
  • 天氣不能用數值表示
    在這裏插入圖片描述
    租賃的自行車數量與星期幾、溫度和溼度的散點圖

習題 3/5
探索步驟

根據這些散點圖,這三個特徵中的哪一個似乎最有助於預測計數?(提示:可以考慮下 x 軸數據和 y 軸數據的關係,如果有明顯的相關性,比如 y 隨 x 的增大而變大或減小,則說明有助於預測;反之,如果數據並無明顯趨勢,則說明無法憑藉這個特徵預測)

名詞解釋: Day of week 星期幾 Temp 溫度 Humidity 溼度

  • 星期幾
  • 溫度
  • 溼度

在這裏插入圖片描述
計數與溫度散點圖,及下一個問題的最佳匹配直線

習題 4/5
得出結論步驟

根據這個自行車租賃與溫度關係迴歸圖表,如果溫度從 2 攝氏度升至 30 攝氏度,你認爲會有多少額外的自行車被租用?

  • 50輛直行車
  • 250 輛自行車
  • 500輛直行車
  • 600輛直行車

習題 5/5
傳達結果步驟

下面的哪種方法能夠最有效地傳遞你從共享單車數據中得出的結論?

  • 溫度與溼度的散點圖

  • 一份書面報告,詳細說明了預測自行車租賃量的最重要變量

  • 不同溫度的迴歸線

 
聲明:以上爲在Udacity上課的時的課件整理

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章