時間序列預測:探索性數據分析和特徵工程的實用指南

原創

2024-05-15 13:04

時間序列分析是數據科學和機器學習領域最廣泛的主題之一:無論是預測金融事件、能源消耗、產品銷售還是股票市場趨勢，這一領域一直是企業非常感興趣的領域。

隨着機器學習模型的不斷進步，使除了傳統的統計預測方法(如迴歸模型、ARIMA模型、指數平滑)外，與機器學習(如基於樹的模型)和深度學習(如LSTM網絡、cnn、基於Transformer的模型)相關的技術已經出現了一段時間。

儘管這些技術之間存在巨大差異，但無論模型是什麼，都必須完成一個初步步驟:探索性數據分析。

在統計學中，探索性數據分析(Exploratory Data Analysis, EDA)是對數據進行分析和可視化，以總結數據的主要特徵並從中獲得相關信息的一門學科。這在數據科學領域非常重要，因爲它可以爲另一個重要步驟奠定基礎:特徵工程。

所以我們今天這篇文章將總結一個時間序列數據的分析模板，可以總結和突出數據集的最重要特徵。我們將使用一些常見的Python庫，如Pandas、Seaborn和Statsmodel。

爲了方便演示，將使用Kaggle的小時能耗數據。該數據集與PJM小時能源消耗數據有關，PJM是美國的一個區域輸電組織，爲幾個州提供電力。每小時的電力消耗數據來自PJM的網站，單位是兆瓦。

我在本文中我們將EDA總結爲六個步驟:描述性統計、時間圖、季節圖、箱形圖、時間序列分解、滯後分析。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.