時間序列預測:探索性數據分析和特徵工程的實用指南

時間序列分析是數據科學和機器學習領域最廣泛的主題之一:無論是預測金融事件、能源消耗、產品銷售還是股票市場趨勢,這一領域一直是企業非常感興趣的領域。

隨着機器學習模型的不斷進步,使除了傳統的統計預測方法(如迴歸模型、ARIMA模型、指數平滑)外,與機器學習(如基於樹的模型)和深度學習(如LSTM網絡、cnn、基於Transformer的模型)相關的技術已經出現了一段時間。

儘管這些技術之間存在巨大差異,但無論模型是什麼,都必須完成一個初步步驟:探索性數據分析。

在統計學中,探索性數據分析(Exploratory Data Analysis, EDA)是對數據進行分析和可視化,以總結數據的主要特徵並從中獲得相關信息的一門學科。這在數據科學領域非常重要,因爲它可以爲另一個重要步驟奠定基礎:特徵工程。

所以我們今天這篇文章將總結一個時間序列數據的分析模板,可以總結和突出數據集的最重要特徵。我們將使用一些常見的Python庫,如Pandas、Seaborn和Statsmodel。

爲了方便演示,將使用Kaggle的小時能耗數據。該數據集與PJM小時能源消耗數據有關,PJM是美國的一個區域輸電組織,爲幾個州提供電力。每小時的電力消耗數據來自PJM的網站,單位是兆瓦。

我在本文中我們將EDA總結爲六個步驟:描述性統計、時間圖、季節圖、箱形圖、時間序列分解、滯後分析。

https://avoid.overfit.cn/post/a29fb376d9f145fcad2e9c82cea7ea51

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章