前提:有一列price的數據
y = Train_data['price']
我們看看他符合什麼總體分佈
無界約翰遜分佈johnsonsu?
正態norm?
對數正態(比正態偏上一點)lognorm?
代碼:
import scipy.stats as st
import seaborn as sns
y = Train_data['price']
plt.figure(1); plt.title('Johnson SU')
sns.distplot(y, kde=False, fit=st.johnsonsu)
plt.figure(2); plt.title('Normal')
sns.distplot(y, kde=False, fit=st.norm)
plt.figure(3); plt.title('Log Normal')
sns.distplot(y, kde=False, fit=st.lognorm)
結果:
價格不服從正態分佈,所以在進行迴歸之前,它必須進行轉換。雖然對數變換做得很好,但最佳擬合是無界約翰遜分佈