python決策樹泰坦尼克生還預測

今天用sklearn模塊中的決策樹部分簡單的嘗試了一下泰坦尼克生還問題


import pandas as pd
from sklearn.tree import DecisionTreeClassifier as DTC

data=pd.read_csv('train.csv')
data=data.drop('PassengerId',1)
data.loc[data['Sex']=='male','Sex']=1
data.loc[data['Sex']=='female','Sex']=0
x=data.loc[:,['Pclass','Sex','Parch','Fare','SibSp']]
y=data.loc[:,'Survived']
#dtc=DTC(criterion='entropy')
dtc=DTC(criterion='gini')
dtc.fit(x,y)
print(dtc.score(x,y))
test=pd.read_csv('test.csv')
test.loc[test['Sex']=='male','Sex']=1
test.loc[test['Sex']=='female','Sex']=0
testpart=test.loc[1:100,['Pclass','Sex','Parch','Fare','SibSp']]
#print(testpart)
print(dtc.predict(testpart))

樣本中的屬性很多我從中選取了幾個簡單的進行測試,其中性別屬性轉換成了0,1
測試集選取了前100個進行了測試,結果如下:



訓練集預測準確率大致爲0.922558922559

數據集的下載http://download.csdn.net/download/cool_jia/10268620



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章