隔了好幾天,一方面準備保研,一方面因爲和老師商討的結果一直沒下來,老師還在找別的數據集
數據量實在太少了,老師建議我先做個二分類,把每科成績在後15%的認定爲有不及格風險的人,看看效果。
我現在只做了svm,今天上午面試來着。
from __future__ import division
import time
import numpy as np
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import learning_curve
import matplotlib.pyplot as plt
import pandas as pd
from sklearn import metrics
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score # 交叉檢驗
from sklearn.metrics import precision_score,f1_score,recall_score,accuracy_score
import os
file=[]
for root,dirs,files in os.walk('data'):
for name in files:
file.append(os.path.join(root, name))
cnt=0
for f in file:
if f=='data/.DS_Store':
continue
data=pd.read_csv(f,header=None,index_col=0)
#排名後15%的定爲1
data['passed']=0#及格
data=data.sort_values(by=23,ascending=True,axis=0)
length=len(data)
unpassed=int(0.15*length)
data.iloc[:unpassed+1,-1]=1
data=data.iloc[:,3:]
data=data.ix[:,~(data==0).all(axis=0)]
data=data.sample(frac=1)
dataset=np.array(data)
#dataset=np.loadtxt(dir)
index=int(dataset.shape[0]*0.8)
X_train=dataset[:index,:-1]
y_train=dataset[:index,-1]
X_test=dataset[index:,:-1]
y_test=dataset[index:,-1]
model_names = ['svm'] # 不同模型的名稱列表
model_svm=SVC(kernel='rbf')
model_dic = [model_svm] # 不同迴歸模型對象的集合
cv_score_list = [] # 交叉檢驗結果列表
pre_y_list = [] # 各個迴歸模型預測的y值列表
for model in model_dic: # 讀出每個迴歸模型對象
scores = cross_val_score(model, X_train, y_train, cv=5) # 將每個迴歸模型導入交叉檢驗模型中做訓練檢驗
cv_score_list.append(scores) # 將交叉檢驗結果存入結果列表
pre_y_list.append(model.fit(X_train, y_train).predict(X_test)) # 將回歸訓練中得到的預測y存入列表
model_metrics_name = [accuracy_score, precision_score, recall_score, f1_score] # 迴歸評估指標對象集
model_metrics_list = [] # 迴歸評估指標列表
for i in range(1): # 循環每個模型索引
tmp_list = [] # 每個內循環的臨時結果列表
for m in model_metrics_name: # 循環每個指標對象
tmp_score = m(y_test, pre_y_list[i]) # 計算每個迴歸指標結果
tmp_list.append(tmp_score) # 將結果存入每個內循環的臨時結果列表
model_metrics_list.append(tmp_list) # 將結果存入迴歸評估指標列表
df2 = pd.DataFrame(model_metrics_list, index=model_names, columns=['acc', 'precision', 'recall', 'f1']) # 建立迴歸指標的數據框
print('='*10,f,'='*10)
print(data)
print('#'*50)
print(df2)
print('='*50)
print('\n')
昨天準備面試的時候小夥伴們問我應不應該換數據集,我有點打算找找天池數據集弄了。