from tensorflow.examples.tutorials.mnist import input_data
mnist=input_data.read_data_sets("MNIST_data/",one_hot=True)
print(mnist.train.images.shape,mnist.train.labels.shape)
print(mnist.test.images.shape,mnist.test.labels.shape)
print(mnist.validation.images.shape, mnist.validation.labels.shape)
import tensorflow as tf #載入tensorflow模塊
sess=tf.InteractiveSession() #創建一個新的session 使用這個命令還會使這個session註冊爲默認的
x=tf.placeholder(tf.float32,[None,784]) #創建一個placeholder 輸入數據的地方 數據類型:float 數據維度:[不限條數,784維]
W=tf.Variable(tf.zeros([784,10]))
b=tf.Variable(tf.zeros([10]))
y=tf.nn.softmax(tf.matmul(x,W)+b)
y_=tf.placeholder(tf.float32,[None,10]) #創建一個placeholder 輸入是真實的label
#loss function
cross_entropy=tf.reduce_mean(-tf.reduce_sum(y_*tf.log(y),reduction_indices=[1]))
train_step=tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy) #選擇優化算法 隨機梯度下降 SGD
tf.global_variables_initializer().run()
for i in range(1000):
batch_xs, batch_ys = mnist.train.next_batch(100)
train_step.run({x:batch_xs,y_:batch_ys})
correc_prediction=tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
accuracy=tf.reduce_mean(tf.cast(correc_prediction,tf.float32))
print(accuracy.eval({x:mnist.test.images,y_:mnist.test.labels}))
Softmax Regression
當我們處理多分類任務時,通常需要使用Softmax Regression模型,即使在卷積神經網絡或者循環神經網絡中,如果是分類模型,最後一層也同樣是Softmax Regression。它的工作原理很簡單,將可以判定爲某類的特徵相加,然後將這些特徵轉換爲判定是這一類的概率。
SGD(Stochastic Gradient Decent)
普通的梯度下降函數的缺點:
1)機器學習應用中面對的數據集很大,普通梯度函數需要精確的計算每一步的導數,效率很低。
2) 如果不小心陷入鞍點,或者比較差的局部最優解(注意這裏是比較差的局部最優解,我們通常也不追求全局最優,神經網絡可能有多個局部最優解來達到比較好的分類效果,而全局最優解反而更容易過擬合),GD沒辦法跑出來。
SGD恰好彌補了這兩個缺點:因爲SGD對導數的要求特別低,可以包含大量噪聲,舉例子說比如神經網絡中,訓練時只需要從幾百萬個點中隨機拿出128或者256個數據點,算一個不那麼精準的導數,就可以往導數對應梯度方向走一步,如圖:
雖然SGD需要的步子更多,但是需要的計算量缺少很多。詳見:SGD