教程 | 圖像分類: Caltech 256數據集

Caltech 256是什麼?

Caltech 256數據集是加利福尼亞理工學院收集整理的數據集,該數據集選自Google Image數據集,並手工去除了不符合其類別的圖片。在該數據集中,圖片被分爲256類,每個類別的圖片超過80張。

爲什麼要用Densenet121模型?

本項目使用在PyTorch框架下搭建的神經網絡來完成圖片分類的任務。由於網絡輸出的類別數量很大,簡單的網絡模型無法達到很好的分類效果,因此,本項目使用了預訓練的Densenet121模型,並僅訓練全連接層的參數。

項目流程:

1.數據處理
2.Densenet模型解讀
3.加載預訓練網絡模型
4.訓練神經網絡

1、數據處理

首先從指定路徑讀取圖像,將圖像大小更改爲224*224,並將圖片範圍從0-255改爲0-1:

from PIL import Image
image= Image.open(path)
image=image.resize((224,224))
x_data= x_data.astype(numpy.float32)
x_data= numpy.multiply(x_data, 1.0/255.0)  
## scale to [0,1] from [0,255]

由於此數據集中有少量圖片的色彩是單通道的,而神經網絡的輸入需要爲三個通道,因此,將該通道的數據複製到三個通道上:

if len(x_data.shape)!=3:
temp=numpy.zeros
((x_data.shape[0],x_data.shape[1],3))
temp[:,:,0] = x_data
temp[:,:,1] = x_data
temp[:,:,2] = x_data
x_data= temp
x_data=numpy.transpose(x_data,(2,0,1)) 
## reshape 

在上述步驟之後,對圖片進行白化,即讓像素點的平均值爲0,方差爲1。這樣做是爲了減小圖片的範圍,使得圖片的特徵更易於學習。白化的過程如下所示:

if x_train is not None:
  x_train[:,0,:,:] = (x_train[:,0,:,:]-0.485)/0.229
  x_train[:,1,:,:] = (x_train[:,1,:,:]-0.456)/0.224
  x_train[:,2,:,:] = (x_train[:,2,:,:]-0.406)/0.225

if x_test is not None:
 x_test[:,0,:,:] = (x_test[:,0,:,:] -0.485) /0.229
 x_test[:,1,:,:] = (x_test[:,1,:,:] -0.456) /0.224
 x_test[:,2,:,:] = (x_test[:,2,:,:] -0.406) /0.225

2、DenseNet模型解讀

DenseNet的網絡結構如下圖所示。在傳統的CNN中,每個卷積層只與其相鄰的卷積層相連接,這就造成了位於網絡淺層的參數在反向傳播中獲取的梯度非常小,也就是梯度消失問題。

圖片描述

DenseNet設計了名爲Dense Block的特殊的網絡結構,在一個Dense Block中,每個層的輸入爲前面所有層的輸出,這也正是Dense的含義。通過這種方法,在反向傳播中,網絡淺層的參數可以從後面所有層中獲得梯度,在很大程度上減弱了梯度消失的問題。值得注意的是,每個層只與同位於一個Dense Block中的多個層有連接,而與Dense Block外的層是沒有連接的。

3、加載預訓練網絡模型

torchvision是服務於PyTorch框架的,用於進行圖片處理和生成一些主流模型的庫。使用該庫可以方便的加載PyTorch的預訓練模型。首先使用pip安裝torchvision庫:

pip install torchvision

創建densenet121模型實例,並加載預訓練參數:

cnn = torchvision.models.densenet121
(pretrained = True) 
#pretrained =True即爲加載預訓練參數,默認不加載。

凍結所有模型參數,使其值在反向傳播中不改變:

for param in cnn.parameters():
    param.requires_grad= False

改變模型全連接層輸出的個數爲256:

num_features= cnn.classifier.in_features
cnn.classifier= nn.Linear(num_features, 256)

此處不需要擔心新建的全連接層參數會被凍結,因爲新建的層參數是默認獲取梯度的。

4、訓練神經網絡

損失函數選擇CrossEntropy,優化器選擇Adam:

optimizer= Adam(cnn.parameters(), lr=0.001, betas=(0.9, 0.999))  # 選用AdamOptimizer
loss_fn= nn.CrossEntropyLoss()  # 定義損失函數

下面是完整的訓練過程:

# 訓練並評估模型
data= Dataset()
model= Model(data)

best_accuracy= 0
foriinrange(args.EPOCHS):
   cnn.train()
   x_train, y_train, x_test, y_test= data.next_batch(args.BATCH)  # 讀取數據

   x_train= torch.from_numpy(x_train)
   y_train= torch.from_numpy(y_train)
   x_train= x_train.float()

   x_test= torch.from_numpy(x_test)
   y_test= torch.from_numpy(y_test)
   x_test= x_test.float()
   
   ifcuda_avail:
       x_train= Variable(x_train.cuda())
       y_train= Variable(y_train.cuda())
       x_test= Variable(x_test.cuda())
       y_test= Variable(y_test.cuda())
       
   outputs= cnn(x_train)
   _, prediction= torch.max(outputs.data, 1)
   
   optimizer.zero_grad()

   # calculate the loss according to labels
   loss= loss_fn(outputs, y_train)
   # backward transmit loss
   loss.backward()

   # adjust parameters using Adam
   optimizer.step()

   # 若測試準確率高於當前最高準確率,則保存模型
   train_accuracy= eval(model, x_test, y_test)
   iftrain_accuracy>best_accuracy:
       best_accuracy= train_accuracy
       model.save_model(cnn, MODEL_PATH, overwrite=True)
       print("step %d, best accuracy %g"%(i, best_accuracy))

   print(str(i) +"/"+str(args.EPOCHS))

總結:

本文主要講解了DenseNet的網絡結構,以及在PyTorch框架下如何加載預訓練模型並進行fine-tuning。爲了在數據集上獲得更高的準確率,讀者可嘗試取消凍結參數的設置,使得卷積層也參與訓練。

獲取相關項目代碼 請訪問:https://www.flyai.com/d/Calte...

— END —

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章