教程 | 圖像分類: Caltech 256數據集

Caltech 256是什麼？

Caltech 256數據集是加利福尼亞理工學院收集整理的數據集，該數據集選自Google Image數據集，並手工去除了不符合其類別的圖片。在該數據集中，圖片被分爲256類，每個類別的圖片超過80張。

爲什麼要用Densenet121模型？

本項目使用在PyTorch框架下搭建的神經網絡來完成圖片分類的任務。由於網絡輸出的類別數量很大，簡單的網絡模型無法達到很好的分類效果，因此，本項目使用了預訓練的Densenet121模型，並僅訓練全連接層的參數。

項目流程：
1.數據處理
2.Densenet模型解讀
3.加載預訓練網絡模型
4.訓練神經網絡

1、數據處理

首先從指定路徑讀取圖像，將圖像大小更改爲224*224，並將圖片範圍從0-255改爲0-1：

from PIL import Image
image= Image.open(path)
image=image.resize((224,224))
x_data= x_data.astype(numpy.float32)
x_data= numpy.multiply(x_data, 1.0/255.0)  
## scale to [0,1] from [0,255]

由於此數據集中有少量圖片的色彩是單通道的，而神經網絡的輸入需要爲三個通道，因此，將該通道的數據複製到三個通道上：

if len(x_data.shape)!=3:
temp=numpy.zeros
((x_data.shape[0],x_data.shape[1],3))
temp[:,:,0] = x_data
temp[:,:,1] = x_data
temp[:,:,2] = x_data
x_data= temp
x_data=numpy.transpose(x_data,(2,0,1)) 
## reshape

在上述步驟之後，對圖片進行白化，即讓像素點的平均值爲0，方差爲1。這樣做是爲了減小圖片的範圍，使得圖片的特徵更易於學習。白化的過程如下所示：

if x_train is not None:
  x_train[:,0,:,:] = (x_train[:,0,:,:]-0.485)/0.229
  x_train[:,1,:,:] = (x_train[:,1,:,:]-0.456)/0.224
  x_train[:,2,:,:] = (x_train[:,2,:,:]-0.406)/0.225

if x_test is not None:
 x_test[:,0,:,:] = (x_test[:,0,:,:] -0.485) /0.229
 x_test[:,1,:,:] = (x_test[:,1,:,:] -0.456) /0.224
 x_test[:,2,:,:] = (x_test[:,2,:,:] -0.406) /0.225

2、DenseNet模型解讀

DenseNet的網絡結構如下圖所示。在傳統的CNN中，每個卷積層只與其相鄰的卷積層相連接，這就造成了位於網絡淺層的參數在反向傳播中獲取的梯度非常小，也就是梯度消失問題。

DenseNet設計了名爲Dense Block的特殊的網絡結構，在一個Dense Block中，每個層的輸入爲前面所有層的輸出，這也正是Dense的含義。通過這種方法，在反向傳播中，網絡淺層的參數可以從後面所有層中獲得梯度，在很大程度上減弱了梯度消失的問題。值得注意的是，每個層只與同位於一個Dense Block中的多個層有連接，而與Dense Block外的層是沒有連接的。

3、加載預訓練網絡模型

torchvision是服務於PyTorch框架的，用於進行圖片處理和生成一些主流模型的庫。使用該庫可以方便的加載PyTorch的預訓練模型。首先使用pip安裝torchvision庫：

pip install torchvision

創建densenet121模型實例，並加載預訓練參數：

cnn = torchvision.models.densenet121
(pretrained = True) 
#pretrained =True即爲加載預訓練參數，默認不加載。

凍結所有模型參數，使其值在反向傳播中不改變：

for param in cnn.parameters():
    param.requires_grad= False

改變模型全連接層輸出的個數爲256：

num_features= cnn.classifier.in_features
cnn.classifier= nn.Linear(num_features, 256)

此處不需要擔心新建的全連接層參數會被凍結，因爲新建的層參數是默認獲取梯度的。

4、訓練神經網絡

損失函數選擇CrossEntropy，優化器選擇Adam：

optimizer= Adam(cnn.parameters(), lr=0.001, betas=(0.9, 0.999))  # 選用AdamOptimizer
loss_fn= nn.CrossEntropyLoss()  # 定義損失函數

下面是完整的訓練過程：

# 訓練並評估模型
data= Dataset()
model= Model(data)

best_accuracy= 0
foriinrange(args.EPOCHS):
   cnn.train()
   x_train, y_train, x_test, y_test= data.next_batch(args.BATCH)  # 讀取數據

   x_train= torch.from_numpy(x_train)
   y_train= torch.from_numpy(y_train)
   x_train= x_train.float()

   x_test= torch.from_numpy(x_test)
   y_test= torch.from_numpy(y_test)
   x_test= x_test.float()
   
   ifcuda_avail:
       x_train= Variable(x_train.cuda())
       y_train= Variable(y_train.cuda())
       x_test= Variable(x_test.cuda())
       y_test= Variable(y_test.cuda())
       
   outputs= cnn(x_train)
   _, prediction= torch.max(outputs.data, 1)
   
   optimizer.zero_grad()

   # calculate the loss according to labels
   loss= loss_fn(outputs, y_train)
   # backward transmit loss
   loss.backward()

   # adjust parameters using Adam
   optimizer.step()

   # 若測試準確率高於當前最高準確率，則保存模型
   train_accuracy= eval(model, x_test, y_test)
   iftrain_accuracy>best_accuracy:
       best_accuracy= train_accuracy
       model.save_model(cnn, MODEL_PATH, overwrite=True)
       print("step %d, best accuracy %g"%(i, best_accuracy))

   print(str(i) +"/"+str(args.EPOCHS))

總結：

本文主要講解了DenseNet的網絡結構，以及在PyTorch框架下如何加載預訓練模型並進行fine-tuning。爲了在數據集上獲得更高的準確率，讀者可嘗試取消凍結參數的設置，使得卷積層也參與訓練。

獲取相關項目代碼請訪問：https://www.flyai.com/d/Calte...

— END —

教程 | 圖像分類: Caltech 256數據集

1、數據處理

2、DenseNet模型解讀

3、加載預訓練網絡模型

4、訓練神經網絡

總結：

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

NLP教程：教你如何自動生成對聯

教程 | 圖像分類: Caltech 256數據集

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結