Pytorch訓練out of memory

兩類內存報錯:

  1. RuntimeError: cuda runtime error (2) : out of memory ...
  2. RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB ...

對於第一種:pytorch版本升級、避免中間變量累積、pin_memory置False
對於第二種:batchsize調小、選小模型…

其他: 同樣的代碼,在服務器的0, 1號GPU上可運行,在2, 3號上不能運行,在2號GPU上單獨可以運行,在其他服務器上可以運行…
最後,從bug的traceback中啓發,跟pin_memory有關,由True改爲False即可,順道查看了pin_memory(鎖頁內存)的概念: 12

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章