兩類內存報錯:
RuntimeError: cuda runtime error (2) : out of memory ...
RuntimeError: CUDA out of memory. Tried to allocate 20.00 MiB ...
對於第一種:pytorch版本升級、避免中間變量累積、pin_memory置False …
對於第二種:batchsize調小、選小模型…
其他: 同樣的代碼,在服務器的0, 1號GPU上可運行,在2, 3號上不能運行,在2號GPU上單獨可以運行,在其他服務器上可以運行…
最後,從bug的traceback中啓發,跟pin_memory有關,由True改爲False即可,順道查看了pin_memory(鎖頁內存)的概念: 1,2。