服務器上服務器上GPU頻繁lost的情況,報錯信息如下:
Unable to determine the device handle for GPU. GPU is lost. Reboot the system to recover this GPU.
主要原因可能有:
- 驅動問題
- 解決辦法:更新驅動;
- gpu過熱導致,這種情況解決方法有這幾種:
- 將gpu風扇轉速改爲手動控制,調高轉速(因爲n卡gpu默認轉速貌似永遠不會超過70%)
- 主板、gpu風扇清灰
- 電源供電不足導致,這種情況只能更換功率更大的電源解決