【解決方案】pytorch中loss變成了nan | 神經網絡輸出nan | MSE 梯度爆炸/梯度消失

原創

PiperNest (同公众号)

2020-07-05 23:38

loss_func = nn.MSELoss()
loss = loss_func(val, target)

最近在跑一個項目，計算loss時用了很普通的MSE，在訓練了10到300個batch時，會出現loss tensor([[nan nan nan nan]]類似的情況。對這個異常的loss進行梯度下降，會導致net的輸出變爲nan。在網上查瞭解決方案，都不好用：

學習率過大；
loss過小（或者說除以了0 / 計算了 log(0)）；
存在髒數據輸入NaN。

試過上述方法，卻同樣無效的小夥伴可以考慮：

自己手寫 loss function ，在臨界值處改爲線性函數，知乎鏈接：【PyTorch】梯度爆炸、loss在反向傳播變爲nan；
或者參考我下面的方案。

這裏我觀察了臨界值，打了90分鐘的print，發現我的問題出在target上。

我的 target 計算公式，可能會得到 inf 的結果，導致無法正常的梯度下降。可以考慮：

檢查 target 是否正確；
計算了 target 後，將其改爲自己需要的值，如下。

target[target == float("Inf")] = 0

但請注意該方法在數學上的可行性。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

AI安全志：英國AI騙保事件增加300%！

最近，英國《衛報》報道稱，一些騙子正在利用人工智能照片編輯軟件篡改照片，以進行保險欺詐活動。這一發現令保險公司震驚，因爲這可能導致汽車保險費用飆升至歷史最高水平。安聯保險公司表示，從2021年至2023年期間，利用應用程序篡

2024-05-28 00:15:50

【終極指南】使用Python可視化分析文本情感傾向

本文分享自華爲雲社區《Python理解文本情感傾向的終極指南》，作者：檸檬味擁抱。情感分析是一種通過自然語言處理技術來識別、提取和量化文本中的情感傾向的方法。Python在這一領域有着豐富的庫和工具，如NLTK、TextBlob和VAD

2024-05-28 10:58:03

解讀注意力機制原理，教你使用Python實現深度學習模型

本文分享自華爲雲社區《使用Python實現深度學習模型：注意力機制（Attention）》，作者：Echo_Wish。在深度學習的世界裏，注意力機制（Attention Mechanism）是一種強大的技術，被廣泛應用於自然語言處理（NL

2024-05-27 10:58:44

webstorm 調試ts(typescript)代碼

webstorm 調試ts(typescript)代碼參考：https://www.jianshu.com/p/bb5eccfe8f9a 1、全局安裝 ts-node 和 typescript。 npm install -g ts-n

2024-05-27 22:22:48

2024年國內最全面最前沿人工智能理論和實踐資料

引言【導讀】2024第11屆全球互聯網架構大會圓滿結束。會議邀請了100餘位行業內的領軍人物和革新者，大會通過主題演講、實踐案例分享，以及前瞻性的技術討論，探索AI技術的邊界。(最新AI-大模型獲取地址點擊領取) 近日

2024-05-29 22:52:52

使用 Spring Cloud Alibaba AI 構建 RAG 應用

作者：姬世文背景介紹 RAG（Retrieval Augmented Generation）檢索增強生成（RAG）是一種用於將數據與人工智能模型集成的技術。在 RAG 工作流程中，第一步將文檔數據加載到矢量數據庫（例如 Redis）中。

2024-05-27 21:13:51

金融反欺詐指南：車險欺詐爲何如此猖獗？

青島市人民檢察院在其官方微信公衆號上發佈的梁某保險詐騙案顯示，2020 年以來，某汽修廠負責人梁某、某汽車服務公司負責人孫某，與保險公司的趙某等人相互勾結，收購二手北汽等品牌新能源汽車，併爲這些車輛購買車損險。隨後，他們利用暴雨天氣，故意製

2024-05-30 00:16:51

基於Fluid與JindoCache的大模型訓練加速實踐

隨着人工智能技術的不斷髮展，深度學習模型變得越來越複雜，參數量動輒幾十億甚至上百億。這樣的“大模型”在帶來強大性能的同時，也對訓練過程提出了極高的要求。尤其是在數據加載和計算資源利用方面，傳統的訓練方法往往難以滿足快速、高效的需求。爲此，我

2024-05-28 12:12:15

怎麼使用Stable diffusion中的models

Stable diffusion中的models Stable diffusion model也可以叫做checkpoint model，是預先訓練好的Stable diffusion權重，用於生成特定風格的圖像。模型生成的圖像類型取決於訓

2024-05-28 21:38:55

這種嵌套字典類型的數據，我想把它讀取到df裏，如何操作？

大家好，我是皮皮。一、前言前幾天在Python最強王者交流羣【WYM】問了一個Pandas處理的問題，提問截圖如下：原始數據： temp = dict() temp[64001] = {64002: 1.0, 64003: 1.0,

2024-05-30 10:02:40

[oeasy]python019_ 如何在github倉庫中進入目錄_找到程序代碼_找到代碼

繼續運行 🥋 回憶上次內容上上次真寫了萬行代碼這萬行代碼都是寫在明面上的這次使用git命令下載了 github上面的倉庫

2024-05-30 00:35:24

Python網絡爬蟲的時候json=就是讓你少寫個json.dumps()

大家好，我是皮皮。一、前言前幾天在Python白銀交流羣【空翼】問了一個Python網絡爬蟲的問題，提問截圖如下：登錄請求地址是這個：二、實現過程這裏【甯同學】給了一個提示，如下所示：估計很多小夥伴和我一樣會有一個疑問吧，

2024-05-29 10:02:33

記錄一次cnvd事件型證書漏洞挖掘

事件起因是因爲要搞畢設了，在爲這個苦惱，突然負責畢設的老師說得到cnvd下發的證書結合你的漏洞挖掘的過程是可以當成畢設的，當時又學習了一段時間的web滲透方面的知識，於是踏上了廢寢忘食的cnvd證書漏洞挖掘的日子。前言：聽羣友們說，一般可

2024-05-28 11:16:19

今天！通義靈碼在北京、成都、杭州三城開講啦

通義靈碼自從入職阿里雲以來備受行業關注。5 月 24 日，阿里雲工程師奔赴北京、成都、杭州三城，向企業和開發者介紹並演示通義靈碼，通義靈碼依然是大家話題的C位，並收穫了衆多粉絲。 @杭州阿里雲金融創新峯會今天，2024 阿里雲金融創新峯

2024-05-27 21:13:46

安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具?

大家好，我是Python進階者。一、前言前幾天在Python最強王者交流羣【斌】問了一個Python庫安裝的問題。求教大佬：華爲筆記本，麒麟系統，安裝筆記本應用商店的pycharm，再安排pandas等模塊，說是沒有打包工具，再安裝

2024-05-25 10:02:28

24小時熱門文章

最新文章

最新評論文章