序言:
ST Layer在distorted minist數據集上表現出了很好的結果,但畢竟distorted minist是一個簡單的數據集。(手寫單個數字分類,所以共10類)
所以在本篇文章中,先會解釋一部分,STLayer的原理,然後解釋一部份minist上面的操作,最後解釋一下我在market1501上的實驗以及結果分析
解釋:
ST Layer是一個 由 6個參數 和原圖 生成一個 仿射變換後的新圖。
這六個參數決定了仿射的方式。其實ST Layer的最終目的是讓NN在看圖像時具有attention(類似NLP中的應用,問答,其實最關鍵的只有某幾個詞)
(其實我自己也嘗試用matconvnet,寫過這個公式,以及相應的bp,但沒收斂,速度上比較慢。但當時真的覺得自己可以寫成功的,最後差了一點點。
因爲matconvnet官方用cu寫了一個,速度超快,我當時就服了。哈哈。)
matconvnet官方在distort minist採用的結構如下:
主要是先用了一個local網絡預測6各參數,(圖中下面一路)
用6個參數產生一個grid,應用在圖像上,(圖中下面一路和上面一路input集合在一起)
我在market1501上採用的結構如下:(清晰度很靠譜的,我調整過,建議下載然後放大看)
實驗中:
1.在行人問題上是不是和預期的相同,學到揹包或衣服
2.使用簡單的歐氏距離,在test集上側指標