圖像識別中卷積神經網絡“卷積”的作用

1、單一的像素點包含的信息是無意義的
2、人在看一個畫面時,不會是一眼就能獲取所有信息的,而是通過聚焦中心,確定感受野,通過不斷調整聚焦中心位置,放大、縮小感受野,從而獲得源源不斷的圖片信息(聚焦中心點和感受野的確定,是要有算法優化的,否則會增加耗時)
3、2中優化的方式是通過對某一聚焦中心點、感受野“卷積”來確定的,是否需要優化,以何種方式優化,在判斷之前就需要確定一個卷積的方式——即卷積核(像素長寬、核數字)
4、人在看東西的時候,是有記憶的,我們瞬間的視野比例大約爲16:9,但是如果有東西超出了這個比例時,我們會進行“追蹤”,比如通過連續的輪廓、色彩等,追蹤後,在我們的記憶中產生了一個完整的物體,我們再對這個物體使用特定的卷積核去進行判斷屬於什麼物體
4、一個畫面一旦進入人類視野時,人類馬上就會調用一種卷積核去判斷,我把它稱爲“初判卷積核”,它的作用就是初步確定,這個物體可能是什麼,然後接下來去調用可能的物體的卷積核去進一步判斷,通過局部掃描的方式,去逐步確認,其間,也是可以根據實時掃描得到的結果更換卷積核的
5、像素點只有組合起來,它纔是有信息量的
6、不論是整體特徵還是局部特徵,都是需要用卷積核去提取的(整體還是局部,只是一個泛的概念,正確的描述應爲卷積核的大小)
7、cnn的缺陷?
8、人眼是基於三維成像的,像素的縱深在某一程度上也輔助了識別,是否能將帶有深度功能的攝像頭採集的深度圖(包含每個像素點距離觀察點的縱深),與RGB圖共同加入訓練?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章