麻省理工公開課人工智能筆記八

本篇講的是物體識別的相關知識

首先是大衛-馬爾的想法,來自攝像頭識別的物體,首先進行輪廓描述,然後使用向量表示方向,第三階段使用方向的簡單圖形表示,如下圖是一個圓柱的三種表示階段

第二階段可以認爲是一個2.5圍的圖形,第三階段表示爲一個圓形在豎直方向,這個階段可以和數據庫中對比,一次確定形狀。

方法很好,但是沒人能實現。

之後是馬爾的徒弟Shimon Ullman提出的對比理論:該理論認爲,知道一個物體的互相線性無關的任意三個視圖就能重新構建出該物體的任何視圖。

任意未知對應結點都可以用已知結點表示,有三個已知結點,則表示爲Xu = αXa + βXb + γXc + Π,當我們檢驗所有未知節點都能和已知結點按照相同的、β、γ、 Π匹配時,物體就能判定成功。

這個理論在某些方面有很好的適用性,但在現實物體,如人臉識別中還有較大不足。

之後Shimon Ullman又提出了更依賴於相關性的理論

如下面這幾個南瓜臉

如果我們將臉作爲整體進行相關性檢驗,那麼沒有相同的,而如果我們只關注部分,則可以找到相同的眼睛鼻子組合或者時嘴巴鼻子組合。那麼如果我有一個存儲了十個眼睛十個鼻子的圖片,那我就可以在人羣中尋找到相同的。

那什麼是相關性,考慮下面這兩個簡單的圖形匹配

如何確定水平位移後的圖形與原圖是一個,我們可以對某參數X求最大值,裏面是對x的積分,積分中是某張臉,f是x的函數,g時x減去平移的函數

如果加入噪音,這並不影響,或者修改爲多維,可以修改積分函數,如下圖。

以上只能根據相同照片來識圖

這是2008年的視頻,所以理論還沒有大的突破,自2012年以來,人臉識別已經取得了巨大的突破,有興趣的可以繼續瞭解。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章