Zero-Shot Learning論文閱讀筆記(第二週)

第一篇:DeViSE: A Deep Visual-Semantic Embedding Model

主要貢獻

本文解決了“視覺識別系統在對象類別龐大時的處理能力不足”這一問題。對於傳統視覺識別系統,對於10000類物體的大型識別應用,可能需要在最後一層添加10000個神經元。而且假如這時候檢測出還有一個類別沒訓練,可能需要添加新的神經元重新訓練,這無疑是非常低效冗餘的。

摘要

文章提出了DeVISE的概念,即一種深度視覺語義嵌入模型,該模型利用標記圖像數據和未標記文本的語義信息來識別視覺對象。文章證明,該模型在處理擁有1000類ImageNet對象識別任務時產生的不合理語義錯誤大大減少。同時也表明,語義信息可以用來對訓練過程中未觀察到的數萬個圖像標籤進行預測,語義知識可以將這種零樣本學習的預測準確率提高65%,在視覺模型從未見過的數千個新標籤中,達到10%的命中率。

簡單來說,文章糅合了傳統視覺神經網絡和詞向量(word2vec)處理中的Skip-gram模型,從而實現了一個視覺和語義兼顧的模型。

算法簡介

算法思想:

分別預訓練一個視覺網絡(Visual Model Pre-training)和詞向量網絡(Language Model Pre-training),再結合兩網絡進行訓練。

Skip-gram算法簡介:

在許多自然語言處理任務中,許多單詞表達是由他們的tf-idf(詞頻-逆文本指數)分數決定的。即使這些分數告訴我們一個單詞在一個文本中的相對重要性,但是他們並沒有告訴我們單詞的語義。Word2vec是一類神經網絡模型——在給定無標籤的語料庫的情況下,爲語料庫中的單詞產生一個能表達語義的向量。這些向量通常是有用的,而Skip-gram算法就是Word2vec其中一個模型。

對於skip-gram模型,輸入一個單詞wIw_I,它的輸出是wIw_I的上下文w1,w2,...,wCw_1,w_2,...,w_C,其中上下文的窗口大小爲CC。舉個例子,這裏有個句子“I drive my car to the store”。如果把”car”作爲訓練輸入數據,單詞組{“I”, “drive”, “my”, “to”, “the”, “store”}就是輸出。所有這些單詞,需要進行one-hot編碼。skip-gram模型圖如下所示:
在這裏插入圖片描述

算法核心框架

在這裏插入圖片描述
該結構圖可以概括論文的核心思想,作者使用word2vec做NLP的向量,將CNN的最後一層softmax 替換爲transformation(這裏爲linear transformation)做圖像的特徵向量, 這裏要保證特徵向量和 word2vec產生的向量維度一致,最後做特徵向量和標籤向量的相似度計算。
論文的另一個亮點是使用了hinge rank loss作爲loss得計算,公式如下:
loss(image,label)=jlabelmax[0,margintlabelMv(image)+tjMv(image)loss(image,labe l ) = \sum _ { j \neq l a b e l } \operatorname { max } [ 0 , margin - \vec { t _ { l a b e l } } M \vec { v } ( i m a g e ) + \vec { t } _ { j } M \vec { v } ( i m a g e )
其中,tlabelt_{label}表示label的vector(word2vec計算得到),vimagev_{image}表示image的vector(去除softmax layer的cnn計算),M表示linear transformation,margin爲超參數。

實驗結果

本文采用的訓練集是ImageNet2012,該訓練集有1000個類別的數據集,表現對比的是1000層的純Softmax的視覺神經網絡模型和隨機嵌入模型。其中隨機嵌入模型採用了隨機單位範數嵌入向量代替NLP學習到的向量。在類別數增加的情況下,DeViSE表現比傳統的zero-shot learning表現要好的多。

在這裏插入圖片描述

The goals of this work are to develop a vision model that makes semantically relevant predictions even when it makes errors and that generalizes to classes outside of its labeled training set, i.e. zero- shot learning. We compare DeViSE to two models that employ the same high-quality core vision model, but lack the semantic structure imparted by our language model: (1) a softmax baseline model – a state-of-the-art vision model [11] which employs a 1000-way softmax classifier; (2) a random embedding model – a version of our model that uses random unit-norm embedding vectors in place of those learned by the language model. Both use the trained visual model described in Section 3.2.

In order to demonstrate parity with the softmax baseline on the most commonly-reported metric, we compute “flat” hit@k metrics – the percentage of test images for which the model returns the one true label in its top k predictions. To measure the semantic quality of predictions beyond the true label, we employ a hierarchical precision@k metric based on the label hierarchy provided with the ImageNet image repository [7]. In particular, for each true label and value of k, we generate a ground truth list from the semantic hierarchy, and compute a per-example precision equal to the fraction of the model’s k predictions that overlap with the ground truth list. We report mean precision across the test set. Detailed descriptions of the generation of the ground truth lists, the hierarchical scoring metric, and train/validation/test dataset splits are provided in Sections A.1 and A.3.

在這裏插入圖片描述在這裏插入圖片描述

引用

原文:https://dl.acm.org/citation.cfm?id=2999849
pdf:http://bengio.abracadoudou.com/cv/publications/pdf/frome_2013_nips.pdf
Frome A , Corrado G S , Shlens J , et al. DeViSE: a deep visual-semantic embedding model[C]// Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2. Curran Associates Inc. 2013.

第二篇:Zero-shot recognition using dual visualsemantic mapping paths

主要貢獻

解決semantic gap問題的簡單做法,所謂的semantic gap也就是從圖片中提取的低層特徵到高層語義之間存在的“語義鴻溝”問題。這也是零次學習方向應用的技術瓶頸問題。

摘要

這篇文章的題目是基於雙視覺語義映射的零樣本學習,文章的做法是基於流形學習的,對語義進行再表示,並且迭代地調整,以對齊兩者的流形。基於此,我們提出了一種新的零次學習識別框架,該框架包含雙視覺語義映射路徑。分析表明,該框架不僅可以利用先驗語義知識推斷圖像特徵空間中潛在的語義流形,而且可以生成優化的語義嵌入空間,提高視覺語義映射到不可見類的傳遞能力。文章對四個標準數據集的進行了模型檢驗,取得了很好的效果。

另外值得注意的是這篇文章是直推式的零次學習。

算法簡介

直推式學習和純半監督學習的區別

假設有如下的數據集,其中訓練集爲XL+XUX_L+X_U,測試集爲XtestX_{test},標記樣本數目爲LL,未標記樣本數目爲U,L<<UU,L<<U

  • 標記樣本(XL,YL)=(x1:L,y1:L)(X_L,Y_L)={(x_{1:L},y_{1:L})}
  • 未標記樣本XU=x(L+1:N)X_U={x_{(L+1:N)}},訓練時可用
  • 測試樣本Xtest=x(N+1:)X_{test}={x_{(N+1:)}},只有在測試時纔可以看到

純半監督學習是一種歸納學習(inductive learning),可以對測試樣本XtestX_{test}進行預測。也即純半監督學習是基於“開放世界”的假設。

直推學習是transductive學習,僅僅可以對未標記樣本XUX_U進行標記,模型不具備對測試樣本XtestX_{test}進行泛化的能力。直推學習是基於“封閉世界”的假設。

直推學習假設未標記的數據就是最終要用來測試的數據,學習的目的就是在這些數據上取得最佳泛化能力。之後再通過遷移學習的方法,利用測試集數據的到一些測試類別的先驗知識。相對應的,純半監督學習在學習時並不知道最終的測試用例是什麼。

核心思想

視覺對象識別通常需要爲每個類別收集大量標記圖像,並且只能將對象分類爲已看到的類別。隨着識別任務向大規模和細粒度的類別發展,很難滿足這些需求。例如,許多對象類,如臨界尾羽鳥和稀有植物類,我們不容易預先收集它們的信息。此外,對大量圖像進行細粒度的註釋是很費勁的,甚至需要具有專門領域知識的人員進行註釋。這些挑戰推動了零樣本識別(Zero-Shot Recognition)算法的興起。

在zsr算法中,許多類沒有標記圖像。當前的zsr算法普遍採用一種有效的方法,在輸入圖像特徵空間xx和輸出標籤空間ll之間引入一些中間語義嵌入空間kk。該空間kk包含許多語義嵌入(簡稱嵌入),可以是人工定義的屬性向量,或從輔助文本中自動提取的字向量。作爲對象標籤的語義對應,即每個屬性向量或詞向量對應一個唯一的對象類,嵌入可以建立類間的連接。

與類標籤相比,文章嵌入具有一些特殊的屬性。

  1. 它們在空間K中呈現出比一般的標籤表示更爲複雜的幾何結構,例如在空間L中有一個熱向量,分佈在具有相同邊長的超立方體的頂點上。這種特殊的幾何結構,即語義流形,可以編碼標籤空間中缺失的可見類和不可見類之間的關係。
  2. 不同的嵌入有自己的特徵流形結構,這會導致識別性能的明顯變化。例如,在同一個數據集awa上,屬性向量通常比詞向量在看不見的類上獲得更好的識別性能。
  3. 嵌入需要提前構建,並在學習期間保持不變。
    在這裏插入圖片描述
    上圖可以表示文章中的核心思想,模型將待處理的圖片分爲兩類:XsX_sKsK_s,從XsX_s通過兩條不同的語義映射函數fsf_s建立和不同空間的關係,而傳統ZSR只有一條映射路徑就將XsX_s投影到KsK_s
    文章的雙映射方法主要包括三步:
    (1)學習從XsX_sKsK_s空間的映射函數fsf_s
    (2)提取XsX_s的底層流型特徵,生成和XsX_s同源的KsK_s^‘
    (3)將XsX_sKsK_s^‘進行迭代對齊並獲得fsf_s^‘
    在這裏插入圖片描述
    如上圖所示,圓和三角形分別表示可見類和不可見類。SS表示帶標籤圖像所包含的子空間。在虛線三角形中,文章將不可見類的圖像正交投影顯示在SS上。

文章的貢獻如下:

  • 文章將語義流形與視覺語義映射fs的傳遞能力之間的內在關係形式化,揭示了優化語義流形在新的zsr算法開發中的重要性。
  • 文章引入了一種新的思想,將zsr問題轉化爲語義空間k中流形結構和視覺語義映射fs的聯合優化。利用這一思想,我們可以通過改進k中流形的結構來彌補fs傳遞能力的不足。
  • 文章提出了一個新的框架,即雙視覺語義映射路徑(DMAP),以解決這個聯合操作優化問題。該算法不僅可以學習一個優化的視覺語義映射fs,還可以學習一個新的與x相關的語義空間。實驗結果表明,利用優化後的語義空間可以顯著提高fs在不可見類上的遷移能力。

實驗結果

數據集

文章在三個小規模的標註數據集和一個大規模數據集上進行模型評估檢驗:具有屬性標籤的動物數據集(AWA)、加州理工大學UCSD 的鳥類數據集(CUB)、標準犬類數據集(Dogs)和IM-Agenet ILSVRC 2012(ImageNet)。AWA由50個圖像類的30475個圖像組成,每個圖像類至少包含92個圖像,與外部提供的的85個屬性標籤和相應的類屬性關聯配對。文章遵循文獻中公認的實驗方案,即40個訓練集和10個測試集。CUB是一個擁有子類別的數據集,有312個屬性註釋,用於200個不同的鳥類。總共包含11788幅圖像。在[2]之後,我們使用相同的零杆分割法,150個訓練班和50個測試班。狗包含113種子屬性分類共19501張圖片,沒有人工定義的屬性註釋。85個班用於培訓,其餘的用於測試。大型IM-agenet數據集包含1000個類別和120多萬個圖像。

測試結果

文章在實驗中考慮兩種不同的zsr設置:傳統zsr(czsr)和廣義zsr(gzsr)。在czsr中,文章對已見類進行訓練,對未見類進行測試,假設測試實例來自未見類(表示爲u→u)。在gzsr中,文章假設測試實例來自所有目標類(表示爲u→t)。
vgg:Visual Geometry Group Network
att:ATTENTION
goog:GoogLeNet
res:ResNet
在這裏插入圖片描述
這些結果表明,在所有情況下,文章的流形對準過程都能顯著地提高DMAP-I的算法效率,僅使用兩種方法,就可以提高10.71%的平均精度。而且即使映射函數fsf_s的初始性能相對較低,我們的算法仍然有能力獲得良好的性能。換言之,即使k中的初始流形質量較低,它仍將被驅動爲與x更一致。例如,在Dogs數據集上,一次迭代可以顯著地將精確度從30.90%提高到40.97%。
此外,由於fsf_s是線性映射,計算複雜度很低。這些結果再次驗證了本文方法的可行性和有效性。

引用

原文:https://arxiv.org/pdf/1703.05002.pdf
Li Y , Wang D , Hu H , et al. Zero-Shot Recognition using Dual Visual-Semantic Mapping Paths[J]. 2017.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章