Deep visual domain adaptation: A survey

目錄

1、簡介

2、概覽

2.1、概念和定義

2.2、不同的領域適應設置

3、深度域適配的方法

3.1、一步域適配的分類

3.2、多步域適配的分類

4、一步域適配

4.1、同質的域適配

4.4.1、基於差異的方法

4.1.2、基於監督的方法

4.1.3、基於重建的方法

4.4.1、混合方法

4.2、異構的域適配

4.2.1、基於不符的方法

4.2.2、基於對抗的方法

4.2.3、基於重建的方法

5、多步域適配

5.1、手工設計的方法

5.1、基於實例的方法

5.3、基於重建的方法

6、深度域適配的應用

6.1、圖像分類

6.2、人臉識別

6.3、目標檢測

6.4、語義分割

6.5、圖像到圖像翻譯

6.6、行人再識別

6.7、圖像描述

7、結論


深度視覺域適配作爲一個解決大量標註數據缺失的新的學習技巧而出現。與傳統的學習共享特徵子空間或使用淺層表示重用重要源實例的方法相比,深度域適應方法通過將域適應嵌入深度學習管道中,利用深度網絡學習更多可遷移的表示。對於淺域適應的研究已經有了全面的調查,但很少及時回顧基於深度學習的新興方法。在這篇論文中,我們提供了一個全面的調查深入領域適應方法的計算機視覺應用有四個主要貢獻。首先,根據定義兩個領域如何分化的數據屬性,我們給出了不同深度領域適應場景的分類。其次,我們根據訓練損失將深度領域適應方法歸納爲若干類別,並對這些類別下的最新方法進行簡要分析和比較。第三,我們概述超越圖像分類的計算機視覺應用,如人臉識別、語義分割和目標檢測。第四,指出了現有方法可能存在的不足和未來的發展方向。

1、簡介

在過去的幾年裏,機器學習取得了巨大的成功,並使實際應用受益匪淺。然而,爲每個新的任務和領域收集和註釋數據集是非常昂貴和費時的過程,充分的訓練數據可能並不總是可用的。幸運的是,大數據時代爲其他領域和任務提供了大量數據。例如,儘管公開的大規模標籤視頻數據庫只包含少量樣本,但從統計學上講,YouTube人臉數據集(YTF)由3.4 K個視頻組成。標記的靜止圖像的數量超過了足夠的人臉數據集[1]。因此,在當前任務中巧妙地使用數據稀缺的輔助數據將有助於實際應用。

然而,由於許多因素(如光照、姿態和圖像質量),兩個域之間的分佈變化或域移位都會降低性能,如圖1所示。模仿人類視覺系統,領域適應(DA)是遷移學習(TL)的一種特殊情況,它利用一個或多個相關源領域中的標記數據在目標領域執行新的任務。在過去的幾十年裏,人們提出了各種淺層DA方法來解決源域和目標域之間的域漂移。常用的淺層數據挖掘算法主要分爲兩類:基於實例的數據挖掘和基於特徵的數據挖掘。第一類通過對源樣本進行加權來減少誤差,並對加權後的源樣本進行訓練。對於第二類,通常學習一個公共共享空間,其中兩個數據集的分佈是匹配的。

近年來,基於神經網絡的深度學習方法在視覺分類應用中取得了許多令人鼓舞的成果,如圖像分類、人臉識別、目標檢測。深層網絡模擬人腦的感知,可以通過多層非線性轉換來表示高層抽象。現有的深度網絡結構,包括卷積神經網絡(CNNs)、深度信念網絡(DBNs)、堆疊自編碼器(SAEs)等。儘管一些研究表明,深度網絡可以學習更多可轉移的表示,它可以根據數據樣本和羣體特徵與不變因素的相關性,分層地分離數據樣本背後的變異探索因素和羣體特徵。深層特徵最終會由一般特徵過渡到具體特徵,在更高層次上表示的可轉移性急劇下降。因此,最近的研究通過將深度學習和數據挖掘相結合的深度數據挖掘來解決這個問題。

                

本文主要對深度數據挖掘方法進行分析和討論。具體來說,該綜述的主要貢獻如下:(1)、根據定義兩個領域如何分化的數據屬性,我們提供了不同深度DA場景的分類。(2)、我們對三個子設置(分類損失訓練、差異損失訓練和對抗式損失訓練)進行了改進和細化,總結了在不同的DA場景中使用的不同方法。(3)考慮到源域和目標域的距離,研究了多步數據挖掘方法,並將其分爲手工處理機制、基於特徵機制和基於表示機制。(4)我們提供了許多計算機視覺應用的調查,如圖像分類,人臉識別,風格翻譯,目標檢測,語義分割和人的重新識別。

2、概覽

2.1、概念和定義

在本節中,我們將介紹一些本調查中使用的符號和定義。域由特徵空間和邊緣分佈概率組成,其中。給定一個指定域,任務由特徵空間和目標預測函數組成,從概率的角度也可以看成是條件概率分佈。通常情況下,我們可以從標記數據以監督的方法來學習,其中

假設我們有兩個域:具有足夠標記數據的訓練數據集是源域,,帶有少量標記數據或沒有標記數據的測試數據集是目標域,。我們看到部分標記的部分,和未標記的部分,,形成整個目標域,。每個域和它的任務一起。同樣的,可以從源域數據中學習,同時可以從標記了的數據中學習,同時可以從標記了的目標數據和未標記的數據中學習。

2.2、不同的領域適應設置

傳統機器學習的情況是並且,不同數據集之間的差異可能是由領域差異造成的(例如,分佈移位或特徵空間差異),任務的分歧,(例如,條件分佈移位或標籤空間差),或同時。在此基礎上,將TL分爲三大類:誘導型、轉導型和無監督型。

根據這種分類,DA方法是假設任務相同的轉導TL解決方法,例如,,這些差異僅僅是由區域的散度引起的,,因此,基於區域差異(分佈位移或特徵空間差異),DA可以分爲兩大類:均質DA和異質性DA。

       

然後,考慮到目標域的標記數據,我們可以進一步將DA分爲有監督的、半監督的和無監督的。分類如圖2所示。

  • 在同質DA設置中,源域和目標域之間的特徵空間是相同的,具有相同的維度,因此源和目標數據集在數據分佈方面通常是不同的

此外,我們可以進一步將齊次DA設置分爲三種情況:

  1. 在有監督的數據處理中,少量標記的目標數據,出現。但是,標記的數據對於任務來說通常是不夠的。
  2. 在半監督DA中,訓練階段可以得到目標域中有限的標記數據和冗餘的未標記數據,使網絡能夠學習目標域的結構信息。
  3. 在無監督DA中,訓練網絡時可觀察到無標記但有足夠的未標記目標域數據

在異構DA設置中,源域和目標域之間的特徵空間是不等價的,維度通常也可能不同於。與同構設置相似,異構DA設置也可以分爲監督式DA、半監督式DA和無監督式DA。

以上所有DA設置都假設源域和目標域是直接相關的;因此,知識的傳遞可以一步到位。我們稱之爲一步DA。然而在現實中,這種假設有時是不可用的。這兩個域之間幾乎沒有重疊,因此執行一步DA將是無效的。幸運的是,有一些中間域能夠使源域和目標域比它們原來的距離更近。因此,我們使用一系列中間橋連接兩個看似不相關的域,然後通過這個橋執行一步DA,稱爲多步(或傳遞)DA。例如,人臉圖像和車輛圖像由於形狀或其他方面的不同而存在差異,因此一步DA會失敗。但是,一些中間圖像,如“football helmet”,可以被引入作爲一箇中間域,實現平滑的知識轉移。圖3顯示了單步DA技術和多步DA技術學習過程的差異。

       

3、深度域適配的方法

從廣義上講,深度數據挖掘是利用深度網絡提高數據挖掘性能的一種方法。在這個定義下,具有深度特徵的淺層方法可以被認爲是深度DA方法。淺層方法採用DA,而深度網絡只提取矢量特徵,不利於直接傳遞知識。例如從一個CNN中提取卷積激活作爲張量表示,然後進行張量對齊不變子空間學習來實現DA。這種方法可靠地優於目前基於傳統手工製作特徵的最先進的方法,因爲可以通過深度網絡提取足夠的代表性和可轉移特徵,這可以更好地處理辨別任務。在狹義上,深度數據挖掘是基於深度學習架構設計的數據挖掘,可以通過反向傳播從深度網絡中獲得第一手的效果。直觀的想法是將DA嵌入到學習表示的過程中,並學習一個語義上有意義且領域不變量的深度特徵表示。使用“良好”的特徵表示,目標任務的性能將顯著提高。在這篇文章中,我們關注於狹義的定義,並討論如何利用深度網絡學習“好的”特徵表示與額外的訓練標準。

3.1、一步域適配的分類

在一步DA中,深層方法可以總結爲三種情況。表1顯示了這三種情況和簡要描述。第一種是基於離散的深度DA方法,該方法假設使用標記或未標記的目標數據對深度網絡模型進行微調可以減小兩個域之間的移動。分類判據、統計判據、建築判據和幾何判據是進行微調的四種主要技術:

  • 分類標準:使用類標籤信息作爲在不同領域之間傳遞知識的嚮導。當目標域的標記樣本在監督DA中可用時,軟標記和度量學習總是有效的。當這些樣本不可用時,可以採用其他一些技術來替代類標記數據,如僞標籤和屬性表示。
  • 統計標準:使用某些機制對齊源和目標域之間的統計分佈變化。比較和減少分佈偏移最常用的方法是最大平均差異(maximum mean差值,MMD),相關對齊(correlation alignment, CORAL), Kullback-Leibler (KL)散度和H散度等。
  • 結構標準:目的是通過調整深度網絡的結構來提高學習可轉移特徵的能力。被證明具有成本效益的技術包括自適應批處理歸一化(BN)、弱相關權重、領域引導的dropout等。
  • 幾何標準:根據源域和目標域的幾何特性建立連接。該判據假設幾何結構之間的關係可以減小疇移。

第二種情況可以稱爲基於對抗性的深度DA方法。在這種情況下,用於分類數據點是來自源域還是目標域的域鑑別器被用來通過一個敵對的目標來鼓勵域混淆,以最小化經驗源和目標映射分佈之間的距離。此外,基於對抗性的深度DA方法可以根據是否有生成模型分爲兩種情況。

  • 生成模型:將判別模型與基於生成對抗網絡(GANs)的生成組件相結合。典型的例子之一是利用源圖像、噪聲向量或兩者同時生成與目標樣本相似的模擬樣本,並保留源域的標註信息。
  • 非生成模型:而不是生成模型與輸入圖像分佈,特徵提取器學習歧視表示使用標籤在源域和目標數據映射到同一空間通過domain-confusion損失,從而導致域不變表示。

第三種情況可以稱爲基於重構的DA方法,它假設源樣本或目標樣本的數據重構有助於提高DA的性能。該構造函數既能保證域內表示的特殊性,又能保證域間表示的不可區分性。

  • 編碼器-解碼器重構:通過使用堆疊自動編碼器(SAEs),編碼器-解碼器重構方法將用於表示學習的編碼器網絡與用於數據重構的解碼器網絡結合起來。
  • 對抗式重構:重構誤差是通過GAN鑑別器得到的循環映射來測量每個圖像域內重構圖像與原始圖像的差值,如dual GAN[62]、cycle GAN和disco GAN。

3.2、多步域適配的分類

在多步驟DA中,我們首先確定與源域和目標域的關聯比它們的直接連接更大的中間域。第二,通過一步DA實現源域、中間域和目標域之間的知識傳遞過程,減少信息損失。因此,多步驟數據挖掘的關鍵在於如何選擇和利用中間域;另外,它也可以分爲三類:手工製作、基於特性和基於表示的選擇機制。

  • 手工設計:用戶根據經驗決定中間領域。

                   

  • 基於實例:從輔助數據集中選擇特定部分的數據組成中間域來訓練深度網絡。
  • 基於表示:通過凍結之前訓練過的網絡,並使用它們的中間表示作爲新網絡的輸入來實現傳輸。

4、一步域適配

如2.1節所述,目標域中的數據無論同質還是異質DA,都有三種類型:(1)、有標記數據的監督DA,(2)、有標記數據和無標記數據的半監督DA,(3)、無標記數據的非監督DA。結合設置1和設置3的方法可以完成第二設置;因此,在本文中我們只關注第一和第三種設置。表3顯示了對每種DA設置主要使用不同方法的情況。如表3所示,由於有監督的DA有其侷限性,我們將更多的工作集中在無監督場景上。當目標域內僅有少量標記數據時,使用源標記數據和目標標記數據訓練模型參數通常會導致對源分佈的過擬合。此外,基於離散的方法已經研究多年,在許多研究工作中產生了更多的方法,而基於對立的方法和基於重構的方法是一個相對較新的研究課題,近年來受到更多的關注。

4.1、同質的域適配

4.4.1、基於差異的方法

Yosinski等人證明,通過深度網絡學習的可轉移特徵由於脆弱的協同適應和表示特異性而存在侷限性,而微調可以提高泛化性能(圖4)。微調(也可以看作是一種基於離散的深度DA方法)是用源數據訓練一個基網絡,然後直接重用前n層進行目標網絡。對目標網絡的剩餘層進行隨機初始化和基於差異的損失訓練。在訓練過程中,目標網絡的前n層可以根據目標數據集的大小及其與源數據集的相似性進行微調或凍結。表4給出了導航這4種主要場景的一些通用經驗規則。

  • 分類標準

在深度數據挖掘中,類準則是最基本的訓練損失。使用源數據對網絡進行預訓練後,目標模型的其餘層以類標籤信息爲指導對網絡進行訓練。因此,假設目標數據集中的一小部分標記樣本是可用的。理想情況下,類標籤信息在有監督的DA中直接給出。大多數工作通常使用地基真值類的負對數似然,softmax作爲他們的訓練損失,(表示類概率的模型的softmax預測是什麼),爲了擴展這一點,Hinton等人將softmax函數修改爲軟標籤損失:

                          

其中爲每個類計算logit輸出,T是在標準softmax中通常設置爲1的溫度,但它需要一個更高的值來產生在類上的軟概率分佈。通過使用它,許多關於學習函數的信息,駐留在非常小的概率的比率,可以得到。例如,在識別數字時,2的一個版本可能獲得是3的概率和是7的概率;換句話說,這個版本的2看起來更像3而不是7。]受到Tzeng等人的啓發,同時最小化域混淆損失(屬於基於反向的方法,將在4.1.2節中介紹)和軟標籤損失,從而對網絡進行微調。使用軟標籤而不是硬標籤可以保持域間類之間的關係。Gebru等人對現有的基於自適應算法進行了改進,在細粒度類級和屬性級上使用了軟標籤損失(圖5)。除了softmax損失,還有其他方法可以作爲訓練損失,以微調目標模型的監督DA。在深度網絡中嵌入度量學習是另一種可以使來自不同區域的相同標籤的樣本距離更近,不同標籤的樣本距離更遠的方法。深度遷移度量學習由Hu等提出的,採用邊際Fisher分析準則和MMD準則(在統計準則中描述)來最小化它們的分佈差異:

                                

其中和正則化係數,是網絡第m層的權重和偏置。是源域和目標域的MMD。定義了類內緊湊度和類間分離度。

但是,如果在目標域中沒有直接的類標籤信息,我們可以做什麼?我們都知道,人類只能通過高層次的描述來識別看不見的類。例如,當提供“高大、棕色、長脖子的動物”的描述時,我們就能認出長頸鹿。假定是類c的屬性表示,它具有固定長度的二進制值,在所有類中有m個屬性。在測試階段,每個目標類y以確定性的方式獲得其屬性向量,例如,。通過貝葉斯法則,,測試類的後驗可計算如下:

                        

Gebru等人從這些作品中得到靈感,利用屬性來提高DA細粒度識別的性能。有多個獨立的softmax損失,同時執行屬性和類級別,以微調目標模型。爲了防止獨立分類器獲得屬性級和類級衝突的標籤,還實現了屬性一致性損失。

偶爾,在無監督DA中對網絡進行微調時,可以根據最大後驗概率初步得到目標數據的一個標籤,即僞標籤。Yan等利用源數據初始化目標模型,然後通過目標模型的輸出定義後驗概率類,通過目標模型的輸出。利用,它們通過,對分配僞標籤

兩個不同的網絡對未標記的樣本分配僞標籤,另一個網絡利用樣本進行訓練,得到目標識別表示。deep transfer network (DTN)使用支持向量機(SVMs)和MLPs等基本分類器獲取目標樣本的僞標籤,估計目標樣本的條件分佈,並將邊緣分佈和條件分佈與MMD準則進行匹配。[32]在將分類器自適應轉換到殘差學習框架時,使用僞標籤構建條件熵,保證目標分類器f t很好地適應目標特有的結構。

  • 統計標準

儘管一些基於離散的方法搜索僞標籤、屬性標籤或其他替代標記目標數據,但更多的工作集中在通過最小化無監督DA中的域分佈差異來學習域不變表示。MMD是一種通過核二樣本檢驗比較兩個數據集分佈的有效度量方法[76]。給定s和t兩個分佈,MMD定義如下:

               

其中,表示將原始數據映射到再生核希爾伯特空間(RKHS)的核函數,的單位球中定義了一組函數。

                 

                 

    

在此基礎上,Ghifary等人提出了一種將MMD度量引入單層隱層前饋神經網絡的模型。爲了減少潛在空間的分佈不匹配,在每個域的表示之間計算了煙霧md度量。MMD的經驗估計如下:

                              

隨後,Tzeng et al.和Long et al.將MMD擴展到一個深度CNN模型,並取得了巨大的成功。Tzeng等人提出的深度域混淆網絡(deep domain confusion network, DDC)使用兩個CNNs作爲源域和目標域,權值共享。該網絡在源域的分類損失得到優化,而域的差異是由一個適應層與MMD度量。

                          

其中超參數是一個懲罰參數,表示可獲得標籤數據和標籤上的分類損失。代表源域和目標域數據之間的距離。DDC只適應網絡的一層,導致降低了多層的可轉讓性。Long等人提出了深度適應網絡(DAN),在條件分佈保持不變的前提下,通過增加多個適應層和探索多個核來匹配邊緣分佈的跨域移動(圖6),而不是使用單層線性MMD。然而,這一假設在實際應用中相當適用;換句話說,源分類器不能直接在目標域中使用。爲了使其更加一般化,聯合自適應網絡(JAN)[37]根據聯合最大平均差異(JMMD)準則對多個領域特定層中輸入特徵和輸出標籤的聯合分佈的位移進行對齊(圖6)。Zhang等提出了基於MMD的邊緣分佈和條件分佈匹配的DTN(圖6)。共享特徵提取層學習一個子空間來匹配源樣本和目標樣本的邊緣分佈,辨別層通過分類器轉換來匹配條件分佈。殘餘轉移網絡(RTNs)除了使用MMD適應特徵外,還增加了一個門控殘餘層用於分類器自適應。最近,Yan等人提出了一種加權MMD模型,當目標域中的類權重與源域中的類權重不同時,該模型爲源域中的每個類引入一個輔助權重。

如果是一種有特徵的內核(即(高斯核或拉普拉斯核),MMD將比較統計矩的所有階數。與MMD相比,CORAL學習了一種線性變換,該變換將域之間的二階統計量對齊。Sun和Saenko用非線性變換將珊瑚擴展到深度神經網絡(deep CORAL)。

                             

其中表示Frobenius範數的平方矩陣。通過對高斯核函數的泰勒展開,可以將多模態分解看作是所有原始矩加權和之間的距離的最小值[78]。將MMD解釋爲矩匹配程序促使Zellinger等人[79]匹配域分佈的高階矩,我們稱之爲中心矩差異(CMD)。關於激活空間域差異的CMD度量的經驗估計給出:

                           

其中是所有第k階樣本中心動量的向量,並且是經驗期望。Haeusser提出的association loss L assoc是一種可選的差異度量,通過使兩步往返概率abaij類似於類標籤的均勻分佈,它加強了源數據和目標數據之間的統計關聯。

  • 結構標準

還有一些方法對網絡結構進行優化,使分佈差異最小化。這種適應行爲可以在大多數深度DA模型中實現,比如監督和非監督設置。Rozantsev等人[47]認爲對應層中的權重不共享,而是通過權重調節器r w(·)進行關聯,以考慮兩個域之間的差異(圖7)。權值調節器可以表示爲指數損失函數:

                 

          

式中,分別爲源模型和目標模型的第j層參數。爲了進一步放寬這一限制,它們允許一個流中的權重進行線性變換:

               

其中是編碼線性變換的標量參數。懲罰項控制參數的相關度:

                            

其中分別爲源域和目標域第l層的參數。Li等人假設類相關知識存儲在權重矩陣中,而領域相關知識由批處理標準化(BN)層的統計數據表示。BN對每個單獨的特徵通道的平均值和標準偏差進行標準化,這樣每一層接收到的數據來自一個相似的分佈,不管它是來自源還是目標域。因此,Li等人使用BN對分佈進行對齊,重新計算目標域中的均值和標準差。

                            \

其中是由目標數據獲得的參數,而分別爲每個特徵通道獨立計算的平均值和標準偏差爲。賦予BN層一組對齊參數,可自動學習,並可決定深度網絡不同層次所需的特徵對齊程度。此外,Ulyanov等人發現,用實例歸一化(IN)層替換BN層時,對於每個通道和每個樣本,分別計算出了獨立的,可以進一步提高DA的性能。偶爾,神經元並不是對所有的區域都有效,因爲存在區域偏差。例如,在識別人員時,目標域通常包含以最小背景雜亂爲中心的一個人,而源數據集包含許多雜亂的人。因此,捕捉他人特徵和雜亂的神經元是無用的。Domain-guided dropout是Xiao等爲解決多區域da問題而提出的一種方法,它對每個domain不相關的神經元進行抑制。它不是用一個特定的丟失率來分配丟失,而是依賴於當神經元被移除時每個神經元在域樣本上的丟失函數的增益:

                  

其中L爲softmax損失函數,g (x) \ i爲將第i個神經元的響應設爲零後的特徵向量。每個源域被分配不同的參數,,其中是一個域通用的模型,並且領域特定偏差項,訓練好低秩參數化的CNN後,可以作爲目標域的分類器。

  • 幾何標準

幾何標準通過對從源域到目標域的幾何路徑上的中間子空間進行積分,從而減輕了域的位移。構造了一個幾何流曲線,將源域與目標域連接起來。源和目標子空間是格拉斯曼流形上的點。通過沿着測地線對固定的[86]或無限的[87]子空間進行採樣,我們可以形成中間子空間,以幫助找到域之間的相關性。然後將源數據和目標數據投影到得到的中間子空間中,對分佈進行對齊。受幾何路徑的中間表示的啓發,Chopra等人[50]提出了一種稱爲深度學習的DA在域間插值(DLID)模型。DLID生成中間數據集,從所有源數據樣本開始,逐步將源數據替換爲目標數據。每個數據集是源和目標域之間插入路徑上的單個點。一旦中間數據集被產生,一個使用預測稀疏分解的深層非線性特徵提取器被訓練在無監督的方式。

4.1.2、基於監督的方法

最近,GAN方法取得了巨大的成功,該方法通過對抗過程估計生成模型。GAN包括兩個模型:生成模型G,提取數據分佈;判別模型D,通過預測二進制標籤來區分樣本是G還是訓練數據集。以最小最大的方式訓練網絡的標籤預測損失:同時優化G使損失最小化,同時訓練D使分配正確標籤的概率最大化:

                  

在DA中,這個原則被用來確保網絡不能區分源域和目標域。Tzeng等人提出了一種基於反向的方法的統一框架,並根據是否使用生成器、使用哪個損失函數、或是否跨域共享權值對現有方法進行了總結(圖8)。在本文中,我們只將基於對抗性的方法分爲兩個子類:生成模型和非生成模型。

                                      

  • 生成模型

帶有ground truth註釋的合成目標數據是解決缺乏訓練數據問題的一個很有吸引力的選擇。首先,在源數據的幫助下,生成器呈現無限數量的合成目標數據,這些目標數據與合成源數據配對共享標籤,或者看起來好像它們是在維護標籤時從目標域採樣的,或者其他東西。然後,使用帶標籤的合成數據來訓練目標模型,就像不需要DA一樣。具有生成模型的基於對抗性的方法能夠以一種基於GAN的無監督方式學習這種轉換。CoGAN的核心思想是生成與合成源數據配對的合成目標數據(圖9)。它由一對GANs組成:用於生成源數據的GAN 1和用於生成目標數據的GAN 2。生成模型中前幾層的權重與判別模型中最後幾層的權重是綁定的。這種權重共享約束允許CoGAN在沒有對應監督的情況下實現域不變特徵空間。經過訓練的CoGAN可以將輸入的噪聲向量調整到來自兩個分佈的成對圖像上,並共享標籤。因此,可以利用合成目標樣本的共享標籤來訓練目標模型。

更多的工作集中在生成與目標數據相似的合成數據,同時維護註釋。Yoo等人利用GANs將源域的知識轉移到像素級目標圖像。一個域鑑別器保證了內容對源域的不變性,一個真/假鑑別器監督生成器產生與目標域相似的圖像。Shrivastava等人開發了一種用於模擬+無監督(S + U)學習的方法,該方法結合了最小化對抗性損失和自正則化損失的目標,其目標是使用未標記的真實數據提高合成圖像的真實性。與其它工作中只對噪聲矢量或源圖像設置條件的生成器不同,Bousmalis等人提出了一種利用對噪聲矢量或源圖像均設置條件的GANs的模型(圖10)。訓練分類器預測源圖像和合成圖像的類標籤,訓練鑑別器預測目標圖像和合成圖像的領域標籤。此外,爲了期望從相同的源圖像得到具有相似前景和不同背景的合成圖像,使用內容相似性來懲罰源和合成圖像之間的巨大差異,僅通過一個掩蔽的雙均方誤差。網絡的目標是通過求解優化問題來學習G, D, T:

                                    

其中,是控制損失之間權衡的參數。分別爲對抗性損失、softmax損失和內容相似損失。

               

  • 非生成模型

深度數據挖掘的關鍵是從源樣本和目標樣本中學習領域不變表示。有了這些表示,兩個域的分佈可以足夠相似,即使分類器是在源樣本上訓練的,也可以被愚弄並直接用於目標域。因此,表示形式是否混亂是知識傳遞的關鍵。受GAN的啓發,引入鑑頻器產生的域混淆損失,以提高無發生器深度DA的性能。領域對抗性神經網絡(DANN)將一個梯度反轉層(GRL)集成到標準架構中,以確保兩個領域上的特徵分佈相似(圖11)。該網絡由共享特徵提取層和兩個分類器組成。DANN通過使用GRL將域混淆損失最大化,同時最小化域混淆損失(對於所有樣本)和標籤預測損失(對於源樣本)。與上述方法相比,ADA通過解權值考慮了獨立的源和目標映射,目標模型的參數由預先訓練好的源初始化(圖12)。這更加靈活,因爲可以學習更多特定於領域的特性提取。ADDA通過迭代最小化以下函數來最小化源和目標表示距離,這與最初的GAN最相似:

                              

           

其中映射是從源和目標數據中學習的。C表示在源域上工作的分類器。第一個分類損失函數通過使用標記的源數據訓練源模型來優化。最小化第二個函數來訓練鑑別器,同時第三個函數學習一個域不變的表示。

Tzeng等人提出增加一個執行二進制域分類的域分類層,並設計了一個域混淆損失,以鼓勵其預測儘可能接近二進制標籤上的均勻分佈。與以往匹配整個源和目標域的方法不同,Cao等人引入了選擇性對敵網絡(SAN)來解決大域到小域的部分轉移學習,該方法假設目標標籤空間是源標籤空間的一個子空間。同時通過濾除離羣源類來避免負轉移,通過將域鑑別器分割成多個逐類域鑑別器來匹配共享標籤空間中的數據分佈,從而促進正轉移。Motiian等人對域標籤和類標籤進行編碼,生成四組對,並將典型的二值對抗性鑑別器替換爲四類鑑別器。Volpi等訓練了一個特徵生成器(S)在源特徵空間中進行數據增強,並通過對S中的特徵進行極大極小博弈得到了一個域不變量特徵。受Wasserstein GAN的啓發,Shen等人利用判別器估計源樣本與目標樣本之間的經驗Wasserstein距離,並優化特徵提取器網絡以對抗的方式使距離最小。在[97]中,我們將兩個分類器作爲鑑別器,訓練它們最大化差異來檢測源支持範圍之外的目標樣本,而訓練一個特徵提取器通過在支持範圍附近生成目標特徵來最小化差異。

4.1.3、基於重建的方法

在數據挖掘中,源樣本或目標樣本的數據重構是一項輔助任務,它同時關注於創建兩個域之間的共享表示,並保持每個域的單個特徵。

            

  • 編碼器和解碼器重建

自編碼器的基本框架是一個前饋神經網絡,包括編碼和解碼過程。自動編碼器首先將輸入編碼爲一些隱藏的表示,然後將這個隱藏的表示解碼爲重建的版本。基於編碼器-解碼器重構的DA方法通常通過共享編碼器學習域不變表示,並通過在源和目標域中丟失重構來維護域特殊表示。Glorot等人提出了基於堆疊去噪自動編碼器(SDA)提取高級表示。通過在同一網絡中重構各域數據的並集,高級表示可以同時表示源域和目標域數據。因此,在源域標記數據上訓練的線性分類器可以用這些表示對目標域數據進行預測。儘管它們取得了顯著的結果,但SDAs受到其高計算成本和缺乏高維特性的可伸縮性的限制。爲了解決這些關鍵的限制,Tsai和Chien提出了邊緣化SDA (mSDA),它通過線性去噪來邊緣化噪聲;因此,參數可以以封閉形式計算,而不需要隨機梯度下降。[60]中提出的深度重構分類網絡(DRCN)學習一種共享的編碼表示,該表示爲跨域目標識別提供了有用的信息(圖13)。DRCN是一種CNN架構,它結合了兩個管道和一個共享編碼器。在編碼器提供一個表示之後,第一個管道(即CNN)使用源標籤進行監督分類,而第二個管道(即反捲積網絡)使用目標數據進行非監督重建。

                     

其中,是一個超參數用來控制分類和重建之間的權衡。分別表示編碼器、解碼器和源分類器的超參數。是分類的交叉熵損失,是平方損失用來進行重建,其中是x的重建值。域分類網絡(DSNs)顯式地和聯合地對域表示的私有和共享組件建模。此外,共享解碼器通過私有和共享表示來學習重構輸入樣本。然後,在共享表示上訓練分類器。通過這樣劃分空間,共享的表示將不會受到特定於領域的表示的影響,從而可以獲得更好的傳輸能力。通過在分離網絡和自適應網絡中引入混合對抗學習,發現分離損失很簡單,且僅用於DSNs的重構加強了這種損失。Zhuang等人提出了使用深度自動編碼器(TLDA)進行遷移學習,TLDA由兩個編碼層組成。嵌入編碼層利用KL發散最小域間分佈的距離,利用標籤編碼層的軟最大損失對源域的標籤信息進行編碼。Ghifary等人將autoencoder擴展爲一個模型,該模型聯合學習來自相關領域的兩種類型的數據重建任務:一種是自域重建,另一種是域間重建。

  • 對抗重建

雙學習首先由He等人提出,用於減少自然語言處理中對標記數據的要求。雙元學習訓練了兩個“對立”的語言翻譯者,如A到B和B到A。兩個翻譯者代表一個原對偶對,評估翻譯的句子屬於目標語言的可能性有多大,而閉環則衡量重構的句子與原譯文之間的差異。受對偶學習的啓發,利用對偶甘斯算法在深度數據挖掘中採用對偶重構。Zhu等人提出了一種循環GAN,在沒有任何成對訓練示例的情況下,可以將一個圖像域的特徵轉換爲另一個圖像域(圖14)。與對偶學習相比,cycle GAN使用了兩個生成器而不是翻譯器,它們學習映射G: X→Y和逆映射F: Y→X。兩個鑑別器,D D X和Y,衡量實際生成的圖像(G (X)≈Y或G (Y)≈X)由一個敵對的損失和原始的輸入是如何重建後的序列兩代(F (G (X))≈X或G (F (Y))≈Y)通過一個週期的一致性損失(損失重建)。因此,G (X)(或F (Y))的圖像分佈與Y(或X)的分佈是不可區分的。

                                     

式中,爲判別器D Y對映射函數G: X→Y產生的對抗性損失。爲範數重建損失。dual GAN和disco GAN同時提出,其核心思想與cycle GAN相似。在dual GAN中,生成器在鏡像下采樣層和上採樣層之間配置了跳躍連接,使其成爲一個u形網絡來共享低級信息(例如,物體形狀、紋理、雜亂等等)。對於鑑別器,採用Markovian patch-GAN架構來捕獲局部高頻信息。在disco GAN中,可以使用均方誤差(MSE)、餘弦距離、鉸鏈損耗等各種形式的距離函數作爲重構損耗,利用網絡對圖像進行平移,改變指定的屬性,包括頭髮顏色、性別、方向等,同時保持其他所有分量。

            

4.4.1、混合方法

爲了獲得更好的性能,一些上述方法被同時使用。Tzeng等人結合了域混淆損失和軟標籤損失,而使用了統計量(MMD)和架構標準(殘差函數適應分類器)來進行無監督DA。Yan等將僞標籤分配的類特異性輔助權重引入到原始MMD中。在DSN, encoder-decoder重建方法單獨表示到私有和共享表示,雖然多準則或域混亂有助於使共享表示類似的損失和軟子空間正交約束確保私有和共享表徵之間的不同。Rozantsev等人使用了學習源和目標表示之間的MMD,並允許相應層的權重不同。Zhuang等人學習了通過編碼器-解碼器重構方法和KL散度的域不變表示。

4.2、異構的域適配

在異構DA中,源域和目標域的特徵空間並不相同,,而且特徵空間的維數也可能不同。根據特徵空間的發散性,可以將異質性DA進一步劃分爲兩種場景。在一個場景中,源和目標域都包含圖像,特徵空間的發散主要是由不同的感官設備(如可見光vs.近紅外(NIR)或RGB vs. depth)和不同的圖像風格(如草圖vs.照片)引起的。在另一個場景中,源和目標領域中存在不同類型的媒體(例如,文本和圖像以及語言和圖像)。顯然,第二個場景的跨域差距要大得多。採用淺層方法的異構數據挖掘主要分爲對稱變換和非對稱變換兩大類。對稱變換學習特徵變換,將源和目標特徵投影到公共子空間上。異構特徵增強(Heterogeneous feature augmentation, HFA)首先分別使用投影矩陣P和Q將源數據和目標數據轉換成公共子空間,然後提出了兩個新的特徵映射函數:

                                            

                                            

用原始特徵和零來擴充轉換後的數據。利用標準支持向量機在線性和非線性情況下都能找到這些投影矩陣,並提出了一種交替優化算法來同時求解對偶支持向量機和尋找最優變換。Wang和Mahadevan將每個輸入域視爲一個由拉普拉斯矩陣表示的流形,並使用標籤而不是對應來對齊流形。非對稱轉換轉換源特性和目標特性中的一個以使其與另一個一致。Zhou等人提出了一種稀疏且類不變的特徵變換矩陣,將學習到的分類器的權向量從源域映射到目標域。非對稱正則化跨域傳輸(ARCt)利用在高斯RBF核空間中學習的非對稱非線性轉換將目標數據映射到源域。從[109]開始,ARC-t進行了基於度量學習的非對稱轉換,通過正則化器的變化在具有不同維度的領域間傳遞知識。由於我們關注的是深度DA,我們將感興趣的讀者推薦給[20],它總結了異構DA的淺層方法。然而,對於深層方法,到目前爲止還沒有太多的工作集中在異構DA上。非均質深層數據挖掘尚未提出特殊而有效的方法,非均質深層數據挖掘仍與一些均質深層數據挖掘方法相似。

4.2.1、基於不符的方法

在基於離散的方法中,網絡通常共享或重用源域和目標域之間的前n層,從而將輸入的特徵空間限制在同一維。然而,在異構數據挖掘中,源域特徵空間的維數可能與目標域特徵空間的維數不同。在異構數據挖掘的第一種場景中,不同區域的圖像可以直接調整爲相同的維數,因此類準則和統計準則仍然是有效的,並被主要使用。例如,給定RGB圖像及其配對深度圖像,Gupta等利用CNN學習的中層表示作爲監控信號,對CNN進行深度圖像的再訓練。將RGB對象探測器轉換成RGB-D探測器不需要完成RGB-D數據,霍夫曼等。[111]首先訓練一個RGB網絡使用標記RGB數據從所有類別和整合網絡與部分類別標籤的深度數據,然後結合中層表示RGB和深度在fc6將模式到最終的對象類的預測。Mittal等人首先使用大型照片面部數據庫對網絡進行訓練,然後使用小型合成草圖數據庫對其進行微調;Liu等人[113]以同樣的方式將VIS深度網絡傳輸到近紅外域。在第二種情況下,不同介質的特徵不能直接調整成相同的尺寸。因此,如果沒有額外的過程,基於差異的方法就無法工作。Shu等人[81]提出了弱共享DTNs來跨異構域傳輸標記信息,特別是從文本域到圖像域。DTNs將成對的數據(如文本和圖像)作爲兩個sae的輸入,然後是頂部的弱參數共享網絡層。Chen等人[114]提出了傳輸神經樹(TNTs),它由兩個流網絡組成,用於學習每個模態的領域不變特徵表示。然後,使用轉移神經決策森林(transfer - ndf)[115,116]和隨機剪枝來適應預測層中的代表性神經元。

4.2.2、基於對抗的方法

使用生成模型可以在向異構目標數據傳輸源域信息的同時生成異構目標數據。Taigman等人採用複合損失函數,該函數由一個多類GAN損失、一個正則化分量和一個f-常性分量組成,將未標記的人臉照片轉換爲表情符號圖像。爲了生成基於文本的鳥和花圖像,Reed等人[118]訓練了一種基於混合字符級卷積-遞歸神經網絡編碼的文本特徵的GAN。Zhang等人提出了帶有條件增強的堆疊生成對抗網絡(StackGAN),用於從文本中合成逼真的圖像(圖15)。它將綜合問題分解爲幾個草圖-細化過程。StageI GAN繪製出物體的原始形狀和基本顏色,生成低分辨率圖像,而Stage-II GAN完成物體的細節,生成高分辨率逼真圖像。

4.2.3、基於重建的方法

對抗性重構同樣適用於異構數據挖掘。例如,cycle GAN、dual GAN和disco GAN使用了兩個生成器,分別從照片生成草圖和從草圖生成照片。基於cycle GAN, Wang等人提出了一種多對抗式網絡,通過利用生成子網絡中隱含的不同分辨率的特徵圖來避免面部照片草圖合成的僞影。

5、多步域適配

對於多步驟數據挖掘,中間域的選擇是問題特有的,不同的問題可能有不同的策略。

5.1、手工設計的方法

有時候,中間域可以通過經驗來選擇,即預先確定。例如,當源域是圖像數據,而目標域是由文本數據組成時,一些標註過的圖像顯然會被抓取爲中間域數據。基於夜間光強可以作爲經濟活動的代理這一常識,Xie等[65]利用一些夜間光強信息作爲中間域,將白天衛星圖像中的知識轉移到貧困預測中。

5.1、基於實例的方法

在其他中間候選域較多的問題中,需要考慮一些自動選擇準則。與Pan和Yang提出的實例轉移方法類似,由於源域的樣本不能直接使用,將源和目標數據的某些部分混合使用可以用於構建中間域。Tan等人提出了遠域轉移學習(DDTL),即遠域不能僅通過一箇中間域轉移知識,而可以通過多箇中間域進行關聯。DDTL通過對源域和中間域中選定的實例和目標域中所有實例同時最小化重構誤差,逐步從中間域中選擇未標記數據。去除不相關的源數據後,所選擇的中間域從源域逐漸向目標域靠攏:

                   

 

其中是源數據的重建,目標數據和最終的數據分別基於自編碼器。分別是編碼器和解碼器的參數。分別爲第i個源和中間實例的選擇因子。是一個正則化項,它避免了所有的爲零。在4.1.1節(幾何準則)中提到的DLID模型[50]用源和目標域的子集構造中間域,其中源樣本逐漸被目標樣本取代。

                                                 

5.3、基於重建的方法

基於表示的方法凍結之前訓練過的網絡,並使用它們的中間表示作爲新網絡的輸入。Rusu等人介紹了循序漸進的網絡,它有能力在一系列經驗中積累知識並將知識轉移到新的領域(圖16)。爲了避免目標模型失去解源域的能力,他們爲每個域構造了一個新的神經網絡,同時通過橫向連接以前學習的網絡的特徵來實現傳輸。在此過程中,對最新網絡中的參數進行凍結,以記住中間域的知識。

6、深度域適配的應用

近年來,深度DA技術已成功應用於許多實際應用中,包括圖像分類、目標識別、人臉識別、目標檢測、風格轉換等。在本節中,我們將介紹使用各種可視化深DA方法的不同應用示例。由於中提供了評估性能常用數據集的詳細信息,所以本文不作介紹。

6.1、圖像分類

由於圖像分類是計算機視覺應用的一項基本任務,上述大部分算法最初都是爲了解決這類問題而提出的。因此,我們不重複討論這個應用程序,但我們展示了深度DA方法可以給圖像分類帶來多少好處。由於不同的文獻在預處理步驟中使用不同的參數、實驗協議和調優策略,很難直接對所有方法進行公平的比較。因此,與Pan和Yang的工作類似,我們展示了所提出的深度DA方法與僅使用深度網絡的非自適應方法之間的比較結果。列出簡單的實驗從一些深DA提出了論文發表在表5。在[37],[79],[26],作者使用了Office-31數據集1的評價數據集,如圖1所示(一個)。辦公室的數據集是一個計算機視覺與圖像分類數據集從三個不同的領域:亞馬遜(A),數碼單反相機(D),攝像頭(W)。最大的領域是Amazon,它有2817張帶標籤的圖片和31個相應的類,這些類包含在辦公設置中經常遇到的對象。通過使用這個數據集,前面的工作可以顯示方法在所有6個可能的DA任務中的性能。Long等[37]對標準AlexNet[8]、DANN方法[55]、MMD算法及其變體DDC[39]、DAN[38]、JAN[37]、RTN[32]進行了對比實驗。Zellinger等人[79]評價了他們提出的CMD算法,並將其與其他基於離散的方法(DDC、deep CROAL[41]、DLID[50]、AdaBN[44])和基於對立的方法DANN進行了比較。Tzeng et al.[26]提出了一種結合軟標籤丟失和域混淆丟失的算法,並將其與DANN和DLID在監督DA設置下進行了比較。在[58]中,MNIST 2 (M), usps3 (U)和SVHN 4 (S)數字數據集。16. 採用漸進網絡架構[66](如圖1 (b)所示)進行跨域手寫數字識別任務,實驗給出了一些基於反向的方法的比較結果,如DANN、CoGAN[51]和ADDA[58],其中基線爲VGG-16[12]。

6.2、人臉識別

當測試圖像中出現訓練圖像中沒有的變化時,人臉識別的性能會顯著下降。數據集的移動可能由姿勢、分辨率、光照、表情和模態引起。Kan等人提出了一種雙移位自動編碼器網絡(BAE),用於跨視角、種族和成像傳感器的人臉識別。BAE將源域樣本移到目標域,利用目標域的幾個局部鄰域進行稀疏重構以保證其校正,反之亦然。[122]中的單樣本每人域適應網絡(Single sample per person domain adaptive network, SSPP-DAN)通過生成不同姿態的合成圖像來增加源域的樣本數量,並在現實人臉識別中通過GRL對敵訓練來彌補合成圖像和源域之間的差距(圖17)。Sohn等人對大規模未標記視頻、標記靜止圖像和合成圖像使用了一種基於逆反的方法,提高了視頻人臉識別的性能。考慮到年齡差異是微笑檢測的困難問題,以及基於當前基準訓練的網絡在幼兒身上表現不佳,Xia等人[123]將DAN[38]和JAN[37](在4.1.1節中提到)應用於兩個基線深度模型,即、AlexNet和ResNet,將成年人的知識傳遞給嬰兒。

6.3、目標檢測

近年來,基於區域的卷積神經網絡(R-CNNS, Fast R-CNNs和Faster R-CNNs)推動了目標檢測的進展。它們由窗口選擇機制和分類器組成,分類器使用從網絡神經網絡中提取的特徵預先訓練標記的邊界框。在測試時,分類器判斷滑動窗口獲得的區域是否包含該對象。雖然R-CNN算法是有效的,但是訓練每個檢測類別需要大量的邊界盒標記數據。爲了解決缺少標記數據的問題,考慮到窗口選擇機制是域獨立的,可以在分類器中使用深度DA方法來適應目標域。

                  

 

因爲R-CNNs在區域上的分類器就像分類一樣,弱標記數據(如圖像級類標籤)對檢測器是直接有用的。大部分工作學習的是有限邊界框標記數據和大量弱標記數據的檢測器。LSDA (large-scale detection through adaptive, LSDA)針對目標域訓練一個分類層,然後使用預先訓練好的源模型和輸出層自適應技術直接更新目標分類參數。Rochan和Wang利用詞向量建立弱標記源對象與目標對象之間的語義相關性,然後根據源對象的相關性將邊界框標記的信息轉移到目標對象。Tang等[128]在[126]和[127]的基礎上,將視覺(基於LSDA模型)和語義相似(基於工作向量)轉移到弱標記類別上訓練目標檢測器。Chen等人[129]在faster R-CNN中加入了圖像級和實例級的自適應組件,並基於對抗性訓練將域差異最小化。通過使用源域的邊界框標記數據和目標域的弱標記數據[130],逐步對帶有域轉移樣本和僞標記樣本的預訓練模型進行微調。

6.4、語義分割

用於稠密預測的全卷積網絡模型(FCNs)在評估語義分割方面已經被證明是成功的,但在域移位的情況下,其性能也會下降。因此,一些工作也在探索使用弱標籤來提高語義分割的性能。Hong等人使用了一種新穎的帶注意力模型的編解碼器架構,在源域傳輸弱類標記知識,而傳輸弱目標定位知識。語義切分中的深度無監督DA也受到了廣泛的關注。Hoffman等人首先介紹了它,使用基於逆反訓練的FCNs進行全局域對齊,利用類感知約束多實例丟失實現空間佈局轉移(圖18)。Zhang等利用虛擬圖像提高了對真實圖像的分割性能。該算法利用圖像的全局標籤分佈丟失和目標域中的地標超像素的局部標籤分佈丟失,有效地規範了語義分割網絡的微調。Chen等提出了跨城市語義分割的框架。該框架對目標域內的像素/網格分配僞標籤,並通過域對抗式學習聯合使用全局對齊和類對齊來最小化域偏移。目標引導的蒸餾模塊通過模仿預訓練的源網絡來適應真實圖像的風格,空間感知適應模塊利用固有的空間結構來減少領域的發散。不是在特徵空間上操作一個簡單的敵對目標,[138]使用GAN來處理域轉移,即生成器將特徵投射到圖像空間,識別器在這個投影的圖像空間上操作。

                                   

6.5、圖像到圖像翻譯

近年來,隨着深度數據挖掘技術的發展,圖像到圖像的翻譯取得了很大的成功,並應用於風格轉換等各種任務中。特別地,當源圖像和目標圖像的特徵空間不一致時,需要採用異構DA進行圖像到圖像的轉換。更多的圖像到圖像的轉換方法使用成對的圖像數據集,並將DA算法納入生成網絡。Isola等人提出了pix2pix框架,它使用一個條件GAN來學習從源圖像到目標圖像的映射。在PR2機器人中,Tzeng等人利用域混淆損失和成對損失使仿真數據適應於真實數據。然而,其他一些方法也解決了非配對設置,如CoGAN , cycle GAN, dual GAN和disco GAN。通過微調深度網絡來匹配統計分佈是實現圖像到圖像轉換的另一種方法。Gatys等對CNN進行了微調,通過total loss來實現DA, total loss是內容和風格loss之間的線性組合,使目標圖像按照保留內容的源圖像的風格渲染。內容損失使原始圖像和上層生成圖像的特徵表示的均方差最小,而風格損失使原始圖像和上層生成圖像的特徵表示的各元素間的均方差最小。[46]證明了匹配特徵映射的Gram矩陣等價於最小化MMD。與MMD不同的是,Li等人[42]提出了一種深度生成相關比對網絡(DGCAN),該網絡通過將內容和珊瑚損失應用於不同的層,將CAD合成圖像和真實圖像之間的域差異連接起來。

6.6、行人再識別

在社會上,重新識別身份(re-ID)變得越來越流行。當給定一個人的視頻序列時,AAA識別這個人是否在另一個攝像機中,以彌補固定設備的限制。最近,當在一個數據集上訓練的模型直接用於另一個數據集時,深層DA方法被用於re-ID。Xiao et al.提出了域引導的dropout算法來剔除無用的神經元,用於同時在多個數據集中重新識別人員。受cycle GAN和Siamese網絡的啓發,相似度保留生成對抗網絡(SPGAN)以無監督的方式將標記的源圖像轉換到目標域,保持自相似度和域異度,然後利用監督特徵學習方法對翻譯後的圖像進行Re-ID模型訓練。

6.7、圖像描述

近年來,圖像字幕技術是計算機視覺和自然語言處理領域面臨的新挑戰。由於缺乏成對的圖像-句子訓練數據,DA利用其他源域的不同類型的數據來解決這一挑戰。Chen等人提出了一種新的對抗訓練程序(captioner v.s. critics),用於使用成對的源數據和未成對的目標數據進行跨域圖像字幕。一種是對句子風格從源語域到目的語域的調整,而兩種批評家,即領域批評家和多模態批評家,則是爲了區分它們。Zhao等人利用雙重學習機制對目標域中有限數據的預訓練源模型進行了微調。

7、結論

從廣義上講,深度DA是利用深度網絡來提高DA的性能,如利用深度網絡提取特徵的淺DA方法。在狹義上,深度數據挖掘是基於深度學習架構設計的數據挖掘和優化反向傳播。在這篇綜述論文中,我們關注這個狹義的定義,並且回顧了關於可視化分類任務的深度DA技術。深度DA分爲同質DA和異構DA,並進一步分爲監督、半監督和非監督設置。第一種設置是最簡單的,但通常由於需要標記數據而受到限制;因此,大多數以前的工作集中在無監督的情況下。半監督深度DA是一種混合方法,結合了監督和非監督設置的方法。此外,考慮到源域和目標域之間的距離,深度數據挖掘方法可以分爲一步數據挖掘和多步數據挖掘。當距離較小時,可以根據訓練損失使用一步數據挖掘。它包括基於差異的方法、基於對立的方法和基於重構的方法。當源域和目標域沒有直接關聯時,可以使用多步驟(或傳遞)DA。多步驟數據挖掘的關鍵是對中間域的選擇和利用,因此可以分爲三類:手工選擇機制、基於特徵的選擇機制和基於表示的選擇機制。雖然深度DA最近取得了成功,但仍有許多問題有待解決。首先,現有的算法大多集中於同構深度數據挖掘,假設源域和目標域之間的特徵空間是相同的。然而,這一假設在許多應用中可能並不正確。我們希望在沒有這種嚴重限制的情況下傳遞知識,並利用現有數據集來幫助完成更多任務。異構深度數據挖掘在未來可能會受到越來越多的關注。此外,深度DA技術已成功應用於許多實際應用中,包括圖像分類和風格轉換。我們還發現,只有少數論文在分類和識別之外解決了自適應問題,如目標檢測、人臉識別、語義分割和人的再識別。如何在沒有或非常有限的數據量的情況下完成這些任務,可能是深度DA在未來幾年應該解決的主要挑戰之一。最後,由於現有的深度DA方法以對齊邊緣分佈爲目標,它們通常假定源域和目標域共享標籤空間。但是,在實際的場景中,源和目標域的映像可能來自不同的類別集,或者只有少數感興趣的類別是共享的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章