題目：Meta-Learning in Neural Networks: A Survey

論文地址：https://arxiv.org/abs/2004.05439

作者：Timothy Hospedales, Antreas Antoniou, Paul Micaelli, Amos Storkey

發表： In arXiv 2020.

代碼：無

https://zhuanlan.zhihu.com/p/133159617

https://www.cnblogs.com/zhengzhicong/p/12952354.html

論文翻譯

摘要：

元學習（學會學習）領域近年來的興趣急劇上升。與傳統的人工智能方法相反，傳統的人工智能方法是使用固定的學習算法從頭開始解決給定的任務，元學習旨在改進學習算法本身，考慮到多次學習的經驗。這個範例提供了一個機會來解決深度學習的許多傳統挑戰，包括數據和計算瓶頸，以及泛化的基本問題。在這項調查中，我們描述了當代元學習景觀。我們首先討論元學習的定義，並將其定位於相關領域，如遷移學習、多任務學習和超參數優化。然後我們提出一個新的分類方法，提供了一個當今更全面的細分空間的元學習方法。我們調查了元學習的有希望的應用和成功案例，包括少樣本學習，強化學習和架構搜索。最後，我們討論了未來研究的突出挑戰和有希望的領域。

1 引言

現代機器學習模型通常是使用手工設計的固定學習算法，針對特定任務從零開始進行訓練。基於深度學習的方法在[各個領域都取得了巨大的成功。然而，還有明顯的侷限性。例如，在可以收集或模擬大量數據的領域以及可以使用大量計算資源的領域取得了很大的成功。這排除了許多應用程序，這些應用程序中的數據本質上是稀有的或昂貴的或者計算資源不可用。
       元學習提供了另一種範例，機器學習模型可以在多個學習情景中獲得經驗——通常覆蓋相關任務的分佈——並使用這種經驗來改進未來的學習性能。這種“學會學習”可以帶來各種各樣的好處，比如數據和計算效率，它更適合人類和動物的學習，在人類和動物的一生和進化時間尺度中，學習策略都得到了改進。機器學習在歷史上建立的模型是基於手工設計的特性，而特性的選擇往往是最終模型性能的決定因素。深度學習實現了聯合特徵和模型學習的承諾，爲許多任務提供了巨大的性能提升。在神經網絡中，元學習可以看作是爲了提供下一步的集成聯合特徵、模型和算法學習。神經網絡元學習有着悠久的歷史。然而，其作爲推動當代深度學習行業前沿的驅動力的潛力，導致了近期研究的爆炸式增長。特別是，元學習有可能緩解當代深度學習的許多主要批評，例如通過提供更好的數據效率，利用先驗知識轉移，以及實現無監督和自我指導的學習。成功的應用已經在多個領域得到了證明，包括小樣本圖像識別、無監督學習、數據高效和自定向強化學習(RL)、超參數優化和神經結構搜索(NAS)。
       關於元學習的許多不同觀點可以在文獻中找到。特別是因爲不同的社區對這個術語的使用有所不同，所以很難定義它。與我們相關的一個觀點認爲元學習是管理“沒有免費午餐”定理的工具，並通過搜索最適合給定問題或問題族的算法(歸納偏差)來改進泛化。然而，從廣義上來說，這個定義可以包括遷移、多任務、特徵選擇和模型集成學習，這些在今天通常不被認爲是元學習。另一個關於元學習的觀點廣泛地涵蓋了基於數據集特性的算法選擇和配置技術，並且很難與自動機器學習(AutoML)區分開來。在這篇論文中，我們關注當下的神經網絡元學習。我們將其理解爲算法或歸納偏差搜索，但重點是通過對明確定義的目標函數(如交叉熵損失、準確性或速度)的端到端學習來實現的。
       因此，本文提供了一個獨特的，及時的，最新的調查神經網絡元學習領域的快速增長。相比之下，以前的研究在這個快速發展的領域已經相當過時，並且/或專注於數據挖掘、AutoML的算法選擇，或元學習的特定應用，如少樣本學習或神經結構搜索。
       我們同時討論元學習方法和應用。特別是，我們首先提供了一個高層次的問題形式化，可以用來理解和定位最近的工作。然後，我們在元表示、元目標和元優化器方面提供了一種新的方法分類。我們調查了幾個流行的和新興的應用領域，包括few-shot、強化學習和架構搜索;並將元學習與遷移學習、多任務學習和自動學習等相關主題聯繫起來。最後，我們討論了未來研究的突出挑戰和領域。

2 背景

元學習很難定義，它已經以各種不一致的方式被使用，甚至在當代的神經網絡文獻中也是如此。在本節中，我們將介紹我們的定義和關鍵術語，旨在幫助理解大量文獻。然後，我們將元學習定位於相關的主題，如遷移和多任務學習、層次模型、超參數優化、終身/持續學習和自動學習。
元學習通常被理解爲學會學習，它指的是在多個學習階段改進學習算法的過程。相比之下，傳統的ML考慮的是在多個數據實例上改進模型預測的過程。在基本學習過程中，內部(或更低的、基本)學習算法解決由數據集和目標定義的圖像分類等任務。在元學習過程中，外部(或上部、元)算法對內部學習算法進行更新，從而使內部算法學習的模型改進了外部目標。例如，這個目標可以是泛化性能或內部算法的學習速度。基本任務的學習階段，即(基本算法、訓練模型、性能)元組，可以看作是提供外部算法學習基本學習算法所需要的實例。
正如上面所定義的，許多傳統的機器學習實踐，如交叉驗證的隨機超參數搜索，可能屬於元學習的定義範圍。當代神經網絡元學習的顯著特徵是明確定義的元級目標，以及與此目標相關的內部算法的端到端優化。元學習通常是對從一個任務族中抽取的學習片段進行操作，從而形成一個基礎學習算法，該算法可以在從這個任務族中抽取的新任務中很好地執行。當學習新任務時，這是一種特別強大的技術，可以提高數據效率。然而，在極限情況下，所有訓練片段都可以從單個任務中採樣。在下一節中，我們將更正式地介紹這些概念。

2.1 形式化元學習

傳統的機器學習：在傳統的監督機器學習中，我們得到了訓練數據集D={(x1，y1)，...，(xN，yN)}，例如（輸入圖像、輸出標籤）對。我們可以yˆfθ(X)p訓練一個預測模型通過θ，通過解決：

其中L是一個損失函數，它通過fθ（·）度量真實標籤與預測的標籤之間的匹配。我們包括條件ω顯式的依賴這個解決方案等因素的優化器選擇θ或函數f類,我們通過ω表示。然後，通過評估一些帶有已知標籤的測試點來度量泛化。
傳統的假設是對每一個問題D都從頭開始進行優化，而且ω是預先指定的。然而，“如何學習”θ的規範ω會顯著影響泛化、數據效率、計算成本等。元學習通過學習學習算法本身來提高性能，而不是假設它是預先指定和固定的。這通常（但並非總是）通過重新審視上述第一個假設，並從任務的分佈中學習而不是從頭開始來實現。

元學習：任務分配觀 元學習旨在通過學習“如何學習”來提高績效。具體來說，目標通常是學習一種通用的學習算法，這種算法可以泛化任務，並且理想情況下能夠更好地學習每個新任務。因此ω指定“如何學習”,通常是評估在性能方面在p (T)分配任務。這裏，我們鬆散地將任務定義爲數據集和丟失函數T = {D,L}。學習如何學習，因此成爲

其中L(D；ω)測量使用數據集D上的ω訓練的模型的性能。“如何學習”的知識ω通常被稱爲跨任務知識或元知識。

爲了在實踐中解決這個問題，我們通常假設訪問從p(T)採樣的一組源任務，我們ω學習這些任務。形式上，我們表示元訓練中使用的M源任務集階段爲Dsource=，其中每個任務都有訓練和驗證數據。通常，源序列和驗證數據集分別稱爲支持集和查詢集。元知識由ω表示,“學習如何學習”的meta-training一步是:

現在我們將元測試階段使用的Q目標任務集合表示爲, 其中每個任務都有訓練和測試數據。在測試階段，我們使用學習的元知識來訓練每個以前看不見的目標任務i的基礎模型：

公式1相比傳統學習,學習訓練集的目標任務i現在受益於元知識ω對要使用的算法。這可能採取的初始參數估計的形式,在這種情況下,ω和θ是相同的大小的對象指的是相同的數量。然而,ω可以更廣泛的編碼其他對象,如整個學習模型或優化策略。最後,我們可以評估θ*的表現準確性的meta-learner性能。
這種設置導致了傳統的欠擬合和過擬合的類比：元欠擬合和元過擬合。特別是，元過度擬合是一個問題，在源任務上學習的元知識不會泛化到目標任務。這是比較常見的，特別是在只有少量源任務可用的情況下。就元學習作爲歸納偏誤學習而言，元過擬合對應於學習歸納偏誤ω，它將θ的假設空間限制在源任務的解周圍太緊。
元學習：雙層優化觀 前面的討論概述了在多任務場景中元學習的一般流程，但沒有具體說明如何解決公式3中的元訓練步驟。這通常是通過將元訓練步驟轉化爲一個雙層優化問題來實現的。雖然這張圖可能只對基於優化器的方法是準確的（見第3.1節），但它有助於更普遍地可視化元學習的機制。雙層優化是指一個層次優化問題，其中一個優化包含另一個優化作爲約束。使用這種符號，元訓練可以形式化如下：

其中Lmeta和Ltask分別指外部目標和內部目標，如交叉熵在少樣本分類的情況下。雙層範式的一個關鍵特徵是內外層的主從不對稱：內層優化方程6是以外層定義的學習策略ω爲條件的，但在訓練過程中不能改變ω。
這裏ω可以表示非凸優化中的初始條件、正則化強度等超參數，甚至可以表示優化Ltask的損失函數的參數化。第4.1節詳細討論了ω的選擇空間。外層優化訓練學習策略ω，使其產生在訓練後在其驗證集上表現良好的模型θ*(i)(ω)。第4.2節詳細討論瞭如何優化ω。注意，雖然Lmeta可以測量簡單的驗證性能，但我們將看到它也可以測量更細微的量，如第4.3節中討論的學習速度和模型穩健性。
最後，我們注意到上述元訓練的形式化使用了任務上分佈的概念，並使用了來自該分佈的M個樣本。雖然這是強大的，並廣泛應用於元學習文獻，但它不是元學習的必要條件。更正式地說，如果給我們一個單獨的訓練和測試數據集，我們可以分割訓練集以獲得驗證數據，以便Dsource=（Dtrain ，Dval）用於元訓練，對於元測試，我們可以使用Dtarget=（Dtrain∪Dval，Dtest）。雖然元訓練中通常使用不同的訓練值分割，但我們仍然可以通過幾次學習ω，可以認爲M=Q=1。

元學習：Feed-Forward模型視圖 正如我們將看到的，有許多元學習方法以前饋的方式綜合模型，而不是像上面的Eqs.5-6那樣通過顯式的迭代優化。雖然它們的複雜程度各不相同，但通過例示等式2中的抽象目標來定義元訓練線性迴歸的一個玩具示例，瞭解這一系列方法是有指導意義的[45]。

這裏我們可以看到，我們通過優化任務的分佈來進行元培訓。對於每個任務，繪製一個培訓和驗證(即查詢和支持)集。火車預計Dtri嵌入到一個向量gω它定義了線性迴歸權重預測例子x來自上面的測試集,優化目標從而“學習如何學習”培訓功能gω實例化一個學習算法訓練集映射到一個權重向量。因此如果一個新穎的meta-test任務Tte是從p (T)我們也期望gω提供一個好的解決方案。這個家族中的不同方法在使用的預測模型的複雜性(它們實例化的參數g)和支持集的嵌入方式(例如，通過簡單池、CNN或RNN)上各不相同。

2.2元學習的歷史背景

元學習最早出現在1987年的文獻中，是J. Schmidhuber和G. Hinton和的兩篇獨立作品。Schmidhuber[17]爲一組新的學習方法設置了理論框架，這些方法可以使用自參照學習來學習。自向學習包括訓練神經網絡，使其能夠接收自己的權重並預測所述權重的更新。Schmidhuber進一步提出模型本身可以用進化算法來學習。Hinton et al.提出對每個神經網絡連接使用兩個權值，而不是一個。第一個權重是標準的慢權重，它通過優化器更新緩慢地獲取知識(稱爲慢知識)，而第二個權重或快速權重在推理期間快速地獲取知識(稱爲快速知識)。快速權重的職責是能夠消除模糊或恢復過去學習的緩慢權重，這些權重由於優化器更新而被遺忘。這兩篇論文都介紹了一些基本概念，這些概念後來延伸並引發了當代元學習。
在引入元學習之後，我們可以看到這個概念在多個不同領域的使用迅速增加。Bengio et al.提出了嘗試元學習的系統，生物上看似合理的學習規則。Schmidhuber等人在隨後的工作中繼續探索自我參照系統和元學習。S. Thrun等人在[8]中創造了“學習學習”一詞作爲元學習的替代，並繼續探索和剖析元學習中可用的文獻，以尋找一個通用的元學習定義。使用梯度下降和反向傳播來訓練元學習系統的建議在2001年首次提出。在之後不久，對元學習文獻的其他綜述也出現了。元學習最早在Schweighofer等人的著作中用於強化學習。之後，Larochelle等人在零起點學習中首次使用元學習。最終在2012年Thrun等人重新引入了現代深度神經網絡時代的元學習，這標誌着這一類型的現代元學習的開始
元學習還與分組數據統計中的分層和多級模型的方法密切相關。在這樣的層次模型中，分組的數據元素用組內模型建模，組間的差異用組間模型建模。在機器學習文獻中，這種層次模型的例子包括潛在的Dirichlet分配及其變體等主題模型。在主題模型中，新文檔的模型從文檔的數據中學習;該模型的學習是以已經從整個語料庫中學習的主題集爲指導的。分層模型將在第2.3節中進一步討論。

2.3 相關領域

在這裏，我們將元學習與相關領域進行對比，這通常是文獻中混亂的根源。
       遷移學習TL使用源任務的過去經驗來改進目標任務的學習(速度、數據效率、準確性)——通過遷移來自前一個任務的解決方案的先驗參數、初始條件或特徵提取器。TL指的是對問題領域的努力。在當代的神經網絡環境中，它通常指的是參數傳遞和可選微調的特定方法(儘管有許多其他方法來解決這個問題)。
       TL指的是一個問題領域，而元學習指的是一種可以用來改進TL和其他問題的方法。TL作爲一種方法論與元學習是有區別的，因爲前者是由源任務的學習在不使用元目標的情況下提取出來的。在元學習中，相應的先驗由外部優化定義，該優化評估先驗在幫助學習新任務時的執行情況，如MAML所示。更一般地說，元學習處理的元表示範圍要比單獨處理模型參數大得多(4.1節)。
       域適應(DA)和域泛化(DG)  域轉移是指源任務和目標任務具有相同的類，但目標任務的輸入分佈相對於源任務發生了轉移，導致轉移後模型性能下降的情況。DA是遷移學習的一種變體，它嘗試通過使用來自目標的稀疏或未標記的數據調整源訓練的模型來緩解這個問題。DG指的是訓練源模型在沒有進一步調整的情況下對這種領域轉移具有魯棒性的方法。研究在目標域傳遞知識、提高性能的方法很多。然而，對於TL，普通的DA和DG是不同的，因爲沒有優化跨域“如何學習”的元目標。同時，元學習方法可以同時執行DA和DG，我們將在第5.9節中介紹。
       不斷學習 (CL)  持續終生學習指的是從潛在的非平穩分佈中提取的一系列任務的學習能力，特別是在加快學習新任務的同時，不忘記舊任務。它與任務分配有關，並且目標部分是爲了加速對目標任務的學習。然而，大多數持續學習方法不是元學習方法，因爲這個元目標沒有明確地解決。然而，元學習爲促進持續學習提供了一個潛在的框架，最近一些研究已經開始通過開發編碼持續學習性能的元目標來實現這一目標。
       多任務學習(MTL)  目的是共同學習幾個相關的任務，並受益於參數共享和由此產生的共享表示的多樣性帶來的正則化效果。像TL、DA和CL一樣，傳統的MTL是沒有元目標的單層優化。此外，MTL的目標是解決固定數量的已知任務，而元學習的要點通常是解決看不見的未來任務。儘管如此，元學習也可以爲MTL帶來好處，例如通過學習任務之間的相關性，或者如何在多個任務之間區分優先級。
       超參數優化(HO)  屬於元學習的範疇，因爲學習速率或正則化強度等超參數可以包含在“如何學習”的定義中。在這裏，我們專注於HO任務，定義一個元目標，是訓練端到端與神經網絡。這包括HO中的一些工作，如基於梯度的超參數學習和神經結構搜索。但是我們排除了其他方法，如隨機搜索和貝葉斯超參數優化，這些方法很少被認爲是元學習。 層次貝葉斯模型(HBM)涉及先驗p（θ|ω)下θ參數的貝葉斯學習。先驗被寫爲其他變量的條件密度ω它有自己的先驗p（ω）。層次貝葉斯模型強烈地作爲分組數據D={Di|i的模型=1，2，...，M}，其中每個組i都有自己的θi。

全模型爲層次結構的層次可以進一步增加，特別是ω本身可以參數化，因此可以學習p（ω）。

學習通常是全過程的，但使用某種形式的貝葉斯邊緣化來計算ω：

邊緣化的容易程度取決於模型：在某些情況下（如潛在的Dirichlet分配），由於選擇共軛指數模型，邊緣化是精確的，在其他情況下，使用隨機變分方法來計算近似的後驗值，從中計算出邊際似然的下界。
貝葉斯層次模型爲元學習提供了一個有價值的觀點，因爲它們爲理解元學習過程提供了一個建模而不是算法框架。在實踐中，貝葉斯層次模型的前期工作通常集中在學習簡單易處理的模型θ；然而，大多數元學習工作考慮複雜的內環學習過程，涉及許多迭代。然而，一些元學習方法如MAML[19]可以通過HBMs[72]的視角來理解。
自動機器學習 AutoML是一個相當廣泛的方法，旨在自動化機器學習過程中典型的手動部分，如數據準備和清理、特徵選擇、算法選擇、超參數調整、架構搜索等。AutoML經常使用許多不在本文定義的元學習範圍內的啓發式方法，並處理諸如數據清理之類對元學習不太重要的任務。然而，AutoML有時會使用元學習，正如我們在這裏定義的那樣，它是對元目標的端到端優化，因此元學習可以看作是AutoML的一種專門化。

3 分類法

3.1 以前的分類法

以前的元學習方法分類傾向於在基於優化的方法、基於模型（或黑盒）的方法和基於度量（或非參數）的方法之間產生一種三向分類法。
       優化  基於優化的方法包括那些將內部任務（等式6）作爲優化問題直接求解的方法，並且側重於提取提高優化性能所需的元知識ω。其中最著名的可能是MAML，其中元知識ω是內部優化中模型參數的初始化，即θ0。我們的目標是學習θ0，以便在少量的訓練實例上使用少量的內部步驟生成一個在驗證數據上性能良好的分類器。這也可以通過梯度下降來實現，通過對基礎模型的更新來區分。更詳細的方法還可以學習步長或訓練遞歸網絡來預測梯度中的步長。通過梯度進行的元優化導致有效評估昂貴的二階導數和通過潛在的數千個內部優化步驟的圖進行區分的挑戰（見第6節）。由於這個原因，它通常應用於很少的鏡頭學習，其中很少的內環步驟可能是足夠的。
       黑盒/基於模型  在基於模型（或黑盒）的方法中，內部學習步驟（等式6，等式4）被包裹在單個模型的前饋過程中，如等式7所示。該模型將當前數據集D嵌入激活狀態，並根據該狀態對測試數據進行預測。典型的體系結構包括遞歸網絡、卷積網絡或超網絡，它們嵌入給定任務的訓練實例和標籤，以定義輸入測試示例並預測其標籤的預測器。在這種情況下，所有的內部學習都包含在模型的激活狀態中，並且完全是前饋的。外部層學習由包含CNN、RNN或超網絡參數的ω執行。當ω直接指定θ時，內外層優化緊密耦合。記憶神經網絡使用顯式存儲緩衝區，也可以用作基於模型的算法。據觀察，與基於優化的方法相比，基於模型的方法通常不太能夠推廣到分佈外任務。此外，儘管他們通常非常擅長數據有效的少量學習，但他們被批評爲漸弱，因爲不清楚黑箱模型能否成功地將一個大的訓練集嵌入到一個豐富的基礎模型中。
       度量學習  到目前爲止，度量學習或非參數算法在很大程度上侷限於元學習的流行而具體的少量應用（第5.1.1節）。其思想是通過比較驗證點和訓練點並預測匹配訓練點的標籤，在內部（任務）級別執行非參數“學習”。按照時間順序，這是通過孿生網絡、匹配網絡、典型網絡、關係網絡和圖形神經網絡等方法實現的。在這裏，外層學習對應於度量學習（尋找將數據編碼爲適合比較的表示的特徵提取器ω）。如前所述，ω在源任務上學習，並用於目標任務。
       討論  以上所述的常見分類並沒有暴露出興趣的所有方面，也不足以理解當今各種各樣的元學習框架之間的聯繫。因此，在下面的小節中，我們提出了元學習方法的一個新的交叉細分。

3.2 擬議分類法

我們沿着三個獨立的軸引入一個新的分類。對於每個軸，我們都提供了反映當前元學習環境的分類法。
       元表示（“什麼？”)  第一個軸是元知識ω表示的選擇。這可以將用於優化器初始化的模型參數的估計擴展到程序歸納的可讀代碼[89]。注意，基本模型表示θ通常是特定於應用的，例如計算機視覺中的卷積神經網絡（CNN）。
       元優化器（“如何？”)  第二個軸是在元訓練(見等式5)1期間用於外部水平的優化器的選擇。ω的外層優化器可以有多種形式，從梯度下降，到強化學習和進化搜索。
       元目標（“爲什麼？”)  第三個軸是元學習的目標，它由元目標Lmeta（等式5）、任務分佈p（T）和兩個層次之間的數據流的選擇決定。它們可以一起爲不同的目的定製元學習，例如樣本有效的少樣本學習快速多樣本優化或對域移位的魯棒性、標籤噪聲和對抗攻擊。

4 調查：方法

在本節中，我們根據我們提出的新方法分類法對現有文獻進行了分類。

1. 相反，θ的內級優化器(Eq。 6)可以由手頭的應用程序指定(例如，在圖像識別的情況下，交叉熵損失的梯度下降監督學習[1]，或在持續控制[90]的情況下進行策略梯度強化學習)。

4.1 元表示

元學習方法對ω應該是什麼做出不同的選擇，即學習策略的哪些方面應該被學習；以及（通過排除）哪些方面應該被認爲是固定的。
       參數初始化  在第一類方法中，ω對應於神經網絡的初始參數。在MAML中，這些被解釋爲內部優化的初始條件。一個好的初始化過程離從p（T）得到的任何任務T的解只有幾個梯度步驟。這些方法廣泛應用於少量樣本學習，在給定這樣一個精心選擇的初始條件的情況下，目標問題可以在不使用過多示例的情況下學習。這種方法的一個關鍵挑戰是，外部優化需要求解與內部優化一樣多的參數（在大型cnn中可能有數億個）。這導致了一系列的工作，分離一個子集的參數元學習。例如按子空間、按層或通過分離比例和移位。雖然內環初始化是元表示的一種流行和有效的選擇，但這裏的一個關鍵爭論是，一個初始條件是否足以爲廣泛的潛在任務提供快速學習，還是僅限於相當窄的p（T）分佈。這導致了在多個初始條件下模擬混合的變體。
       優化器  上述以參數爲中心的方法通常依賴於現有的優化器，如帶動量的SGD或Adam，以便在給定某個新任務時細化初始化。而不是依靠手設計的優化,優化器爲中心的方法關注學習的內部優化器訓練一個函數作爲輸入優化狀態如θ和∇θLtask和生產優化步驟在每個基礎學習迭代。可訓練的組件ω可以跨越簡單的超參數如固定步長,更復雜的預處理矩陣。基於最終ω可以用來定義一個完整的梯度優化器在某種意義上定義一個複雜的非線性轉換輸入的梯度和其他元數據。如果優化器跨權重進行協調應用，這裏要學習的參數可能很少。以初始化爲中心的方法和以優化爲中心的方法可以通過聯合學習來合併，即讓前者學習後者的初始條件。優化學習方法已被應用於少樣本學習[41]和加速和改善多樣本學習。最後，人們還可以元學習黑盒零序優化器，它只需要Ltask的評估，而不需要梯度等優化器狀態。這些方法已經被證明可以與傳統的貝葉斯優化方法相媲美。
       黑盒模型（循環、卷積、超網絡）  另一類模型訓練學習者ω，學習者ω直接提供從支持集到分類測試實例所需參數的前向映射，即θ=gω（Dtrain），而不是依賴於θ的梯度（或零階）迭代優化。它們對應於傳統分類法中基於黑盒模型的學習（第3.1節）。嵌入支持集通常通過遞歸網絡或卷積來實現。
       這些方法與超網絡有很強的聯繫。超網絡是生成另一個神經網絡的權值的網絡，其條件是某種嵌入，並且通常用於壓縮或多任務學習。超網絡也可以用來合成預測模型，通過條件反射嵌入源（aka. support）數據集。在這種情況下，ω是權重合成超網絡，它產生θ，給定一個前饋過程中的支持集。最後，記憶增強神經網絡能夠快速記憶舊數據和吸收新數據，並且通常也屬於黑盒模型範疇。在中，作者通過改變記憶檢索機制，使神經圖靈機器適應元學習環境。元網絡然後改進了這個模型，將快速權重（網絡對每個任務的預測）和慢速權重（通過任務間的強化訓練）結合起來訪問內存。我們注意到一些方法在一個框架中同時實現了基於模型和初始條件的元學習或以優化器爲中心的元學習。

嵌入函數(MetricLearning) 這類方法是由傳統機器學習中的度量學習方法啓發的，因此在傳統的t中被歸類爲度量學習方法軸突學（3.1節）。它們主要應用於少鏡頭學習。在這裏，元優化過程學習嵌入網絡ω，該網絡將原始輸入轉換爲適合重新排序的表示通過查詢和支持實例之間的簡單相似性比較（例如，裏德距離)之間的簡單相似性比較）。然而，度量學習方法可以看作是上述前饋黑箱模型的一個特例。這顯然是基於支持和查詢圖像之間的內積生成分對數的方法的情況。在這裏，支持圖像生成權重來解釋查詢示例，使其成爲BBM的一個特例，其中“超網絡”爲查詢集生成線性分類器。通過使嵌入任務具有條件或學習更詳細的比較度量，進一步增強了這個家族中的普通方法。

損失和輔助任務  與優化設計的元學習方法類似，這些方法旨在學習基本模型的內部任務損失Ltaskω(·)。損失學習方法通常定義一個小的神經網絡，該網絡輸入通常是損失的輸入量（例如預測、特徵或模型參數），並輸出一個標量，由內部（任務）優化器將其視爲損失。這有潛在的好處，例如導致比常用的損失更容易優化的學習損失（例如，更少的局部極小值），導致更快的學習和改進的泛化，或其極小值對應於對域移位更穩健的模型的學習。此外，還使用損失學習方法來學習從未標記實例學習。其他應用包括學習Ltaskω()作爲對真實不可微任務損失（如精確召回曲線下的區域）的可微逼近。
       損失學習也出現在自我監督學習或輔助任務學習的推廣中。在這些問題中，無監督預測任務（例如視覺中的像素着色[119]或簡單地改變RL中的像素）是以多任務的方式與主任務一起定義和優化的，但目的是改進支持主任務的表示。在這種情況下，使用的最佳輔助任務（損失）很難預先預測，因此元學習可以根據它們對改進主任務學習的影響，在幾個輔助損失中進行選擇。I.e.，ω是每個輔助任務的權重[68]。更一般地，人們可以元學習輔助任務生成器，該生成器使用輔助標籤爲要預測的主多任務模型註釋示例。
       架構  在神經網絡中，架構發現一直是一個重要的領域，它不適合簡單的窮舉搜索。元學習可以通過學習體系結構來自動化這個非常昂貴的過程。早期的嘗試使用RL和LSTMs來學習生成一個好的架構[28]的描述。進化算法[27]也被用來嘗試學習架構中的塊，這些架構被建模爲圖形，可以通過編輯它們的圖形來進行變異。基於梯度的體系結構表示也以DARTS[26]的形式被訪問,其中訓練期間的前向傳遞包含在給定塊中所有可能層的輸出的softmax中，該輸出由待元學習的係數（即ω）加權。在元測試過程中，通過只保留與最高係數對應的層來對體系結構進行離散化。通過交替使用一個內部步驟和一個外部步驟來更新體系結構係數和網絡權重，貪婪地學習係數。由於DART仍然相對較慢且精度有限，最近的工作集中在通過更好的可微近似使體系結構學習更有效[124]、易於適應初始化的學習[125]或體系結構優先級[126]。關於神經架構搜索的更多細節，請參見第5.4節。
       注意模塊  注意機制已經被證明可以提高泛化性能和可解釋性。這些機制也構成了各種元學習模型的元表示的一部分。例如，它們被用作基於度量的跨導元學習者的支持項和目標集項的比較器[127]以及特徵抽取器，以防止在少數鏡頭連續學習中發生災難性遺忘[128]。最近，注意力還被用來總結傳入文本分類任務的分佈情況[129]。
       模塊  模塊元學習[130]，[131]假設任務無關知識ω定義了一組模塊，這些模塊以θ定義的任務特定方式重新組合，以解決每個遇到的任務。這些策略可以看作是典型的知識共享結構方法的元學習概括，在多任務和轉移學習中得到了很好的研究[65]、[66]、[132]。
       超參數  在這些方法中，ω包括基本學習算法的超參數，例如正則化強度[25]、每參數正則化[92]、多任務學習中的任務相關性[67]或數據清理中的稀疏強度[67]。注意，諸如步長和方向[75]、[76]等超參數可以看作是優化器定義的一部分，因此導致超參數和優化器學習類別之間的重疊。
       數據擴充  在有監督學習中，通過對現有數據進行保留標籤的變換，合成更多的訓練數據，從而提高泛化能力是很常見的。數據增強操作被封裝在內部問題Eq.6的優化步驟中，並且通常是手工設計的。然而，當ω定義了數據增強策略時，可以通過等式5中的外部優化來學習，以便最大化驗證性能[133]。由於增廣運算通常是不可微的，這就需要強化學習[133]、離散梯度估計[134]或進化[135]方法。一個懸而未決的問題是，強大的基於GAN的數據增強方法[136]是否可以用於8個內部層學習，並在外部層學習中進行優化。
       小批量選擇、樣本權重和課程學習  當基算法是基於小批量隨機梯度下降時，學習策略的設計參數是批量選擇過程。各種手工設計的方法[137]存在，以改進經典的隨機抽樣小批量。小批量選擇的元學習方法將ω定義爲實例選擇概率[138]或選擇或排除實例[139]以包含在下一個小批量中的小神經網絡，而元損失可以定義爲給定定義的小批量選擇器的基礎模型的學習進度。
       這種選擇方法也可以提供一種自動學習課程的方法。在傳統的機器學習中，課程是一系列要學習的數據或概念，這些數據或概念是手工設計的，目的是產生比按隨機順序學習的項目更好的性能[140]，例如，通過關注正確困難的實例，同時拒絕太難或太容易（已經學習）的實例。元學習有可能使這一過程自動化，並通過將教學策略定義爲元知識，並對其進行培訓，以優化學生的學習進度，從而選擇適當困難的例子[139]，[141]。
       與小批量選擇策略相關的是爲訓練集[142]，[143]學習每樣本損失權重ω的方法。這可用於通過貼現噪聲樣本[142]、[143]、貼現異常值[67]或糾正類不平衡[142]來學習標籤下噪聲。
       數據集、標籤和環境  也許元表示最奇怪的選擇是支持數據集本身。這與元學習的最初形式化不同，元學習認爲源數據集是固定的（第2.1節，Eqs.2-3）。然而，從Eqs.5-6的雙層視圖可以很容易地理解它。如果上層優化中的驗證集是實的和固定的，下層優化中的訓練集由ω參數化，則可以通過元學習對訓練集進行調整，以優化驗證性能。
       在數據集淨化[144]，[145]中，支持圖像本身被學習到，因此在它們上面的幾個步驟允許對真實查詢圖像進行良好的泛化。這可用於將大型數據集彙總爲少數圖像，這對於在無法存儲流數據集的情況下進行連續學習的重放非常有用。
       與其爲固定標籤y學習輸入圖像x，還可以爲固定圖像x學習輸入標籤y。這可用於半監督學習，例如直接學習未標記集的標籤以優化驗證集性能[146]，或訓練標籤生成函數[147]。
       在計算機視覺或強化學習中的sim2real學習[148]的情況下，使用環境模擬器生成用於訓練的數據。在這種情況下，還可以訓練圖形引擎[149]或模擬器[150]，以便在訓練由該環境模擬器生成的數據之後優化下游模型的實際數據（驗證）性能。
       討論：傳遞表示和方法  大多數ω表示上面所討論的參數向量函數這一過程或生成數據。然而提到的幾個表示轉換,ω字面對應於數據點[144],[146]標籤,或樣品重量[142]。這意味着在ω元學習尺度參數的數量是數據集的大小。雖然這些方法的成功證明了當代元學習的能力[145]，但這一特性可能最終限制了它們的可伸縮性。
       與轉換表示不同的是轉換方法，因爲它們被設計用於操作查詢實例和支持實例[98]和[122]。
       討論:可解釋的符號表示  在上面討論的許多元表示之間可以進行交叉區分的是不可解釋的(子符號)和人類可解釋的(符號)表示。次符號表示如ω參數化神經網絡[78],是更常見的研究佔據了絕大多數的研究上面提到。然而,元學習與象徵性的表示也可能,其中ω表示符號函數,是人類可讀的程序代碼[89],與亞當[102]。而不是神經損失函數[44],一個可以訓練符號ω的損失是由一個表達式與叉[115]。人們也可以元學習新的符號激活[151]，這比ReLU等標準更好。由於這些元表示是非平滑的，所以元目標是不可微的，並且更難於優化(參見第4.2節)。所以ω的上層優化通常使用RL[115][89]或進化算法。然而，符號表示在跨任務族歸納的能力上可能有優勢[89]、[115]和[151]。I.e.,跨越廣泛分佈p (T)與一個ω元培訓期間,或有學習ω概括一個分配的任務元測試期間(見第6節)。

4.2 元優化器

給定一個學習策略的選擇方面的優化(如上總結),下一個元學習者設計的軸是實際外(元)優化策略用於調優ω。
梯度一大類方法在元參數ω[19]、[41]、[44]、[67]上使用梯度下降。這就需要計算外目標的導數dLmeta/dω，它通常通過鏈式規則連接到模型參數θ，dLmeta/dω=(dLmeta/dθ)(dθ/dω)。這些方法可能是最有效的，因爲它們利用了ω的解析梯度。然而，關鍵的挑戰包括：（i）通過內部優化使用許多步驟的長計算圖進行有效的區分，例如通過仔細設計自微分算法[25]、[178]和隱式微分算法[145]、[153]、[179]，並簡單地處理所需的二階梯度[180]。（ii）減少不可避免的梯度退化問題，其嚴重性隨內環優化步數的增加而增加。（iii）當基本學習者、ω或Ltask包括離散或其他不可微操作時，計算梯度。

強化學習  當基礎學習者包含不可微步驟[133]或元目標Lmeta本身是不可微的[117]時，許多方法[22]使用RL來優化外部目標Eq.5。這通常使用策略梯度定理來估計梯度∇ωLmeta。然而，以這種方式減輕對可微性的要求通常是非常昂貴的。針對∇ωLmeta的高方差策略梯度估計意味着需要許多外部級優化步驟來收斂，並且由於將任務模型優化包裝在這些步驟中，每個步驟本身都是代價高昂的。
       進化  另一種優化元目標的方法是進化算法（EA）[17]，[123]，[181]。許多進化算法與強化學習算法有很強的聯繫[182]。然而，對於RL，它們的性能並不依賴於內部優化的長度和報酬稀疏性。
       EAs(進化算法)之所以具有吸引力，有幾個原因[181]：（i）它們可以優化任何類型的基模型和元目標，而不需要可微性。（ii）它們不依賴於反向傳播，反向傳播既解決了梯度退化問題，又避免了上述基於梯度的傳統方法所需的高階梯度計算成本。（iii）它們高度可並行化，使元訓練更容易擴展。（iv）通過保持解的多樣性，它們可以避免影響基於梯度的方法的局部極小值[123]。然而，它們有一些缺點：（i）訓練模型所需的種羣數量隨着可學習參數的數量迅速增加。（ii）它們對突變策略（如噪聲的大小和方向）敏感，因此可能需要仔細的超參數優化。（iii）它們的擬合能力通常不如基於梯度的方法，特別是對於CNNs等大型模型。
       EA相對更常用於RL應用中[23]，[158]（其中模型通常較小，內部優化較長且不可微）。然而，它們也被應用於監督學習中學習規則[183]、優化器[184]、體系結構[27]、[123]和數據增強策略[135]。它們在學習人類可解釋的符號元表示方面也特別重要[115]。

4.3 元目標和事件設計

最後一部分是通過選擇元目標Lmeta，以及內環事件和外部優化之間的關聯數據流來定義元學習方法的目標。在用ω更新任務模型之後，文獻中的大多數方法都依賴於在驗證集上計算的某種形式的性能度量，並將此度量作爲元目標。這與基於驗證集的超參數優化和體系結構選擇的經典方法是一致的。但是，在這個框架中，有幾個設計選項：
       多樣本vs少樣本插值設計  根據目標是提高少數或多拍的性能，每個任務的內循環學習片段可以定義爲許多[67]、[89]、[91]或少數-[19]、[41]的例子。
       快速適應vs漸近性能  當驗證損失在內部學習事件結束時計算時，元訓練鼓勵更好地完成基本任務。當它被計算爲每個內部優化步驟後的驗證損失之和時，元訓練還鼓勵在基本任務中更快地學習[76]、[89]、[91]。大多數RL應用程序也使用後一種設置。
       多任務vs單任務  當目標是優化學習者以更好地解決來自給定家庭的任何任務時，內環學習事件對應於p（T）[19]，[20]，[44]中隨機抽取的任務。當目標是優化學習者以更好地解決一個特定任務時，10個內環學習事件都從相同的底層任務中提取數據[67]、[78]、[162]、[167]、[168]、[185]。
       值得注意的是，這兩個元目標往往有不同的假設和價值主張。多任務目標顯然需要一個任務族p（T）來處理，而單個任務不需要。同時，對於多任務，元訓練的數據和計算成本可以通過在元測試中潛在地提高多個目標任務的性能來分攤；但是單任務-沒有新的待分攤任務-需要改進當前任務的最終解或漸近性能，或者元學習足夠快可以在線。
       在線vs離線  雖然經典的元學習管道將元優化定義爲內部基礎學習者的外環[19]，[78]，但一些研究試圖在單個基礎學習事件[44]，[167]，[185]，[186]中在線進行元優化。在這種情況下，基本模型θ和學習者ω在單個事件中共同進化。由於現在沒有一組學習操作可供分攤，元學習需要比基礎模型學習更快，以便提高樣本或計算效率。
       其它插值設計因素  可以將其他操作符插入到事件生成管道中，以自定義特定應用程序的元學習。例如，可以在域移位[44]、[92]的情況下模擬訓練和驗證之間的域移位以獲得良好性能的元優化；模擬訓練和驗證之間的量化[187]等網絡壓縮以獲得良好的網絡壓縮性的元優化；在元訓練期間提供噪聲標籤，以優化標籤噪聲穩健性[93]，或生成對抗性驗證集，以優化對抗性防禦[94]。下面的應用程序部分將更詳細地探討這些機會。

5 應用

在這一節中，我們討論了元學習的開發方法，從應用領域（如計算機視覺和強化學習）和交叉問題（如架構搜索、超參數優化、貝葉斯和無監督元學習）的角度。

5.1 計算機視覺和圖形

計算機視覺是元學習技術的主要消費領域之一。這尤其是由元學習對少樣本學習的影響推動的，這種學習有希望應對在視覺上識別的概念長尾帶來的挑戰。

5.1.1少樣本學習方法

少樣本學習(Few-shot learning, FSL)具有極大的挑戰性，尤其是對於大的神經網絡模型，其中數據量往往是性能的主導因素，用小數據集訓練大模型會導致過擬合甚至不收斂。基於元學習的少樣本學習方法訓練算法，使強大的深度網絡能夠成功地學習小數據集。有許多視覺問題，元學習有助於在少數鏡頭設置，我們提供一個非詳盡的總結如下。
       分類  到目前爲止，元學習最常見的應用是圖像識別中的少鏡頭多類分類，其中內損失函數和外損失函數通常分別是訓練和驗證數據的交叉熵。以優化器爲中心的、黑盒和度量學習模型都被考慮在內。相關基準見第5.1.2節。
       與早期的方法相比，這項工作已經導致性能的穩步提高。然而，性能仍然遠遠落後於完全監督的方法，因此還有更多的工作要做。當前的研究問題包括具有更好的跨域泛化能力的鏡頭模型、元訓練和元測試類定義的聯合標籤空間內的識別[80]以及新的鏡頭類的增量添加。
       目標檢測  在少樣本分類快速發展的基礎上，最近的工作也推廣到了少樣本目標檢測[165]、[194]，通常使用基於前向超網絡的方法在基本模型中嵌入支持集圖像併合成最終層分類權重。
       地標預測  地標估計的目標是在圖像中找到骨架關鍵點的位置，例如人類或機器人圖像中的關節。這通常表示爲圖像條件迴歸問題。例如，基於MAML的模型被證明可用於人體姿勢估計[195]，模塊化金屬學習被成功地應用於機器人學[130]，而基於超網絡的模型則被應用於適合新時尚項目的少數鏡頭服裝[165]。
       對象分割  由於在這一領域中獲取像素級標記圖像的成本較高，因此少樣本對象分割是很重要的。基於超網絡的元學習方法已經被證明在一次性的情況下有效[196]，並且後來通過採用典型網絡改進了性能[197]。其他模型處理分割密度較低的情況[198]。
       圖像生成  在[199]中，一個分期的概率元學習者被用來從一個單一的圖像中生成一個物體的多個視圖，通過學習快速適應的對抗模型的初始化，從很少的數據中生成說話的面孔[200]。
       視頻合成  在文[201]中，作者提出了一種權值產生器，該權值產生器接收少量幀作爲輸入，並生成一個網絡，該網絡能夠在給定任務的視頻合成中取得很強的效果。
       密度估計  由於自迴歸模型通常需要較大的深度來捕捉數據的分佈，因此很少的射擊模式會使自身變得過於擬合，這一點尤其具有挑戰性。元學習加上注意機制已經證明能夠使像素在這樣一種狀態下發光[202]。

5.1.2 少樣本學習基準

人工智能和機器學習的進展通常由精心設計的基準來衡量和推動[203]。在機器學習中，基準由一個數據集和一個模型應該很好執行的任務組成，同時從該數據集中的訓練到測試實例。在元學習中，基準設計更爲複雜，因爲我們經常與一個學習者打交道，這個學習者應該在一組任務上接受元訓練，之後應該將其概括爲在以前看不見的任務上學習。因此，基準設計更加複雜，因爲需要定義可以從中提取元訓練和元測試任務的任務族。在本節中，我們將概述幾個主要的射擊基準。
       基準和設置  大多數的FSL研究都考慮了集合到集合的設置，在集合到集合的設置中，一個模型必須學會在大量的少量鏡頭學習任務中表現出色。每個這樣的任務都由一個小的訓練集（稱爲支持集）和一個小的驗證集（稱爲查詢集）組成，該驗證集由多個類中的一些標記示例和支持集中包含的相同類的以前未看到的實例組成。學習者應該能夠從支持集中提取特定於任務的信息，然後生成一個能夠在查詢集中很好執行的模型。跨任務知識可以通過學習能夠很好地完成這項任務的學習者來學習。我們通常使用N-way K-shot任務的表示法來表示一個任務，每個任務有N個類，每個類有K個樣本。
       此設置中使用了許多已建立的FSL數據集，如minimagenet[41]、tieredImageNet[204]、SlimageNet[205]、CUB-200[110]和Omniglot[86]。這些基準通過將類分解成許多較小的（較低的“方式”）識別問題來定義用於基準元訓練和元測試的任務分佈，從而重新利用具有相當多類的先前數據集。
       數據集多樣性、偏差和泛化  雖然上述方法可以方便地生成足夠的訓練和評估任務，但它缺乏多樣性（窄p（T））這使得在這些基準上的性能很難反映在實際的少鏡頭任務上的性能。例如，在迷你圖像網中的不同種類的動物之間或幼鳥之間切換是對可轉移性的一個相當弱的測試。理想情況下，我們希望跨越更多種類和類型的圖像（衛星、醫療、農業、水下等）；甚至對元訓練和元測試任務之間的域轉換具有魯棒性。
       這裏還有很多工作要做，因爲即使在多鏡頭設置中，將一個深度模型擬合到一個非常廣泛的數據分佈本身也是非常重要的[206]，正如將其推廣到樣本外數據[44]、[92]。尤其是，元學習者在源任務分佈和目標任務分佈之間引入域轉移時的表現顯著下降[110]。這激發了最近的元數據集[207]和CVPR跨域fewshot挑戰[208]。元數據集聚合了許多單獨的識別基準，以提供更廣泛的任務p（T）分佈，以評估適應更廣泛的任務分佈和跨域轉移的概括能力。同時，[208]對從日常影像網絡到醫學影像、衛星影像和農業影像的推廣方法提出了挑戰。最近的工作已經開始嘗試通過領域轉移魯棒性和樣本效率的元訓練來解決這些問題[173]。在將模型應用於代表性不足國家的數據時，也會出現泛化問題[209]。另一個可以促進少鏡頭學習者泛化研究的最新數據集是[210]，它提供了從模擬到高清晰度模擬和真實世界的跨環境樣本。
       現實世界的少樣本識別  最常見的少數鏡頭問題設置是支持集中的類之間的N路識別[19]，[20]。然而，這可能不代表實際的應用需求，因爲在測試時，源和目標之間的識別都很重要。越來越多的研究[128]、[165]、[211]考慮了這種廣義的少鏡頭設置。在一般的少數鏡頭設置中，其他目標包括在不忘記基類或重新訪問源數據的情況下高效地增量註冊新的少數鏡頭類[128]，[165]。其他現實世界的挑戰包括在廣泛研究的N=1的基礎上擴大少數鏡頭的學習。20路識別設置，此時流行而有效的度量學習方法家族[20]，[87]開始掙扎。
       少樣本目標檢測  迄今爲止，關於少樣本檢測的少數研究[165]重新使用了標準檢測數據集，如COCO和Pascal VOC。然而，與分類基準相比，它們只提供了一些元訓練/測試類，因此需要更多的基準。
       迴歸基準  不幸的是，在爲少數幾次迴歸建立共同基準方面所做的工作少於爲分類所做的工作。[19]，[212]中提出了一維正弦迴歸等玩具問題。文獻[166]考慮了從像素座標到RGB值的迴歸來完成圖像，一些工作迴歸到人體姿態和時尚感興趣點[165]，而文獻[213]考慮了人臉姿態迴歸的任務，附加遮擋引入模糊性。總的來說，這些任務都是分散的，元學習社區尚未就回歸基準達成共識。
       非元學習少樣本方法  近年來，一些非元學習方法在一些測試基準上取得了競爭性的成績，質疑在這種環境下學習的必要性。文獻[110]表明，一次完成所有基本任務的訓練和對目標任務的微調是比最初報告的更強的基線，這主要是因爲不公平地忽略了增強。此外，使用較深的主幹可以縮小常見元學習方法之間的性能差距，並且基線可以在源任務和目標任務分佈之間的較大域移位方面優於這些方法[207]——儘管較新的元學習方法在此設置中獲得了良好的性能[173]。在類似的主題中，[214]表明，簡單的特徵轉換（如L2規範化）可以使近鄰分類器在沒有元學習的情況下具有競爭力。因此，這裏的辯論仍在繼續，但總體而言，謹慎實施的基線和更爲多樣化的數據集是重要的，而且對於所有方法來說，保持公平和一致的最佳實踐也是重要的。

5.2 元強化學習和機器人技術

強化學習通常與學習控制策略有關，與監督學習關注給定數據集的準確性相比，學習控制策略使代理在實現環境中的順序動作任務時獲得高回報。由於報酬稀少、需要探索和高方差[215]優化算法，RL通常遭受極端樣本效率低下的困擾。然而，應用程序通常也自然需要元學習可以利用的任務族，例如移動到或到達不同的位置[172]、在不同的地圖/環境中導航[40]或穿越不同的地形[63]、駕駛不同的汽車[171]、與不同的競爭對手競爭[61]，以及處理有不同的障礙，如機器人肢體的故障[63]。因此，RL提供了一個豐富的應用領域，其中任務分佈上的metalearning在提高樣本效率方面比標準RL算法取得了顯著的成功。人們可以直觀地瞭解這些方法的功效。例如，類人機器人“如何站立”的元知識對於需要移動的家庭中的所有任務都是可轉移的技能，而迷宮佈局的元知識對於需要在迷宮中導航的所有任務都是可轉移的。

5.2.1方法

我們已經在RL中發現了一些元表示，包括學習初始條件[19]、[159]、超參數[159]、[164]、步驟方向[75]和步驟大小[163]，這使得基於梯度的學習能夠以較少的環境交互訓練神經策略；以及訓練快速卷積[40]或遞歸的[22]，[106]黑箱模型嵌入到目前爲止給定環境的經驗，並使用它來合成一個前饋策略。最近的工作爲這些任務開發了改進的元優化算法[155]、[156]、[158]，併爲元RL[216]提供了理論保證。
       探究  RL特有的元表示是探索策略的元表示。由於數據分佈不是固定的，而是根據代理的行爲而變化，因此RL很複雜。此外，稀疏的獎勵可能意味着一個代理人必須採取許多行動，才能獲得獎勵，可以用來指導學習。因此，如何挖掘和獲取學習所需的數據是任何RL算法的關鍵因素。傳統的探索是基於抽樣隨機行爲[90]或手工探索啓發[217]。一些meta-RL研究明確地將探索策略或好奇心功能視爲元知識ω；並將其習得建模爲元學習問題[24]、[170]、[171]——通過“學習如何探索”顯著提高樣本效率。
       優化器  值得注意的是，與SL不同的是，在SL中，優化常常導致列車集上具有完美精度的良好局部極小值；在學習到的策略遠不是最優的情況下，RL通常是一個非常困難的優化問題，即使在“訓練集”事件上也是如此。這意味着，與meta-SL相比，meta-RL方法更常用於提高漸進訓練性能[23]、[164]、[167]以及樣本效率，並且可以導致顯著更好的整體解決方案。事實上，大多數元RL框架的元目標是在整個訓練過程中代理的淨回報，因此樣本有效和漸近性能學習都會得到回報。優化困難還意味着在學習損失（或獎勵）方面也有相對較多的工作[113]、[167]、[218]，RL代理應該優化學習損失（或獎勵），而不是傳統的稀疏獎勵目標。與真正的目標[23]、[218]相比，這種元學習損失可能更容易優化（更密集、更平滑）。這也與作爲獎勵學習的探索聯繫起來，可以被認爲是學習內在動機的元學習方法的實例[168]。
       在線MetaRL  我們注意到，meta-RL研究中有相當一部分涉及在線單任務設置，其中諸如丟失[113]、[167]、[164]、[168]、超參數[162]、[163]或探索策略[169]等元知識在學習單任務時與基本策略一起在線訓練。因此，這些方法不需要任務族，併爲各自的基礎學習者提供直接的改進。
       開-關策略元RL  傳統RL方法中的一個主要二分法是政策內學習和政策外學習，如PPO[90]與SAC[219]。對於傳統的RL，非策略方法通常具有更高的採樣效率。然而，非策略方法已經很難擴展到元RL，導致大多數元RL方法建立在基於策略的算法上，從而限制了元RL的絕對性能。最近的一些工作已經開始設計非策略方法的meta-RL泛化，結果很好[109]、[113]、[157]、[218]。值得注意的是，非策略學習也提高了元訓練階段的效率[109]，這在元RL中是非常昂貴的。它還提供了新的機會，加速元測試從元訓練階段回放緩衝樣本[157]。
       其他趨勢和挑戰  在本節結束時，我們將提到meta-RL中的其他最新趨勢。[63]值得注意的是，在真實世界的物理機器人上演示了成功的meta-RL。機器人學中的知識轉移通常對組合學習有意義[220]。E、例如，行走、導航和物體拾取/放置可以是機器人清理房間的子程序。然而，發展元學習者，支持一個組合知識，轉移良好是一個開放的問題，與模塊化元學習[131]是一個選擇。無監督的meta-RL變體旨在執行元訓練，無需手動指定獎勵[221]，或適應元測試，以適應變化的環境，但沒有新的獎勵[222]。持續適應使用元學習來爲代理人提供在一個元測試集內適應一系列任務的能力[61]-[63]，這與持續學習有關。最後，元學習也被應用於模仿學習[105]和逆強化學習[223]。

5.2.2 基準

爲了學習如何學習，RL的元學習基準應該定義代理要解決的一系列問題，然後評估學習者。這些可以是要完成的任務(獎勵功能)，也可以是域(不同的環境或MDPs)。RL基準可以根據它們是測試連續的還是離散的控制，以及來自狀態或觀察(如圖像)的驅動來劃分。
       離散控制RL  早期的meta-RL視覺驅動控制基準是arcade learning environment（ALE）[224]，它定義了一組經典的Atari遊戲，可以分爲元訓練和元測試。這裏的典型協議是在元測試環境中計算固定時間步數後的返回。Atari games的一個問題是它們的決定論，這意味着openloop策略有可能足以解決它們，從而導致插入隨機性的努力[224]。另一個挑戰是遊戲之間存在巨大的多樣性（廣泛的p（T）），這使得成功的元訓練變得困難，並導致從知識轉移中獲益有限[224]。另一個基準[225]是基於將聲波刺蝟水平分解爲元串/元測試。這裏的任務分佈更窄，有利的元學習相對容易實現。最近Cobbe等人。[226]提出了用於基準Meta-RL的兩個目的設計的視頻遊戲。CoinRun遊戲[226]提供了232個程序生成的不同難度和視覺外觀級別。它們表明，要可靠地推廣到新的水平，需要大約10000級的元列車經驗。CoinRun的主要目的是測試直接泛化而不是快速適應，可以看作是在MDP環境中提供了一個測試泛化的分佈，而不是在測試適應的任務上提供了分佈。爲了在更廣泛的任務分佈中更好地測試快速學習，ProcGen[226]提供了一組16個程序生成的遊戲，包括CoinRun。
       連續控制  雖然諸如gym[227]等常用基準的使用極大地促進了RL研究，但metaRL的基準尚未達成共識，使得現有工作難以進行比較。大多數關於連續控制元- rl的研究都提出了自定義基準，這些基準是特定任務的低維參數變量，例如導航到不同的位置或速度[19][109]，或者穿越不同的地形[63]。最近提出了幾個多mdp基準[228]和[229]，但這些基準主要測試不同環境擾動下的泛化，而不是元- rl中感興趣的新任務適應。這種情況將隨着元世界基準[230]的發佈而得到改善，該基準提供了一套50個連續控制任務，這些任務具有基於狀態的驅動，從簡單的參數變量(如槓桿牽引和開門)變化而來。這個基準測試應該能夠進行更具可比性的評估，並在不同寬度的任務分佈內部和跨任務分佈進行泛化研究。元世界評估[230]表明，現有的元- rl方法很難在廣泛的任務分配和元-培訓/元-測試轉換上進行推廣，因此需要進行更多的工作。最近另一個適合於Meta-RL的基準是PHYRE[231]，它提供了一組50個基於視覺的物理任務模板，可以通過簡單的操作來解決，但是可能需要基於模型的推理來有效地解決。這些被組織成2個難度層，並提供內部和跨模板泛化測試。
       討論  視覺驅動的元-RL的一個複雜之處是分解了視覺的泛化和適應(與更廣泛的計算機視覺一樣)以及更普遍的控制策略的快速學習。例如CoinRun[226]評估顯示，批處理等標準視覺技術帶來了巨大的好處，這表明感知是一個主要瓶頸。
       元-RL中的一個熱門問題是，在對新任務進行元測試之前，很難用多任務或元學習模型來適應廣泛的元訓練任務分佈。這可能是由於我們的RL模型太弱和/或基準在任務數量方面太小。即使是元世界、ProcGen和PHYRE也有幾十個而不是幾百個任務，比如像tieredImageNet這樣的視力基準測試。雖然這些最新的基準正在改進，但該領域仍將受益於具有可控制的泛化差距的更大的基準。如果有難度更大的基準測試，比如需要記憶和抽象推理，也會有好處，這樣可以爲更抽象的策略提供機會，以便在不同任務之間進行元學習和利用。

5.3 環境學習與模擬現實

在Sim2Real中，我們感興趣的是訓練一個能夠推廣到現實世界的仿真模型，這是一個挑戰，因爲仿真與現實世界並不完全匹配。經典的域隨機化方法模擬了域/mdp上的廣泛分佈，目的是訓練一個足夠健壯的模型以在現實世界中取得成功，並且在vision[232]和RL[148]中都取得了成功。然而，如何優化仿真分佈是一個挑戰。這自然會導致一個元學習設置，其中內部層優化在模擬中學習模型，外部層優化Lmeta評估模型在現實世界中的性能，元表示ω對應於模擬環境的參數。這個範例已經在RL[150]和計算機視覺[149]，[233]中使用。在這種情況下，用於元訓練任務的源任務不是預先提供的數據分佈，而是由omega、Dsource（ω）參數化的。然而，在通過一個昂貴且長的內部任務學習步驟圖進行反向傳播方面，以及在RL的Sim2Real元學習的情況下最小化現實世界Lmeta評估的數量方面，仍然存在挑戰。

5.4 神經架構搜索（NAS）

結構搜索[26]–[28]，[39]，[123]可以看作是對應於一種超參數優化，其中ω指定了神經網絡的結構。內部優化訓練具有指定體系結構的網絡，外部優化搜索具有良好驗證性能的體系結構。NAS方法通常根據“搜索空間”、“搜索策略”和“性能估計策略”進行分析[39]。它們對應於ω的假設空間、元優化策略和元目標。NAS特別具有挑戰性，因爲：（i）全面評估內環通常非常昂貴，因爲它需要訓練多鏡頭神經網絡才能完成。這導致了類似於14的近似，例如對列車集進行次採樣、內部環路提前終止，以及最終的近似，例如在ω和θ[26]上的交錯下降，如在線元學習。（二）搜索空間難以界定，優化搜索空間代價高昂。這是因爲大多數搜索空間都很寬，並且表示不可微的體系結構。這導致了執行單元級搜索[26]、[28]以約束搜索空間的方法；然後依賴於RL[28]、離散梯度估計器，這些估計器提供搜索空間[26]、[124]和進化[27]、[123]的可微近似。
       例子  一些值得注意的例子包括：（i）NASNet[28]，[234]，其中搜索空間僅限於單元級學習，並定義爲由RNN生成的字符串，該字符串指示應在單元樹的哪些部分執行哪些操作，使用RL進行優化。（i i）再規格化進化[27]，其中作者使用NASNet的搜索空間，但使用規則化進化優化它，即基於標準錦標賽的進化，每次迭代後刪除最老的個體。（iii.）飛鏢[26]，其中作者仔細地將單元結構的空間作爲一系列softmax選擇投射到多個預先選擇的操作上，從而使搜索空間可微。然後，學習體系結構就相當於聯合學習softmax權重和網絡參數。這使得體系結構學習在計算開銷和掛鐘時間上都能加快2-3個數量級。（iv）T-NAS【125】，作者利用DARTS搜索空間，但使用數據流對其進行訓練，該數據流強制使用很少的數據點和很少的更新來學習體系結構，同時保持較高的泛化性能。通過學習這種softmax權重，他們實現了fewshot架構搜索。一旦訓練完成，這些重量可以在幾秒鐘內適應新的任務，而不是幾天。
       NAS的一個有趣的特例是激活函數搜索[151]。雖然人工設計的激活函數（如ReLU）在神經網絡文獻中占主導地位，但NAS元學習的一個成功例子是在符號激活函數空間中發現了帶有RL的Swish激活函數[151]。Swish繼續爲幾個有影響力的最新和通用CNN架構做出貢獻[235]，[236]。
       多目標NAS  要部署在移動設備上的體系結構除了驗證精度[7]之外還有其他限制，而且還可以部署NAS以生成緊湊高效的模型[237]。這可以通過定義一個多目標元目標來實現，該目標包含與驗證性能以及給定θ的模型產品的延遲或大小相關的術語，從而導致良好的性能-成本權衡。
       意見問題  儘管NAS本身可以看作是超參數或假設類元學習的一個實例，但它也可以與其他形式的元學習交互。由於NAS的成本很高，一個熱點問題是發現的體系結構是特定於數據集的，還是具有概括新問題能力的通用體系結構[234]。最近的結果表明，跨多個數據集的元訓練可以改進體系結構的跨任務泛化[126]。
       雖然在手工構建的體系結構[19]、[20]、[87]的背景下，通常從參數學習的角度來處理少量鏡頭元學習，但也可以定義NAS元目標來訓練適合少量鏡頭學習的體系結構[238]、[239]。此外，與快速適應初始條件元學習方法（如MAML[19]）類似，可以訓練易於適應特定任務的良好初始架構[125]或架構優先級[126]。
       基準  NAS通常在CIFAR-10數據集上進行評估。然而，即使在這個小數據集上，架構搜索的執行成本也很高，使得許多研究人員無法訪問它；此外，由於諸如超參數調整等其他混雜因素，結果也很難重現[240]。爲了支持可重複和可訪問的研究，最近發佈的NASbenches[241]，[242]爲大量網絡架構提供了預先計算的性能度量。

5.5 貝葉斯元學習

貝葉斯元學習方法通過貝葉斯層次模型將元學習形式化，並使用貝葉斯推理進行學習，而不是直接優化參數。在元學習環境下，貝葉斯學習是典型的難處理的，因此可以使用不同的近似方法。變分方法，特別是隨機變分方法是最常見的，但也可以考慮抽樣方法。
       貝葉斯元學習的一個副產品是，它爲θ參數提供了不確定性度量，從而提供了預測不確定性度量。瞭解學習者預測的不確定性在安全關鍵領域（如少數射擊醫療任務）中是至關重要的，可用於強化學習的探索和一些主動學習方法，其中模型可以尋找具有高度不確定性的數據點信息
       近年來，許多作者探索了貝葉斯方法來處理元學習中具有競爭性結果的複雜模型。其中許多已經利用深層神經網絡作爲框架內的組件，例如擴展變分自動編碼器來顯式地建模任務變量[71]。神經過程[166]旨在將高斯過程的不確定性量化與神經網絡的多功能性結合起來，但沒有顯示出它們在現代的少鏡頭基準上起作用。深核學習也是一個活躍的研究領域，它已經適應元學習環境[243]，並且經常與高斯過程耦合[213]。在文獻[72]中，基於梯度的元學習被重新構造成一個層次經驗貝葉斯推理問題（即先驗學習），該問題對任務特定參數θ的不確定性進行建模。Bayesian-MAML[212]在該模型的基礎上改進了Bayesian集成方法，該方法允許θ上的非高斯後驗，隨後的工作消除了對代價高昂的集成的需要[199]，[244]。在概率MAML[95]中，建模的是元知識ω中的不確定性，而對θ使用MAP估計。這些貝葉斯方法越來越多地被用來解決模糊任務、主動學習和RL問題。
       與上述方法不同，元學習也被提出用於輔助貝葉斯推理過程本身。舉例來說，在[245]中，作者使用元學習框架來調整貝葉斯採樣器，以提供有效的自適應採樣方法。
       基準  在貝葉斯元學習中，重點通常是對我們的元學習者的預測中的不確定性進行建模，因此在標準的少鏡頭分類基準上的性能不一定能捕獲我們關心的內容。由於這個原因，文獻中出現了不同的任務。Bayesian-MAML[212]擴展了MAML[19]的正弦迴歸任務，使其更具挑戰性。概率MAML[95]提供了一組1D玩具示例，能夠顯示模型的不確定性以及如何在主動學習場景中使用這種不確定性。它還從celebA[246]創建了一個二值分類任務，其中正類由兩個面部屬性的存在確定，但是訓練圖像顯示三個屬性，因此引入了兩個屬性應該分類的模糊性。結果表明，採樣ω能正確反映這種模糊性。在[212]和強化學習應用程序中也顯示了主動學習玩具實驗，在[199]中使用了模糊的一次拍攝圖像生成任務。最後，一些研究者建議觀察元學習者的準確性v.s.信心（即他們的校準）[244]。

5.6 無監督元學習和元學習無監督學習

在元學習文獻中，元學習主要有兩種變體，即無監督學習。在第一種情況下，外環的元目標是無監督的，因此學習者本身是在沒有任何標籤的情況下學習的。我們稱之爲無監督元學習。在第二個變體中，元學習被用作學習無監督內環任務的一種方法。在這種情況下，外部目標可以是有監督的、無監督的或基於強化的任何東西。我們稱之爲元學習無監督學習。
無監督元學習[247]-[249]旨在放鬆傳統的元訓練源任務註釋集的假設，同時仍然爲有監督的少鏡頭學習提供良好的下游性能。典型的合成源任務是在沒有監督的情況下通過聚類或保持類的數據擴充來構造的。
元學習無監督學習的目的是利用元學習來訓練無監督學習算法，使其能夠很好地完成下游的有監督學習任務。可以訓練無監督聚類算法[21]、[250]、[251]或損失[98]、[116]，從而優化下游有監督學習性能。這有助於通過將無監督學習問題轉化爲具有明確（元）監督目標的問題來解決無監督學習問題的不確定性。

5.7 主動學習

元學習範式也可以用來訓練主動學習，而不是像目前所討論的那樣監督或強化學習者。主動學習（AL）方法包裝監督學習，並定義選擇性數據註釋的策略-通常在可以順序獲得註釋的設置中。AL的目標是找到要標註的數據的最優子集，從而在標註最少的情況下最大限度地提高下游監督學習的性能。AL是一個研究得很好的問題，有許多手工設計的算法[252]。元學習可以將主動學習算法設計轉化爲一個學習任務，其方法是：將內部優化作爲一個傳統的有監督學習任務，將ω作爲一個查詢策略，選擇最好的無標記數據點進行標註，或者讓外部優化訓練查詢策略，以在給定查詢和註釋數據點的情況下優化對應於下游學習性能的元目標[175]–[177]。然而，對於聚類，如果使用標籤來訓練AL算法，則需要在任務之間進行泛化，以分攤其訓練成本[177]。

5.8 持續、在線和適應性學習

不斷學習  指按順序呈現的人類學習任務的能力。理想情況下，這是在利用前向轉移的同時完成的，這樣新任務就可以根據過去的經驗更好地學習，而不必忘記以前學習過的任務，也不需要存儲所有過去的數據，以便排練時避免忘記[60]。深層神經網絡很難達到這些標準，特別是當它們傾向於忘記在早期任務中看到的信息時，這種現象被稱爲災難性遺忘。元學習已經被應用於改善深度網絡中的持續學習。持續學習的要求可以整合到一個元目標中，例如，通過定義一系列學習事件，其中支持集包含一個新任務，但查詢集包含從目前爲止看到的所有任務中提取的示例[160]，[161]。通過這種元目標設計，可以訓練各種元表徵，從而提高持續學習的績效。例如：權重優先[128]、梯度下降預處理矩陣[161]或RNN學習優化器[160]或特徵表示[253]。
       儘管沒有直接應用於持續學習，另一個有趣的想法是元訓練表示來支持本地編輯[254]，其中作者學習了一個模型，該模型可以在單個樣本上快速自我改進，而不會忘記已經學習到的任何信息。
       在線和適應性學習  還要考慮到達流中的任務，但要考慮有效適應流中當前任務的能力，而不是記住舊任務。爲此，提出了MAML的一個在線擴展[96]，以在任務序列期間在線執行MAML風格的元訓練。同時，其他人[61]-[63]考慮在meta-te之前，預先對源任務執行元訓練的設置
       基準  有許多持續學習的基準，與標準的深度學習方法一起工作得很好。然而，這些基準中的大多數不能很容易地與元學習方法一起工作。他們中的大多數將需要調整他們的樣本生成例程，以包括大量的顯式學習集和顯式評估集。在文獻[96]、[160]、[253]中，一些早期的步驟被用來定義元學習準備的連續基準，主要由Omniglot和MNIST的擾動版本組成。然而，其中大多數只是爲了演示一種方法而構建的任務。在[205]中可以找到更明確的基準工作，其中16個連續的少鏡頭學習被定義爲一種需要處理的新任務類型，基準是爲元學習和非元學習方法構建的。在這個設置中，一個任務由許多小的訓練集組成，每個訓練集可能由不同的類組成，之後學習的模型應該能夠很好地概括它從所有任務中學習到的以前未看到的樣本。基準測試建議使用Omniglot和SlimageNet作爲要使用的數據集。

5.9 領域適應和領域概括

當部署中遇到的數據統計與訓練中使用的數據統計不同時，域轉移通常會在實踐中阻礙機器學習模型。爲了在有監督、無監督和半監督的情況下解決這個問題，人們研究了許多域自適應和泛化算法[57]。
       領域泛化  領域泛化方法旨在通過設計訓練具有更強魯棒性的模型，以訓練測試領域移位[255]，通常是通過利用訓練領域上的分佈。元學習是支持這一目標的有效工具，它將outerloop驗證集定義爲相對於內環訓練集具有域移位[58]。通過這種方式，可以（meta）學習不同類型的元知識，例如正則化器[92]、損失[44]和噪聲增強[173]，以便最大限度地提高學習模型訓練測試域移位的典型魯棒性。
       域適應  雖然先前關於領域適應的大量工作是傳統學習[57]，但最近的工作[256]也開始考慮元學習方法來促進領域適應。
       基準  DA和DG的流行基準面向不同圖像類型的識別，如照片/草圖/卡通。具有多個域的數據集通常用於爲元學習提供域分佈。PACS[257]提供了一個良好的入門基準，Visual Decathlon[44]、[206]、DomainNet[258]和Meta Dataset[207]提供了更大規模的替代方案。

5.10 超參數優化

元學習可以通過考慮ω來指定超參數，如正則化強度或學習速率來解決超參數優化問題。主要有兩種設置：我們可以學習在任務分佈上改進訓練的超參數，或者學習在單個任務上改進學習的超參數。前一種情況通常與少數鏡頭應用相關，特別是在基於優化的方法中。例如，可以通過學習每一步每層的學習速率來改進MAML[76]。我們希望爲單個任務學習超參數的情況通常與許多快照應用程序更爲相關[145]，其中一些驗證數據可以從訓練數據集中提取，如第2.1節所述。長期內視野下的金屬學習伴隨着內存和計算縮放問題，如第6節所述，這是一個活躍的研究領域。然而，值得注意的是，與經典方法（如網格或隨機搜索交叉驗證、貝葉斯優化等）相比，基於端到端梯度的元學習已經證明了其對數百萬個參數具有良好的可擴展性（如MAML[19]、[145]和數據集蒸餾[144]、[145]）[70]），通常只有幾十個超參數才能成功。

5.11新穎且生物學上可信的學習者

大多數的元學習工作，使用顯式（非前饋/黑箱）優化的基礎模型是基於梯度下降的反向傳播（這是最傳統的深入學習工作）。元學習的一個有趣的可能性是定義學習規則ω的函數類，從而發現新的有效學習規則，這些規則可能是無監督的[21]，生物學上合理的[47]，[259]，[260]利用當代深度學習中較不常用的思想，如Hebbian更新[259]和神經調節[260]。

5.12語言和言語

語言建模。少樣本語言建模是展示金屬製造者多功能性的流行方式，早期的方法，如匹配網絡，在一次性任務（如填充缺少的單詞）中顯示出令人印象深刻的性能[86]。此後，又有許多任務被處理，包括神經程序歸納[261]和合成[262]、英語到SQL程序合成[263]、基於文本的關係圖提取程序[264]、機器翻譯[265]和快速適應對話任務中的新角色[266]。
語音識別深度學習現在已經成爲最先進的自動語音識別（ASR）的主流模式。元學習開始被應用於解決ASR中出現的許多少數鏡頭適應問題，包括學習如何爲低資源語言進行訓練[267]、跨重音適應[268]和優化單個演講者的模型[269]。

5.13 元學習促進社會福利

元學習本身就面臨着各種挑戰性的任務，這些任務出現在人工智能用於社會公益的應用中，例如醫學圖像分類和藥物發現，而這些領域的數據往往是稀缺的。鑑於全球病理學家短缺，醫學領域的進展尤其重要[270]。在[5]中，一個LSTM與一個圖形神經網絡相結合，以預測一個分子在一次性數據區域中的行爲（例如其毒性）。在[271]中，MAML適合於弱監督的乳腺癌檢測任務，並且任務的順序是根據課程而不是隨機選擇的。MAML還與去噪自動編碼器相結合以進行醫學視覺問題回答[272]，而如[204]中所做的那樣學習對支持樣本進行加權則適用於像素加權，以處理帶有噪聲標籤的皮膚損傷分割任務[273]。

5.14 抽象和合成推理

抽象推理深度學習研究的一個最新目標是開發超越簡單感知任務的模型，以解決更抽象的推理問題17，例如以Raven的漸進矩陣（RPMs）形式進行的智商測試[274]。求解RPMs可以看作是要求從上下文面板到答案面板進行少量的鏡頭概括。最近用RPMs進行抽象推理的元學習方法通過元學習獲得了顯著的改進教師定義了面板的數據生成分佈[275]。教師與學生共同受訓，並以學生的進步作爲獎勵，從而自動確定最佳課程。
組成學習讓人類善於解決問題的一個特點是學會如何組合概念。例如，能夠接受一個新學的動詞，並將其與所有可能的副詞一起使用。最近的元學習方法已經被證明通過在元訓練期間要求查詢和支持集之間的組合泛化來提高這種泛化能力[276]。這種元學習機制也有利於一些基本的挑戰，例如使序列模型能夠推廣到比訓練期間觀察到的更長的測試序列[276]。

5.15 系統

網絡壓縮  現代cnn需要大量的內存，這可能會使嵌入式設備望而卻步。因此，量化和剪枝等各種形式的網絡壓縮是當前的研究熱點[277]、[278]。元學習也開始應用於這一目標，例如訓練允許量化網絡訓練的梯度生成器元網絡[187]和允許量化網絡訓練梯度的權重生成器元網絡[279]。
       通訊  深度學習最近在通信系統中掀起了波瀾。例如，通過學習編碼系統，這些編碼系統超過了針對實際信道的最佳手工設計的編碼[280]。只要通過學習針對特定信道的特性調諧的編碼方案來獲得最佳性能，就很少有鏡頭元學習可用於提供編碼對變化的信道特性的快速在線自適應[281]。
       標籤噪聲學習  利用標籤噪聲進行學習是當代深度學習中的一個挑戰，因爲大型數據集是通過網絡抓取或羣體資源收集的。再次，雖然有一些算法是針對這種情況手工設計的，但最近的元學習方法已經解決了標籤噪聲問題，方法是將樣本加權到低權噪聲樣本[142]，或者學習對噪聲標籤訓練魯棒的初始條件[93]。
       對抗性攻擊和防禦  通過在數據中加入精心製作的人類看不見的擾動，深層神經網絡很容易被愚弄到對一個應該容易識別的數據點的錯誤分類中[282]。近年來，大量的方法被髮表，引入了更強大的攻擊和防禦方法。典型的防禦是精心設計的架構或訓練策略。與域轉移的情況類似，元學習的一個未充分研究的潛在應用是通過定義在對抗攻擊下的性能方面的元損失來訓練學習算法的端到端魯棒性[94]，[283]。最近提出了對抗性防禦的新基準[284]，其中防禦應概括爲不可預見的攻擊。未來的元學習方法能否在這一基準上取得進展，將是一個有趣的問題。

6 挑戰和開放性問題

元-概括  元學習面臨着跨任務的泛化挑戰，類似於傳統機器學習中跨實例泛化的挑戰。有三個次級挑戰：（i）第一個挑戰是使元學習者適應任務p（T）的廣泛分佈，正如我們所看到的，這對現有方法是挑戰[206]、[207]、[230]，部分原因可能是任務之間的梯度衝突[285]。（ii）第二個挑戰是將元訓練歸納爲從p（T）引出的新的元測試任務。由於元訓練的任務數量通常較低（遠低於傳統監督學習中的實例數量），因此很難適應複雜的任務分佈，這就加劇了問題的嚴重性。因此，元學習者迄今爲止最大的成功是在非常相似的任務家族中。（iii）第三個挑戰是將元測試任務歸納爲不同於訓練任務的分佈。這在元學習的許多潛在的實際應用中是不可避免的，例如，將很少鏡頭的視覺學習從ImageNet的日常訓練圖像推廣到醫學圖像等專業領域[208]。從學習者的角度來看，這是領域轉移問題的一個元級概括，正如在監督學習中觀察到的那樣。通過正則化、轉移學習、領域適應和領域泛化的元泛化來解決這些問題是新興的方向[173]。此外，我們還沒有了解在某些類型的域移位下，哪種元表示傾向於更好地泛化。
       另一個有趣的方向可能是研究引入另一個級別的學習抽象如何影響泛化性能，即元元學習。通過學習如何進行元學習，也許我們可以找到元優化器，它可以很強地泛化各種類型和強度的領域，甚至模態轉換。當然，計算成本會成倍增加。
       任務分配的多種形式  許多元學習框架[19]隱含地假設任務p（T）的分佈是單峯的，單一的學習策略ω爲它們提供了一個很好的解決方案。然而，在現實中，任務分配顯然可以是多模態的。例如，在計算機視覺中，醫學圖像與衛星圖像與日常圖像。或者機器人可以被要求執行的任務的多樣性，從在洞裏放釘子到打開門[230]。分佈中的不同任務可能需要不同的學習策略，這會降低現有元學習者的表現。在一般的多任務學習中，這一現象通過將任務分組成簇[286]或子空間[287]的方法得到了比較好的研究。然而，這一領域在元學習中才剛剛開始探索[288]。
       工作類  許多現有的元學習框架，特別是針對少數射擊學習，都需要任務族進行元訓練。雖然這確實反映了人類的終身學習，但在某些應用中，這類任務家庭的數據可能無法獲得。如何放鬆這種假設是一個持續的挑戰。無監督元學習[247]–[249]和在線元學習方法[44]、[162]、[167]、[168]、[185]可以幫助緩解這種情況；正如上文討論的元泛化改進一樣。
       計算成本  如第2.1節所示的兩層優化的天真實現導致了二次學習步驟數，因爲每個外部步驟需要多個內部步驟。而且，在許多鏡頭實驗的情況下，存在大量的內部步驟，這些步驟需要存儲在內存中。由於這個原因，大多數元學習框架在時間和內存上都非常昂貴，並且常常侷限於少數鏡頭區域的小型架構[19]。然而，人們越來越關注解決這一問題的方法。例如，可以交替進行內部和外部更新[44]，或者訓練代理模型[108]。最近的另一系列方法通過內環中的閉式解算器加速元訓練[152]，[154]。然而，該方法的代價仍然相當大，而且以前的集合啓發式算法對於收斂的意義還不清楚。最近一種使用隱式梯度計算外環梯度的方法提供了一種更便宜的選擇[153]，但它只專注於學習MAML網絡的初始化。儘管隱式梯度被證明適用於更一般的元學習任務，如學習增強網絡[145]，但它們只能直接學習損失函數中涉及的參數，並做出一些假設（如θ*處的零訓練梯度），通常會導致不準確的ω梯度。
       跨模式遷移與異構任務  到目前爲止，大多數元學習方法都考慮了來自相同形式的任務，如視覺、文本、本體感覺狀態或音頻。人類似乎能夠跨模式（例如，通過視覺模仿學習）傳遞知識。如何進行元學習，從一組任務中提取抽象知識，每個任務可能跨越一個獨特的形態，這是一個開放的問題。大多數研究都涉及到同一類型任務之間的轉換，例如對象識別，但理想情況下，我們希望能夠在異構任務之間進行轉換，例如Taskonomy[289]中研究的任務。

7 總結

最近，元學習領域的興趣迅速增長。這帶來了某種程度的混淆，涉及到它如何與鄰近的領域相關，它可以應用於什麼，以及如何對其進行基準測試。在本次調查中，我們試圖通過從方法論的角度徹底調查該領域來澄清這些問題，我們將其分爲元表示、元優化器和元目標的分類法；以及從應用的角度。我們希望這項調查能幫助新來者和實踐者在這一日益增長的領域找到自己的方向，並突出未來研究的機會。

論文閱讀：Meta-Learning in Neural Networks: A Survey