後深度學習時代的一大研究熱點?論因果關係及其構建思路

作者 | Bernhard Schölkopf

譯者 | Kolen

編輯 | Jane

出品 | AI科技大本營(ID:rgznai100)

儘管機器學習在現階段取得了很大成功,但是相比於動物所能完成的工作,機器學習在動物擅長的關鍵技術上表現不盡人意,比如問題遷移能力、泛化能力以及思考能力,因爲機器學習通常會忽略大量常用的信息。

近年來,由於因果關係可以讓模型更穩定和健壯,在機器學習領域得到了越來越多的關注。本文闡述了一些將因果關係和機器學習結合的想法,並勾勒出一個更大的藍圖,希望它不僅可以對討論因果關係於AI的重要性這一問題有所幫助,還可以介紹一些圖形或結構因果關係模型的相關概念。

1、信息處理的機械化


第一次工業革命由蒸汽機和水力引發,第二次由電氣化驅動,兩者都與如何獲取和轉換不同形式的能量有關。有人認爲我們現正處於一場新的革命,在這場革命中,信息代替了能量。同能源一樣,信息也可以經人處理,同時也可能是個守恆的量,而且信息守恆也可能是和能量守恆一樣,是對稱的結果。當然,信息和能源也並非可完全類比,比如特定的機器學習算法和計算資源,可以複製擴展到數據集,從而其他人可以從數據集中提取相同的信息,而能量只能使用一次。


類似於能源革命,當目前的革命可以分爲兩個階段:第一階段是計算機、高級編程語言和計算機科學的誕生,另一個則是我們目前正在經歷的依賴於學習的階段。它允許從非結構化數據中提取信息,並且可以自動從數據中推斷規則,而不是依靠人類來構思和編程這些規則。Judea將經典AI與概率論相結合的方式,這同時也催生了圖形化模型,但是該模型很大程度上沒有關注因果語義。近年來,機器學習與因果關係之間已經出現了真正的聯繫,我們認爲如果想在AI的主要開放性問題上取得進展,這些因果聯繫將至關重要。

2、從統計模型到因果模型


由獨立同分布(IID)數據驅動的方法 目前機器學習領域的工作大多數是基於獨立同分布(IID)的數據集。對於IID數據,是統計學習理論應用的強普適一致性結果,它能夠保證學習算法(比如最近鄰分類器和SVM)收斂到最低可實現的風險。但是當違背IID假設時,機器學習模型的效果往往很差。目前的實踐(解決IID基準問題)以及大多數理論結果(關於IID環境中的泛化)都未能解決跨問題泛化的開放性難題。當我們不再研究觀測分佈,而是研究某些變量或機制發生變化的分佈,這就到了因果關係模型的領域。


Reichenbach提出了共同原因原理:如果兩個觀測值X和Y在統計上是相依的,那麼就存在一個變量Z,它們對因果關係都有影響,並且解釋了在Z條件下使它們獨立的意義上的所有依賴性。其關鍵的見解在於,如果沒有額外的假設,就無法用觀測數據來區分這三種情況。因此因果模型所包含的信息是要多於統計模型的。


實際上,更多可觀測的情況會使問題變得更容易解決,因爲在這種情況下,因果結構隱含着特殊的條件獨立屬性。這些可以通過使用將概率圖形模型和干預的概念結合起得因果圖或結構因果模型的語言來描述。


結構因果模型(SCM)  結構因果模型(SCM)結合了圖形建模、結構方程、反事實和介入邏輯。SCM“推理引擎”通常將假設(以圖形模型的形式)、數據和查詢作爲輸入。我們可以使用這些工具正式表達因果問題,以圖解和代數形式編纂我們現有的知識,然後利用數據來估計答案。此外,當現有知識狀態或現有數據不足以回答我們的問題時,這個理論會警告我們,然後建議其他知識或數據來源,讓問題變得可回答。

3、因果模型的層次

微分方程是對系統的相當完整的描述,統計模型可以看作是比較膚淺的模型。統計模型通常告訴我們只要實驗條件不變,一些變量如何允許預測其他變量。它不允許我們預測干預措施的效果,但是它的優勢在於可以從數據中學習。因果模型則位於這兩個極端之間,它旨在提供理解並預測干預措施的效果。因果發現和學習試圖僅使用弱假設,以數據驅動的方式得出這樣的模型。如表1所示最詳細的模型(頂部)是機械模型或物理模型,通常用微分方程表示。底部是一個可以從純粹從數據中學習出的統計模型。因果模型可以看作是介於兩者之間的描述,從物理現實主義中抽象出來,同時保留了回答某些干預性或反事實性問題的能力。

表1:模型的簡單分類法

4、獨立的因果機制

每當我們感知到一個物體時,我們的大腦都會做出這樣的假設:該物體及其所包含的信息到達我們的大腦的機制是獨立的。然而我們可以從特殊角度看待這個物體從而來推翻上述假設:就Beuchet椅子而言(如下圖),我們認爲椅子的三維結構實際上並不存在。當我們考慮系統中的干預措施時也是如此,爲了使模型能夠正確預測添加干預後的效果,模型必須具有魯棒性。

圖1:Beuchet椅子,由兩個單獨的對象組成,當從特殊的視角觀看時,它們看起來像椅子,這違反了對象和感知過程之間的獨立性。


這種分佈的變化總是由這些機制中的至少一個的變化引起。根據獨立性原則,我們假設較小的變化傾向於以稀疏或局部的方式表現出來,即它們通常不應同時影響所有因素。相反,如果我們考慮到一個非因果因素,由於我們改變了系統的統計依賴性,那麼這些條件將同時受到影響。


機制依賴程度實際上,在因果圖中,即使所有機制都是獨立的,許多隨機變量也將是相關的。


算法獨立性比特串的Kolmogorov複雜度(或算法信息)本質上是圖靈機上最短壓縮的長度,因此是對其信息內容的度量。機制的獨立性可以定義爲消失的相互算法信息,也就是說,如果知道一個條件的(最短壓縮)不能幫助我們實現另一個條件的較短壓縮,則認爲這兩個條件是獨立的。

5、因果發現


實際上,在沒有函數類假設的情況下進行有限樣本一般化是不可能的,因此可以通過對函數類進行假設來解決一些很難的因果關係問題。它們還可以幫助解決基於條件獨立性測試的因果發現方法的其他缺點。條件獨立性測試在很大程度上依賴於核函數類來表示和再現核Hilbert空間中的概率分佈。到目前爲止,有許多方法可以比統計更好地檢測因果關係,其中一些方法是建立Kolmogorov複雜度模型的基礎上,也有些人直接將雙變量分佈分爲因果關係和反因果關係用於學習。

6、半同胞迴歸(Half-Sibling Regression)與系外行星探測


利用由加性噪聲模型和ICM假設啓發的因果模型,我們設計了一種方法,使得可以從一大組其它恆星中預測出一個感興趣的恆星,這些恆星的測量結果不包含恆星的天體物理信號的信息,並且爲了消除儀器的影響而刪除了這種預測。我們將這種方法稱爲“半同胞”迴歸,因爲目標和預測因子共享一個父項。


同時,我們用系外行星過境模型和有效的搜索光曲線的方法對其進行了擴充,從而發現了36個行星候選物,其中21個隨後被確認爲真正的系外行星。四年後,天文學家在系外行星K2-18b的大氣層中發現了水的痕跡,這是在可居住區域首次發現系外行星的痕跡,即允許液態水存在。

7、不變性、魯棒性和半監督學習


許多機器學習分類器並未使用因果特徵作爲輸入,它們使用效果特徵來預測原因。我們認爲因果方向對某些機器學習問題是至關重要的,對協變量轉移的魯棒性是可預期的,並且它對半監督學習做出了非平凡的預測。


半監督學習(SSL):我們認爲SSL不適用於解決因果學習問題,但是在其他方面是可行的,特別是對於非因果學習問題。還值得注意的是該領域的一些理論結果使用了因果關係圖中衆所周知的假設:聯合訓練定理對未標記數據的可學習性作了說明,並依賴於給定標籤的預測因子是條件獨立的假設,如果預測因子僅由標籤引起,即一個非因果設置。這與以上我們觀點完全吻合。


對抗性弱點:假設因果關係也會影響分類器是否容易受到對抗性攻擊。這些攻擊顯然違反了機器學習基礎的IID假設。在對抗環境中,修改後的測試集與訓練集並非來自相同的分佈,因此它們會干預模型優化。對抗現象還表明,當前分類器表現出的魯棒性與人類表現出的魯棒性不同。最近的研究工作表明:可以通過對因果產生方向進行建模來解決反因果分類問題,從而防禦對抗攻擊。


多任務學習:假設我們要構建一個可以在多個環境中解決多個任務的系統,這樣的模型可以採用學習的方式:假設有多個數據集,它們是從相似但不相同的SCM採樣的,如果SCM共享大多數組件,那麼我們可以通過對SCM中的函數進行編碼來壓縮多個數據集,並且正確的結構應該是最緊湊的方向,因爲它是跨數據集共享許多功能的方向,因此只需要編碼一次。


強化學習:可以考慮將統計學習轉向因果學習與強化學習(RL)的結合。事實證明,高維度的數據可通過尋找不變性來幫助確定因果關係特徵,從而更普遍地有助於尋找因果關係,這可以使RL在其模型中找到強大的模塊,這些模塊很可能會推廣到狀態空間的其他部分。因爲基於策略的RL可以有效地直接估計概率,因此它比機器學習的主流方法更適合因果關係研究。

8、因果表徵學習


傳統的因果發現和推理假設單位是由因果圖連接的隨機變量,因果表示學習嘗試從數據中學習這些變量,其不要求算法操作的符號具有先驗性。因果結構模型可以由微觀模型產生(微觀結構方程模型、常微分方程和時間聚集時間序列)。爲了將結構因果模型與表示學習相結合,可以將SCM嵌入到較大的機器學習模型中,該模型的輸入和輸出可能是高維的和非結構化的,但其內部工作至少部分地由SCM支配。


學習可轉移的機制:對於每個任務/領域,我們只有有限的數據,因此需要找到合併/重用數據的方法。一種較好的實現方法是採用一種可以反映世界上相應的事物的模塊化結構。可以通過尋找獨立的因果機制來學習這類模型,而競爭訓練也可以在模式識別任務方面發揮作用。學習包含獨立機制的因果模型有助於跨領域模塊轉移。


學習糾纏的表示:前文討論的ICM其實表明了SCM噪聲項的獨立性,進而證明了解糾纏表示的可行性以及條件關係P(Si |Pai)在相關問題上是獨立可操作且基本不變的性質。假設我們試圖使用獨立機制從數據中重建這種解纏結的表示形式, 從中我們可以構造因果變量S1, … , Sn(n<< d)以及建模Si之間的因果關係的機制,如下公式。


學習介入世界模型和推理:現在的表示學習是在不考慮變量的因果關係的情況下進行的,並不關心其分析或重構的變量的介入性。因果關係將把表示學習提升到新的高度,將從基於統計依賴結構的模型轉向支持干預,計劃和推理的模型,實現能夠在一個想象的空間思考。最終,這可以使得機器具有反思自己的行動並設想替代方案的能力。

鏈接:

https://arxiv.org/pdf/1911.10500.pdf


(*本文爲AI科技大本營編譯文章,轉載請微信聯繫 1092722531)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章