伯克利提出AdaSearch:一種用於自適應搜索的逐步消除方法

在機器學習領域的諸多任務當中,我們通常希望能夠立足預先給定的固定數據集找出問題的答案。然而,在某些應用場景下我們並沒有先驗數據可供參考; 相反,我們必須自行收集數據以回答那些自己感興趣的問題。舉例來說,這種情況在環境污染物監測以及人口普查類調查中就比較常見。自行收集數據的方式,使得我們能夠將注意力集中在相關度最高的信息來源身上。然而,確定哪些信息來源能夠生成有用的指標同樣不是件易事。此外,當物理代理(例如機器人、衛星、人類等)進行數據收集時,我們必須首先規劃需要測量的指標,以便縮短代理活動時長並降低相關成本。我們將這個抽象問題,稱爲自適應傳感

我們引入了一種新的方法以體現自適應感知問題,其中的機器人必須遍歷所處環境以識別值得關注的位置或對象。自適應傳感涵蓋機器人技術當中衆多已經得到充分研究的問題,包括快速識別意外污染泄漏與放射源,以及在搜索與救援任務當中尋找人類目標等。在這類場景當中,設計一條能夠儘快返回正確解決方案的傳感軌跡往往直接決定着任務的成敗。

在這裏,我們以放射源搜尋(簡稱RSS)問題爲例,其中無人機必須在所處環境中發現K個最爲嚴重的發射性源頭,而K爲用戶定義的參數。放射源搜尋屬於自適應傳感問題中一類特別有趣的例子,這主要是因爲其中往往存在大量異質化明顯的背景干擾,此外我們還很難找到適合統計置信區間且擁有良好表徵的傳感模型。

image

在這裏我們引入了AdaSearch,一套用於常規自適應傳感問題的逐步消除框架,這裏將在放射源搜尋場景下進行演示。AdaSearch能夠持續且明確地提供環境中每點放射率的置信區間。利用這些置信區間,算法將以迭代方式識別可能作爲主要放射源的一組候選點,同時排除掉其它的點。

以體現搜索作爲多重假設檢驗場景

從傳統角度來講,機器人社區一直將體現搜索(embodied search)目標設想爲連續運動規劃問題。其中,機器人必須在環境探索與有效軌跡選擇之間做出有效平衡。這一基本思路意味着原有算法會將軌跡優化與探索結合至單一目標當中,從而利用滾動優化控制進行優化(參見Hoffman與Tomlin、Bai等人、以及Marchant與Ramos的各自相關論文)。但我們的想法與此不同:我們希望建立起一種替代性方法,通過假設檢驗將問題表述爲一種可排序的最佳行動識別。

在可排序的假設檢驗當中,我們的目標是通過迭代方式收集數據,從而針對多個單獨問題得出結論。我們爲代理提供一組N個測量行動,其中每種行動都根據不同的固定分佈產生觀察結果。

代理的目標是學習這些N個觀測分佈的一些預先指定的性質。舉例來說,在“A/B測試”這一統計問題當中,測量行動對應於向新客戶展示產品A或產品B,同時記錄他們對於相關產品的評估意見。在這裏,N=2,因爲其中只涉及兩種行動——向客戶展示產品A,以及向客戶展示產品B。其中需要關注的屬性,在於哪款產品得到的平均反饋更好(如下圖所示,B的反饋更好)。隨着收集到客戶的偏愛情況,我們將能夠獲得產品樣本平均反饋以及與之相關的置信區間,這一區間由每款產品的置信區間下限(簡稱LCB)與置信區間上限(簡稱UCB)予以描述。隨着收集到的測量值不斷增加,我們對於每款產品的反饋預估將更爲自信,換言之我們能夠進一步確定兩款產品的真實排名。從結果來看,只要達成下述條件,則產品B的反饋要好於產品A:如果產品B的置信下限高於產品A的置信上限,即可基本斷定產品B的平均反饋情況有很大機率高於產品A。

image
 
在環境感測場景下,每種行爲都對應着一組來自給定位置與方向的傳感器讀數。通常來講,代理希望瞭解哪項單一度量行爲能夠帶來最大的平均觀察信號值,或者說一組K項行爲能夠帶來更高的總體平均觀察值。爲了實現這一目標,代理可能會利用以往觀察到的結果按排序選擇行爲,從而儘可能採取具有最大平均觀察值的行爲以實現潛在的行動收益。

乍看起來,最佳行爲排序識別這種方法似乎過於抽象了,很難在具體的移動傳感代理當中發揮作用。但事實上,代理可以選擇任意度量行爲序列,而無需考慮潛在成本,例如與變更行爲相關的活動時間。與此同時,最佳行動排序識別機制自身的抽象性質正是其最強大的力量所在。通過以精確的統計語言制定具體的搜尋問題,我們得以制定出與每項感測行爲相關的可操作觀察置信區間,同時在確定需要關注的目標觀察點之前整理出所需採取的所有行爲集合。

我們提出的具體搜尋方法正是AdaSearch,其利用來自最佳行爲排序識別與全局軌跡規劃的啓發式置信區間,從而分步漸近地實現複雜度最優度量,同時有效分攤活動成本。

放射源搜尋

爲使闡述更加具體,我們將以單一放射源搜尋問題爲場景解讀AdaSearch的工作原理。我們將環境建模爲一套平面網絡,如下圖所示。其中只存在一個高強度放射性源(下圖中紅點位置)。然而,定位該位置非常困難,因爲傳感器的測量功能會被背景輻射(即粉紅點位置)所幹擾。我們通過在網格上方部署配有輻射傳感器的四旋翼飛行器來獲取傳感測量值。這一案例的目標,在於設計出一系列軌跡以確保機載傳感器能夠獲得正確的測量值,從而使我們能夠儘快將放射源位置與背景放射位置區分開來。

image

AdaSearch

我們的AdaSearch算法將全局覆蓋規劃方法與基於假設檢驗的自適應傳感規則相結合,旨在定義出最優軌跡。在第一次進行網格探索時,我們會對整體環境進行均勻採樣。

image

在經過第一輪探索與測量結果觀察之後,我們可以略去其中一部分區域。如果某個點的置信區間上限低於其周邊任何點的平均觀察值置信區間下限,則將該點排除——這意味着其不太可能是我們需要搜尋的放射來源。

image

在下一輪搜尋中,AdaSearch將專注於對作爲潛在放射源位置的剩餘點(即綠色方塊)進行更細緻地採樣。

image

整個過程將不斷繼續,每輪的候選放射源數量也將持續減少,直到最終只剩下一個點。AdaSearch會返回此點(即放大的紅點),這就是搜尋工作最終給出的放射源答案。

由於整個統計公式清晰可信,因此我們基本可以肯定在已知的傳感模型下,AdaSearch有很高機率能夠返回正確的放射源位置。我們在算法的整個執行過程當中設立固定的各單獨區域周邊置信界限寬度(以標準差方式),從而確保該概率具有一定程度的置信度。此外,AdaSearch還提供特定於具體環境的運行時保證,更多詳情請參考我們的論文。(https://arxiv.org/abs/1809.10611)。

實驗基準

對於常規自適應搜尋問題,目前最流行的解決方案當數信息最大化(Bourgault等人提出)。信息最大化方法的基本思路在於根據信息理論標準在高機率位置收集測量值,並遵循滾動優化規劃以進行軌跡規劃。下面,我們將把AdaSearch與同樣針對放射源搜尋場景定製的信息最大化方案InfoMax進行比較。

遺憾的是,對於規模較大的搜索區域,這種方法的實時計算存在諸多侷限,例如只能給出規劃範圍與軌跡參數化的近似結果。這些近似結果可能導致算法貪婪性過高,且浪費太多時間以追蹤無法解決問題的錯誤線索。

爲了消除統計置信區間與全局規劃啓發(這一組合直接對打InfoMax中的信息指標與滾動優化規劃)間的歧義,我們選擇一種簡單的全局規劃方法NaiveSearch作爲輔助基準。該方法會均勻地對網格進行採樣,且保證在每個網格單元處花費相同的採樣時間。

實驗結果

我們建立起全部三種算法,並立足一套以4米爲基本網格單位的64 x 64環境下利用仿真四旋翼無人機加模擬輻射傳感器讀數對其進行了測試,希望瞭解三者在十種隨機實例排佈下的具體效能。

在我們的實驗中,我們觀察到AdaSearch在計算完成速度總體上快於NaiveSearch以及InfoMax。隨着我們不斷增加背景輻射的最高水平,AdaSearch相較於NaiveSearch的運行時間比較優勢亦持續提升,這與論文中提出的理論界限相符。

image

AdaSearch相較於NaiveSearch的效能提升表明,自適應性方法確實比非自適應方法更具優勢。同樣令人驚訝甚至出乎意料的是,即使是NaiveSearch,在處理此類問題時也往往能夠帶來優於InfoMax的表現。這意味着InfoMax中採用的滾動優化控制方法存在局部貪婪性,並因此損害了其實際效能。相比之下,AdaSearch則優雅地將自適應策略與全局覆蓋保證加以結合。

AdaSearch更具通用性

在放射源搜尋案例中大獲得成功的無人機載AdaSearch演示,不禁令我們想到這種新型算法還能夠在哪些更爲常規/通用的問題中帶來良好表現?事實證明,這種核心算法擁有相當廣泛的適用範圍,甚至適用於多種非機器人體現型傳感問題。

舉例來說,我們可以考慮在某一地區分佈的100家醫療診所中爲10家規劃試點計劃的問題。我們可能需要立足診所的具體位置進行調查,從而評估哪裏纔是某種特定罕見疾病發病率最高的區域或者各地區的具體發病率水平。這是一項具體型感測問題,因爲診斷工作由醫師親自進行。很明顯,人力調查員的數量有限,而且同一組調查員的工作時間需求以及在各診所之間的往來成本都屬於客觀存在的物理限制。

調查工作的調度人員可以利用AdaSearch的指導意見整理各診所位置在計算該疾病新病例時的具體用時,外加由此前往其它診所的距離,從而權衡往來行程時長以確保調查人員能夠在單位時間之內收集到更多相關數據。

一般來講,當我們認爲測量過程中的干擾因素足以保證算法在數據收集過程中完成多輪區域探索時,AdaSearch即可帶來良好的預期表現。無論是搜尋放射源頭還是調查罕見疾病的發病率,我們都可以將其建模爲泊松分佈隨機變量,其中的方差會隨平均值變化而變化。AdaSearch能夠輕鬆適應不同的噪聲模型(例如高斯模型),從而對接存在此類模型的多種不同應用場景。只要我們能夠計算或者框定出適當的置信區間邊界,AdaSearch就能夠保證有效遍歷該區域以找到需要關注的目標點。

如果您希望瞭解關於AdaSearch的更多細節信息,可通過以下鏈接獲取論文全文: https://arxiv.org/abs/1809.10611

查看原文鏈接:
https://bair.berkeley.edu/blog/2018/11/14/adasearch/

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章