自動駕駛近期行爲預測和規劃的一些文章介紹(上)

最近看到關於自動駕駛行爲預測和規劃的一些文章,想在這裏介紹一下,共分爲上下兩篇,本文是上篇。

《An Auto-tuning Framework for Autonomous Vehicles》

百度Apollo2018年的工作報告。

許多自動駕駛運動規劃器通過優化獎勵/成本功能來生成軌跡。不同駕駛條件下爲4級自動駕駛車輛設計和調整高性能獎勵/成本功能的工作是具有挑戰性的。傳統上,獎勵/成本功能調整涉及大量的人力和在模擬和道路測試上花費的時間。隨着場景變得更加複雜,調整改善運動規劃器性能會變得越來越困難。

爲了系統地解決這個問題,百度開發一個基於Apollo自動駕駛框架的數據驅動自動調整框架。該框架包括基於排名的條件逆強化學習(rank-based conditional inverse reinforcement learning,RC-IRL)算法、離線訓練策略以及收集標記數據的自動方法。

這種自動調整框架適合於自動駕駛運動規劃器調整。與大多數IRL算法相比,其訓練是有效的,能夠適應不同的場景。離線訓練策略提供了一種在公共道路測試之前調整參數的安全方法。收集並自動標記專家駕駛數據和有關周圍環境的信息,可大大減少手動操作。最後,通過模擬和公共道路測試可以檢查該框架調整的運動規劃器。

如圖所示,爲了擴大運動規劃器場景覆蓋範圍並改善案例性能,建立這個自動調整系統,其中包括在線軌跡優化和離線參數調整兩部分。在線模塊專注於在約束條件下給出獎勵功能,從而產生最佳軌跡。運動規劃器模塊與特定方法無關,可以使用不同的運動規劃器,例如基於採樣的優化、動態編程或強化學習,來生成軌跡。這些運動規劃器的性能在量化最優性和魯棒性等指標進行評估。通常在線部分的最優性可以通過最佳軌跡和生成軌跡的獎勵函數值的差異來測量,魯棒性可以通過給定特定情景下生成軌跡行爲的方差來測量。 模擬和道路測試提供了對運動規劃器性能的最終評估。

離線調整模塊專注於提供可適應不同駕駛場景的獎勵/成本功能。 運動規劃獎勵/成本功能包含描述平滑性和與周圍環境交互的特徵。 通常可以通過模擬和道路測試來調整獎勵/成本功能。如下圖所示,測試一組參數需要模擬和路上測試。然而,反饋循環是最耗時的組件,因爲在僅從一組參數得出結論之前,需要數千或更多的駕駛場景驗證。

RC-IRL方法學習獎勵功能的想法包括兩個關鍵部分:條件性比較(conditional comparison)和基於排名的學習(rank-based learning)。要注意到幾點:1)其方法不是比較專家論證和最優策略的價值函數(value functions)期望,而是比較價值函數的狀態;2)爲了加快訓練過程並擴大極端案例的覆蓋範圍,它對隨機策略採樣並與專家論證比較,而不是如策略梯度法那樣先生成最優策略;3)背景差異(駕駛場景造成的)可能會顯著影響調整後的獎勵功能。

如圖所示,Apollo自動駕駛系統的自動調整框架包括在線軌跡評估和離線參數調整兩部分。爲保持一致性,兩個部分共享一些通用性模塊。原始特徵生成器從環境中獲取輸入並且無差別地評估採樣或人類司機的駕駛軌跡; 軌跡採樣器使用相同的策略分別爲離線和在線模塊生成候選軌跡。在線評估器從軌跡中提取原始特徵之後,應用獎勵/成本函數來提供分數。對所有得分軌跡排序或動態規劃(例如基於搜索的算法)選擇最終輸出軌跡。

RC-IRL訓練和一般Siamese網絡一樣,下圖是RC-IRL中的Siamese網絡。人類司機和採樣軌跡的價值網絡共享相同的網絡參數設置。損失函數通過價值網絡輸出評估採樣數據和生成軌跡之間的差異。


Siamese模型中的價值網絡捕捉基於編碼特徵的駕駛行爲。該網絡是不同時間編碼獎勵的可訓練線性組合。編碼獎勵的權重是可學習的時間衰減因子。編碼獎勵包括21個原始特徵的輸入層和15個節點的隱藏層。

下表是採用的軌跡上點特徵:

在測試中,給定站點-橫向座標系(station-lateral coordinate system)的路徑輪廓(path profile),如果與自車的移動路徑存在任何交互,則障礙物和預測移動軌跡投影在站點-時間圖(station- time graph)上。目標是在站點-時間圖上生成速度曲線,安全地避開障礙物並保持平穩駕駛。通過優化成本/回報(cost/reward)功能來生成滿足軌跡平滑度、不同障礙物距離和路徑平滑度等方面的最佳速度曲線。

下表列出了與運動規劃相關的關鍵績效指標。 在表格中,將Pcollision free列爲運動規劃的安全指數,並將範圍內橫向和縱向加速度的概率以及範圍內的抖動約束列爲軌跡平滑度的指標。在模擬中,RC-IRL的SIAMESE網絡比GAN訓練的獎勵功能表現更好。

《Adaptive Behavior Generation for Autonomous Driving using Deep Reinforcement Learning with Compact Semantic States》

在交通規劃中做出正確的決策是一項具有挑戰性的任務,很難僅根據專業知識進行建模。這項工作用深度強化學習(Deep RL)基於緊湊的語義狀態表示來學習機動決策。這個實現了一個跨場景的環境模型以及行爲的自適應,即無需重新訓練,它即可實現所需行爲的在線更改。

類似於雷達或激光雷達傳感器,其神經網絡的輸入是模擬的目標列表,同時疊加一個相關的語義場景描述。狀態(state)以及獎勵(reward)分別通過行爲自適應和參數化來擴展。可以看出,只有很少的專業知識和一系列中級動作(action),這個代理(agent)仍然能夠遵守交通規則並學會在各種情況下安全駕駛。

下圖是DRL的示意圖:初始交通場景被轉換爲緊湊的語義狀態表示s,作RL代理的輸入。代理估計具有最高回報(Q值)的動作a並執行它,例如改變車道。之後,收集獎勵r並達到新的狀態s’。 狀態轉換(s,a,r,s’)存儲在代理的重放(replay)存儲器中。

定義以自我車輛vego∈V爲中心的關係網格。行對應於關係車道拓撲,而列對應於車道上的車輛拓撲。下圖展示如何構建關係網格:

(a)自我車輛(藍色)在雙車道道路上行駛。其他五個車輛在其傳感器範圍內。基於車輛範圍Λlateral=Λahead=Λbehind= 1,在語義狀態表示中僅考慮四個車輛(綠色)。

(b)由(a)的場景產生的關係網格,其中Λlateral=Λahead=Λbehind= 1。此外,右邊沒有相鄰的車道,也在網格中表示出來。

在上圖中,用Λlateral=Λahead=Λbehind= 1的車輛範圍Λ,將示例場景(a)變換爲關係網格(b)。處於傳感器範圍內的紅色車輛未在網格中表示。由於在自我車輛同一車道的前方沒有車輛行駛,因此網格中相應關係位置是空的。

接着上圖,下圖介紹如何構建可視化的場景實體關係(entity-relationship)模型:車輛拓撲結構由車-車關係建模,而車道拓撲結構由車道-車道關係建模。

但是該表示是大小可變的,還包括除了給定駕駛任務相關方面以外的其他方面。爲了作神經網絡的輸入,將其轉換爲僅包含最相關的、大小固定的關係網格。

如圖所示,在關係網格每個特徵包含一層。車輛特徵fvi和fvego共享層,分別位於vi和vego單元格中。 車道特徵fkl位於網格第k行的附加層。

雖然也能夠處理自動駕駛汽車中預處理數據,但仍然使用交通仿真工具SUMO測試。下圖所示,在SUMO檢索出當前狀態,並轉換爲語義狀態表示。 這是RL代理的輸入,用TensorForce庫進行訓練。選擇的動作被映射到模擬的相應狀態變化。基於初始狀態、所選動作和後繼狀態,計算代理的獎勵。

爲了監督代理去遵守流量規則,在兩種不同的流量方案中訓練和評估,如下圖所示: (a)代理有義務在最右邊的車道行駛,除了其他限制之外,不得從右邊通過其他車; (b)允許代理在進入匝道時加速,還可超過其左側的車輛。但必須在結束前離開入口。


下圖是超車動作示意圖。 代理車(藍色)在較慢的車輛(綠色)之後。 在這種情況下,左側的動作“換道”具有最高的估計Q值。 換道後,代理加速並超過較慢的車輛。 隨後,代理變回最右邊的車道。

下表是訓練的代理結果。 代理gH(高速公路)和gM(合併坡道)僅在各自的情景下評估,同時評估gC(高速公路和合並坡道)。 每種方案都單獨列出gC結果。

下表是給定不同的所需速度[m / s]下代理的平均速度。已經在正常交通密度的訓練場景和空曠的高速公路做評估。雖然代理不是都能夠精確地達到所需的速度,但其行爲適應不同的參數值。

《Probabilistic Prediction of Interactive Driving Behavior via Hierarchical Inverse Reinforcement Learning》

爲了安全有效地與其他道路參與者進行交互,自動駕駛車必須準確地預測周圍車輛的行爲並相應地進行規劃。這種預測是概率性的,以解決人行爲的不確定性。這種預測也是交互式的,因爲預測車輛的軌跡分佈不僅取決於歷史信息,還取決於與其交互的其他車的未來規劃。

爲了實現這種交互覺察的預測,提出了一種基於分級的逆強化學習(IRL)的概率預測方法。1)明確地考慮了涉及離散和連續駕駛決策的人類司機分級軌跡生成過程,基於此預測車輛所有軌跡的分佈定義爲離散決策劃分的混合分佈;2)分級地應用IRL學習人類真實駕駛的分佈。

該方法側重於預測兩個車輛司機的交互行爲:主車輛(H)和預測車輛(M)。其他所有現場車輛被視爲周圍車輛(O)。用ξ來表示歷史車輛軌跡,ξˆ表示未來軌跡。

很明顯,預測車輛所有可能軌跡的概率分佈取決於自身的歷史軌跡和周圍車輛的軌跡。在數學上,這種時域狀態依賴關係可以建模爲條件概率密度函數(PDF):


預測車輛所有可能軌跡的概率分佈也應該以主車輛的潛規劃爲條件。這樣上面的條件PDF可以改寫成

人類司機的軌跡生成過程是概率性的和分級的。它涉及離散和連續的駕駛決策。離散駕駛決策將未來軌跡的“粗略”模式,或同倫類(homotopy class),確定爲遊戲理論結果(例如,讓步或通過),而連續駕駛決策影響軌跡的細節,例如速度、加速度和平滑度。

下圖展示在駕駛換道場景的概率的和分級的軌跡生成過程。其中預測的車輛(藍色)試圖合併到主車輛佔用的車道(紅色)。給定所有觀測到的歷史軌跡ξ={ξ1:NO, ξH , ξM }以及對主車輛未來軌跡ξH的置信,預測車輛在所有軌跡空間上的軌跡分佈先被離散決策劃分成:後合併(d1M)和前合併(d2M)。在不同的離散決策下,連續軌跡的分佈看着不同,其中每一個表示爲概率分佈模型。觀察到的操作就是滿足這個分佈的樣本。

條件分佈被定義成混合分佈,明確地捕獲人類司機離散和連續駕駛決策的影響:

然後,提出分層的逆強化學習(IRL)方法來學習觀察到的人類司機操作的所有模型。基於最大熵的原理,假設所有司機更有可能做出降低成本的決策(離散和連續),這引入了一組取決於成本函數的指數分佈,而興趣在於找到最終帶來軌跡分佈與給定司機操作集Ξ中觀察到的軌跡相匹配的最佳分層成本函數。

由於軌跡空間是連續的並且實際的操作相對噪聲是局部最優的,因此採用局部最優示例的連續逆最優控制(Continuous Inverse Optimal Control)方法。

對連續駕駛決策而言,在離散的決策下,假設每個軌跡的成本可以由一組選定的特徵線性地參數化,那麼給定的實際操作數據,其連續空間IRL的目標是找到實現以下優化函數的最佳參數向量。


對離散駕駛決策而言,假設成本較低的決策是指數可能,那麼離散空間IRL的目標是找到實現以下優化函數的最佳參數向量

取對數分佈和梯度下降迭代,其參數計算公式是


其中

本文實驗是從Next Generation SIMulation(NGSIM)數據集中收集人類駕駛數據。安裝在周圍建築物頂部的攝像機捕捉高速公路的駕駛行爲/軌跡,其中軌跡的採樣時間爲△t = 0.01s。在加州80號州際公路選擇134個車輛閘道合併軌跡,並將它們分成兩組: 80爲訓練集以及其他54爲測試集。

下圖顯示道路圖(road map)和一組示例軌跡。現場有四輛車,一輛要合併的車輛(紅色),一輛保持車道的車輛(藍色),還有兩輛周圍車輛(黑色),其中一輛在藍色車前面,另一輛在後面。感興趣的是分析合併車輛(紅色)和車道保持車輛(藍色)的交互式駕駛行爲。

同樣採用分層IRL方法來模擬合併車輛和車道保持車輛的條件概率分佈。對車輛從閘道合併情景,其駕駛決策如表所示。

實驗中使用Tensorflow實現分層IRL算法。下圖給出了有關連續和離散駕駛決策的訓練曲線。由於層次結構,在不同的離散決策下學習合併車輛和車道保持車輛的有四個連續分佈模型。從訓練集中隨機抽取軌跡子集並執行多個訓練。如圖所示,每個連續模型的參數小方差地一致收斂。

在測試中,通過學習的連續成本函數求解有限時域滾動(finite horizon)模型預測控制(MPC)問題,從而在不同的離散駕駛決策下生成最可能的軌跡。

下圖是三個說明性示例:紅色虛線和藍色實線分別表示預測的最可能軌跡和真實軌跡;粗黑點劃線是其他車輛的軌跡;可以看出預測軌跡非常接近真實軌跡。

《Risk-averse Behavior Planning for Autonomous Driving under Uncertainty》

自動車輛必須能在周圍環境中導航,可以觀察同一道路的其他部分車輛。自主車輛測量中的不確定性(uncertainty)來源包括傳感器融合誤差、天氣或目標檢測延遲導致傳感器的有限範圍、遮擋以及諸如其他司機意圖的隱參數。

行爲規劃必須考慮確定未來車輛機動的所有不確定因素。本文結合QMDP,無跡變換(unscented transform)和蒙特卡羅樹搜索(MCTS),提出了一種不確定下可擴展的規避風險(risk-averse)行爲規劃框架。

考慮模塊化堆棧,基於傳感器輸入和地圖信息推斷道路世界模型(road world model, RWM)。設st表示自車的狀態和時間t與自車同一道路的其他目標,其中第j個目標狀態定義爲

它們分別代表目標的橫向和縱向位置、速度和加速度;爲了簡單起見,扔掉時間指標。
考慮一個分層行爲規劃器,其中動作空間A定義爲高級動作集合AHL = {LaneKeep,LaneChangeR,LaneChangeL,Yield,Negotiatelanechange}的組合,還有一組參數Θ指定如何執行某個動作(安全時間間隔、前方車輛的最小距離、所需速度、最大加速度/減速度、禮貌水平、以及變道的方向和最大時間/距離)。

將行爲規劃器動作傳遞到運動規劃和控制模塊,可生成軌跡規劃和油門/轉向控制。根據RWM的時間序列輸入,行爲規劃器根據風險規避度(risk-averse metric)選擇一個動作:


這是一個部分可觀察馬爾可夫決策過程(POMDP)問題,其精確的解決方案在計算上是難以實現的。相反,用無跡變換(UT)的QMDP框架來生成置信分佈的採樣點。

這裏要計算給定狀態s的QMDP(s,a),使用了一個在線規劃器,尤其是採用一個蒙特卡羅樹搜索(MCTS)。

模擬實驗中,主要研究不確定性的兩種駕駛情景:1)道路上超出傳感器範圍的靜止目標,以及2)有限視野的高速閘道,如圖所示。

考慮兩種基於MCTS的方案:1)無噪聲觀測值的MCTS-Genie,2)基於噪聲測量做出決策的MCTS-Noisy。自車和合並車的初始速度均爲20m / s。如圖比較了候選算法的自車速度,如表提供了車輛在合併點更多的狀態信息,這樣實現一個合併車速度的初始測量低於實際值的噪聲。

MCTS-Noisy開始時假設合併車比自車慢,並且決定自車加速在到合併點之前越過合併車。然而,幾秒鐘後,它意識到初始值差太遠,實際上它無法越過合併車。雖然它採用了強減速(加速度爲-6.8m / s3),但在合併點之前沒有足夠的時間來創建安全間隙(參見表)。

MCTS-Genie觀察合併車的實際速度,從一開始就做出正確的決定。

RA-QMDP(選擇α= 0.01和ε= 1)採用三個採樣點,其中一個認爲合併車的速度比RWM報告的速度快。然後,它做出一個規避風險的決定,迫使自車放慢速度並增加與合併車的差距。請注意,RA-QMDP在做出決定時有一些延遲,因爲它的評估也受到另外兩個採樣點的影響,這兩個採樣點表明合併車在減速並且可能有機會越過它。

##《Zero-shot Deep Reinforcement Learning Driving Policy Transfer for Autonomous Vehicles based on Robust Control》

雖然深度強化學習(深度RL)方法具有很多優勢,應用於自動駕駛,真正深度RL應用已經因源(訓練)域和目標(部署)域之間的建模差距而減慢。與當前的策略遷移方法(通常限制用不可解釋的神經網絡表示作爲遷移特徵)不同,本文建議在自動駕駛中遷移具體的運動學量。

提出的基於魯棒控制的(robust-control,RC)通用遷移架構,稱爲RL-RC,包括可遷移的分層RL軌跡規劃器和基於擾動觀測器(disturbance observer,DOB)的魯棒跟蹤控制器。利用已知標稱(nominal)動力學模型訓練的深RL策略直接傳遞到目標域,應用基於DOB的魯棒跟蹤控制來解決建模間隙,包括車輛動力學誤差和外力擾動(external disturbances),例如側向力(side forces)。所提供的模擬驗證實現了跨越多種駕駛場景的零擊遷移(zero-shot transfer),例如車道保持,車道變換和避障。

所提出的RL-RC策略遷移體系結構由基於RL的深層高級規劃模塊和基於RC的低層跟蹤控制器組成。總體方法包括離線深入的RL策略訓練和在線策略遷移,如下圖所示。在離線源域(source domain),預訓練將感知輸入映射到控制命令的深度RL策略,駕駛源車(source vehicle)產生完成控制任務的軌跡。對於目標域(target domain)的在線遷移,它顯示了系統如何遷移源車的駕駛策略。

根據感知觀測量,在與目標代理(target agent)相同的設置下系統構建虛擬源代理(source agent)。在虛擬源域,預訓練策略控制虛擬源代理執行有限生命期(finite horizon)的駕駛任務,產生運動狀態軌跡,用作目標車輛的參考。給定參考軌跡,目標代理使用閉環的魯棒跟蹤控制器生成目標車輛的實際控制命令。

當目標環境繼續發展時,收集新時刻的觀測量,系統重複相同的過程。在這種體系結構中,運動學特徵無需更改就可以傳遞,建模間隔可以通過RC進行補償。爲了在虛擬源域生成參考軌跡,要訓練一個深度RL策略網絡,該網絡將感知輸入直接映射到運動狀態軌跡。

RL-RC系統有兩個主要基本假設:

(i)假想的源代理規劃的軌跡可滿足目標任務;
(ii)讓目標車輛跟蹤源車輛產生的軌跡是可行的。

以上這些假設是合理的,因爲源車輛和目標車輛及其設置是相似的,而RL-RC只對這種情況是有效的。下圖是模擬環境和控制器中線性跟蹤模型的術語說明。

要使用深度RL取學習駕駛策略,需將駕駛任務定義馬爾可夫決策過程(MDP)。由於不同的任務具有不同的觀測值,因此將觀測值的羣(clusters)定義爲實體(entities)。

如表顯示車道保持(LK)、車道變更(LC)和避障(OA)的任務界面。在實施中,應用模塊化不同駕駛屬性的分層RL模型。這些屬性指的是駕駛行爲,例如障礙物檢測、車道選擇和車道跟蹤。

而這個表和下圖給出RL詳細的模塊接口及其用法。使用分層RL模塊爲車道保持(LK),車道變更(LC)和避障(OA)任務提供組合策略。

從理論上講,可以使用任何一種方法(包括深度RL)來優化所有三個基本模塊。在實施中,爲簡單起見,車道選擇和障礙物檢測均基於規則,並進行了合理的優化。使用無模型的深度RL優化了車道跟蹤。分層實現的好處是,與複雜的高級駕駛策略的E2E訓練相比,基本的屬性模塊更易於優化。

要設計控制器,首先需要獲得跟蹤問題的近似線性模型。本文橫向動力學採用恆速線性自行車模型

用以上公式,並應用前向歐拉離散方法(forward Euler discretization),可以得到整體跟蹤模型,其框圖如下:

基於源車輛的標稱模型設計魯棒控制器。然後將擾動觀測器(DOB,disturbance observer)添加到標稱反饋控制器,整個閉環系統的框圖如下所示:

下圖是在有建模間隔的換道(LC)任務中RL和RL-RC的駕駛行爲比較。

《Multimodal Trajectory Predictions for Autonomous Driving using Deep Convolutional Networks》

交通行爲存在高度不確定性,自駕車在道路上會遇到大量情況,創建一個完全廣義化的系統非常困難。爲了確保安全和運行有效,需要自動駕駛車輛來解決這種不確定性並預測其周圍的交通參與者可能的多種行爲。

一個解決方法是預測參與者可能的多個軌跡,同時估計出現的概率。該方法將每個參與者的周圍上下文信息編碼成一個光柵圖像,作爲深度卷積網絡的輸入,自動導出任務相關的特徵。

首先,光柵化那些參與者特定的BEV光柵圖像,該圖像對參與者周圍以及其鄰近參與者(例如其他車輛和行人)的地圖進行編碼。如下圖爲例,對未來6秒車輛軌跡的多模態建模; 預測的軌跡以藍色標記,在軌跡的末尾指示其概率。

然後,給定第i個參與者的光柵圖像和時間步長tj的狀態估計sij,用CNN模型預測M個可能的未來狀態序列以及每個序列的概率pim,使得åm(pim)= 1,其中 m表示模式索引。

簡化推斷第i個參與者的未來x-和y-位置的任務,而其餘狀態可以通過sij和未來位置估計。時間tj的過去和將來位置以時間tj參與者狀態導出的參與者-中心座標系來表示,其中前向是x軸,左向是y軸,參與者的邊框質心是原點。

下圖是採用的網絡架構圖,參與者特定的、分辨率爲0.2m的300×300 RGB光柵圖像和參與者當前狀態(速度,加速度和航向變化率)作爲輸入,輸出M個未來x-和y-位置的模式(每個模式有2H個輸出) )及其概率(每個模式是一個標量)。 這樣每個參與者的輸出爲(2H +1)M。 概率輸出通過softmax層傳遞確保總和爲1。任何CNN架構都可以用作基礎網絡,這裏使用MobileNet-v2。

它提出一種多軌跡預測(Multiple-Trajectory Prediction,MTP)而不是單軌跡預測(STP)損失函數,該損失可以顯式地對軌跡空間的多模態建模。首先,在時間tj處第i個參與者第m個模式的單模損失L定義爲地面真實軌跡與第m個模式的預測軌跡之間的平均位移誤差(L2-範數):

而MTP損失定義如下:

其中

但是,損失中的距離函數不能很好地模擬交叉路口的多峯行爲,如圖所示。 爲了解決這個問題提出了一種函數,該函數考慮從參與者位置看去、兩個軌跡最後點之間的夾角來測量距離,從而改善了交叉路口場景的處理性能。

假設有可以遵循的可能車道知識,以及過濾不太可能車道的車道評分系統,那麼添加另一個光柵化層,對該信息進行編碼並訓練網絡輸出車道跟隨軌跡。 然後,對於一個場景,生成具有多個要跟隨車道的柵格,從而有效地推斷出多個軌跡。下圖顯示了同一場景的柵格,但是使用兩條不同的跟隨車道,這些車道用淺粉紅色標記,一條直線行駛,一條向左轉。 該方法輸出的軌跡很好地遵循了預期的路徑,並且可以生成尋車道車輛的多個軌跡。

下圖展示的是,當增加模式數M時,在交叉路口場景參與者直行的的可視化輸出。模式數M = 1(即單軌跡預測STP模型)時,推斷的軌跡大致是直行和右轉模式的平均值。M = 2時,可以在直行和右轉模式之間清楚地分開。 此外, M = 3時也會出現左轉模式,儘管可能性較低。M = 4時,會產生有趣的結果,直行模式分爲“快速”和“慢速”模式,從而模擬了參與者縱向運動的可變性。

《Exploring the Limitations of Behavior Cloning for Autonomous Driving》

車輛駕駛需要對各種複雜的環境條件和代理行爲做出反應。對每種可能的場景進行建模是不現實的。相比之下,模仿學習(imitation learning)在理論上可以利用大量的人類駕駛數據。特別是行爲克隆(behavior cloning)已成功用於端到端學習簡單的視覺動力策略(visuomotor policies),但擴展到全方位的駕駛行爲仍然是一個未解決的問題。

本文提出了一個新的基準,實驗性地研究行爲克隆的可擴展性和侷限性。結果說明,行爲克隆最好,即使在看不見的環境中執行復雜的橫向和縱向機動,這些都是不會明確被編程的。不過,衆所周知的侷限性(數據集偏差和過擬合的原因)、新的泛化問題(動態目標的存在,以及缺乏因果模型)以及訓練不穩定性仍然需要進一步研究,這樣行爲克隆技術才能逐漸實現真實世界的駕駛。

行爲克隆是一種監督學習形式,可以從離線收集的數據中學習傳感動力策略(sensorimotor policies)。唯一的需求是專家動作-相關輸入傳感觀測對。這裏用自動駕駛汽車擴展形式,稱爲條件模擬學習(CIL)。它用高級導航命令c來消除模仿圍繞多種交叉類型的歧議。

給定一個訪問環境狀態x的專家策略π*(x),執行此策略可生成數據集,D = {⟨oi,ci,ai⟩} Ni = 1,其中oi是傳感器數據觀測,ci是高級命令(例如,下一個右拐,左拐或停留在本車道上)和ai =π*(xi)是最後產生的車輛動作(低級控制)。觀測oi = {i,vm}包含​​單個圖像i和添加到系統的自車速vm適當地對道路上的動態目標作出反應。沒有速度上下文的話,模型無法瞭解是否,或什麼時候,應該加速或者剎車以達到所需的速度或者停止。

僅基於觀測o和高級命令c來學習θ權重參數化的策略π併產生與π類似的動作。最小化模仿成本l可獲得最佳參數θ


爲了測試在線評估學習策略π(oi,ci; θ)的性能,計算給定基準上策略π性能的得分函數值。行爲克隆的限制,除了分佈漂移之外,還有其他3個:

自然駕駛數據集的偏差;因果混亂;差異很大。

如圖所示,所提議的網絡架構,稱爲CILRS,用於基於條件模擬學習(CIL)的端到端城市駕駛。 其中ResNet感知模塊處理輸入圖像,輸出潛空間,接着是兩個預測頭:一個用於控制,一個用於速度。

開源的模擬仿真器CARLA提供多樣化、逼真且動態的、具有挑戰駕駛條件的環境。這裏推出一種名爲NoCrash的大型CARLA駕駛基準,旨在測試自車能處理複雜事件的能力,主要是由場景中變化的交通狀況(例如交通信號燈)和動態代理所引起。

提供了三個不同的任務,每個任務對應25個目標導向的劇集(episode)。在每一集代理從一個隨機位置開始,由高級規劃器指導進入某個目標位置。三個任務如下:

空城:沒有動態目標。規則交通:中等數量的汽車和行人。密集交通:大量的行人和繁忙的交通(密集的城市情景)。

與CARLA基準測試類似,NoCrash有六種不同的天氣條件,其中四種在訓練中,兩種在測試中。還有兩個城鎮場景,一個用於訓練,另一個用於測試。

下表是與原始CARLA基準測試的最好性能進行比較。 “CILRS”指使用速度預測分支的基於CIL的ResNet網絡, “CILR”指沒有這種速度預測基於CIL的ResNet網絡。 該表報告了每種情況下成功完成劇集的百分比,每五次運行選擇最佳。

下表是在NoCrash基準測試的結果。因爲CARLA具有顯著的非確定性,取三次運行的平均值和標準差。

剩餘內容將會放在「下篇」中。

作者介紹

黃浴,奇點汽車美研中心總裁和自動駕駛首席科學家,上海大學兼職教授。曾在百度美研自動駕駛組、英特爾公司總部、三星美研數字媒體研究中心、華爲美研媒體網絡實驗室,和法國湯姆遜多媒體公司普林斯頓研究所等工作。發表國際期刊和會議論文30餘篇,申請30餘個專利,其中13個獲批准。

原文鏈接

注:本文源自黃浴的知乎,https://zhuanlan.zhihu.com/p/83129242

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章