[論文筆記]Machine Learning for Vehicular Networks:Recent Advances and Application Examples

前言

感謝李師兄推薦Le Liang這位作者,通過查找可以看到他所著的許多將機器學習和通信結合起來的文章,從這篇博文開始的幾篇博文內容將更偏向通信與機器學習的交叉,論文的閱讀順序根據引用次數 年份 標題暫時安排如下:2018_用於車聯網的機器學習方法:進展和用例;2019_面向智能車聯網:一個機器學習框架;2018_基於圖論的車聯網通信資源分享方法。

此外以後博客的內容大致按照:”需求--技術--別人的方法有什麼缺陷--採用什麼方法解決--這個方法在其他使用場景中和我的期望使用場景有什麼區別/有什麼沒考慮到“的順序進行。力求精簡併突出文章所提出的新方法帶來的貢獻。

[看完介紹詞後]感覺這是一篇綜述性文章

[完成目錄整理後]感覺可能會有很多關於機器學習的基礎性知識,基礎的要注意跳過,重點關注可以解決什麼通信方面的問題以及如何解決。


機器學習應用於無線網絡時,主要是提供一種數據驅動的方法來解決傳統通信的難題。本文的主要回顧了車聯網中應用機器學習的最新進展。

背景和動機

隨着車輛對環境感知能力的不斷增強,其已經朝着完全自治的方向發展,因此改善它們之間的連接性是很必要的,由此導致了互聯車輛概念的提出。互聯車輛構成的車輛網絡也是ITS和智慧城市發展的重要組成部分。它可以幫助提高道路安全性、優化交通效率、實現自動駕駛和車輛的泛在網絡訪問。對我們日常生活產生深遠影響。

但因爲嚴苛而多樣的QoS(服務質量要求)和車載環境中固有的動態特性(如速度很快),將傳統無線通信系統用於車載網絡存在很大挑戰。如:時變性很強的無線信道和網絡拓撲等。爲應對挑戰有兩條路:IEEE 802.11和C-V2X。

同時,藉助高性能計算和存儲以及先進的傳感器,車輛可以生成、收集、存儲、處理大量數據,這些數據可以給我們提供了新的改進機會。但是傳統的通信策略對這些信息的利用是很缺乏的。

機器學習可以找到一些人難以發現的模式特徵和底層結構,它利用數據驅動但不對數據的分佈進行明確假設,因此處理異構數據時魯棒性更佳。機器學習可提供一套用於挖掘車輛網絡中多個數據源的通用的工具,這將有助於形成更合理的決策並解決一些通信難題,但如何在車載網絡中利用這些工具還是個挑戰,並代表了一個有前途的研究方向。

機器學習方法

機器學習方法可粗略地分爲有監督、無監督和強化學習三種,表1展示了三種方法的在無線網絡的應用。

監督學習、無監督學習、強化學習在無線網絡的應用概況

監督學習

需要輸入有label的數據集,用於執行分類和迴歸任務。

分類需要每個輸入樣本都帶label。無線網絡中的分類可應用於 檢測網絡是否被入侵系統某些部分是否故障。分類的經典算法有貝葉斯分類器,K最近鄰算法,決策樹,SVM和神經網絡等。

迴歸算法的輸出經常是離散的,這點和分類算法不同。其可以應用於:預測信道參數網絡吞吐量等,經典算法有邏輯迴歸、支持向量迴歸和高斯迴歸等。

無監督學習

實踐中,數據大多都是無label的,此時應使用無監督學習的算法,此類算法旨在找到數據樣本的更有效地表示形式,其可能通過隱式的結構或變量進行解釋,經常使用貝葉斯學習法對其進行表示和學習。

聚類是無監督學習的代表問題,他根據樣本的相似性將其分類。其輸入特徵可以是樣本的絕對特徵也可以是相對特徵。在無線傳感器網絡中,分層協議的路由算法需要將附近節點聚類。經典的聚類算法有K均值、層次聚類、頻譜聚類和Dirichlet過程。

無監督學習的另一個重要類別是降維,其作用是在保證不丟失太多信息的前提下,將樣本從高維空間投影到低維的空間。通常原始數據的維度都很大(每個特徵都可張成一維,通常說維數大就是樣本的特徵太多了),這對算法來說是不理想的。比如在優化、聚類和分類問題中會帶來以下危害:1.增加模型複雜度和所需樣本數量;2.特徵相關性變得更強;3.不必要的特徵會引入噪聲。降維通常應用在車輛採集數據之後,由車輛負責數據降維,從而降低車輛網絡中的通信成本。一些典型的算法包括線性投影算法(如主成分分析)和非線性投影算法(如流形學習、局部線性嵌入和等距映射)。

強化學習

強化學習旨在學習具體的行爲方式,如如何確定特定環境下采取什麼行動,其通過反覆與環境交互來最大程度的改進效用,此過程中不存在顯式的監督動作。經典算法爲引入動作和獎勵的馬爾可夫決策過程,學習型Q函數也是一種經典的無模型學習算法,其無需任何環境信息即可解決MDP(馬爾科夫決策)問題。其原理爲:當在一個給定環境下采取行動時,Q函數將會估計效用的總和,而最優Q函數可得到在特定行動準則下所能實現的最大效用和。強化學習在車載網絡的應用中,可以處理無線環境的時變性帶來的問題,這將在“智能無線資源管理”部分詳細說明。

深度學習

深度學習旨在瞭解數據的表示,在監督、無監督、強化學習中都可使用。一些較新的典型的應用有:通過卷積神經網絡在不同維度的特徵之間共享權重,或通過遞歸神經網絡(RNN)和LSTM在時間維度內共享權重。

車載網絡中數據驅動的決策方法

爲克服車載網絡中的諸多挑戰,有必要考慮有效利用傳感器採集的和歷史傳輸的豐富數據。而機器學習可提供這種數據分析的工具以提升車輛網絡的性能,如本節的示例所示。

交通流預測

及時而準確的獲取交通信息是ITS部署的關鍵,也是許多其他服務和應用的基礎,比如可以應用於緩解擁堵、降低油耗和各種基於位置的服務。交通流預測的目的是從歷史和實施交通數據中推斷出各種應用需要的交通流信息。概率圖模型、泊松迴歸樹(PRT)已經可以用於預測LTE連接性和交通流量。PRT主要用於對計數數據建模,有關擁塞、通信系統性能參數和車輛交通信息的數據都可以用來提升預測準確度。文獻[7]中提出了一種基於DL(Deep Learning)的交通流量預測方法,其基於堆疊式自動編碼器模型,已有顯著的性能提升。

蜂窩網中局部區域(local)數據存儲

雖然行車中車輛的位置和連接性不斷變化,但有些數據是描述特定區域的(比如道路狀態和固定相機產生的數據),這些數據可以用於局部區域的信息獲取和估計,進一步用於負載平衡和基於用戶行爲的架構調整。車聯網中,數據存儲在網絡的不同單元之間,如路邊單元和雲端,但在[8]中已開發了一個框架,其可在無基礎設施的支持下將局部區域數據存儲在車輛中,並通過單播在車輛之間傳輸數據,從而使局部區域數據始終保留在這片區域中。選取下一個數據載體車輛時,先採用模糊邏輯進行即時評估,之後通過強化學習進一步完善,選擇時主要考慮吞吐量、速度和帶寬效率,並通過應用式Q學習保證長期的收益。強化學習在這個過程中可用於尋找將數據從源節點傳輸到載體節點的有效路由策略。

網絡擁塞控制

傳統擁塞控制方法有五種主要類別,即基於速率,基於功率,基於載波偵聽的多路訪問/衝突避免,基於優先級和調度的協議以及混合策略[70],它們可調整通信參數,例如 作爲傳輸功率,傳輸速率,競爭窗口大小等,以滿足擁塞控制的目的。

文獻[9]使用一種無監督學習方法:k-means聚類,從而提出一種集中控制交叉口擁堵的方法。該方法通過路測設施觀察無線信道進而測量和控制信道擁堵,已經初步解決了紅燈時路口的通信擁塞問題。基本原理是:通過K-means聚類將傳輸的信息分成不同的組,所使用的特徵包括消息大小、類型、有效性,車與路測設施之間的距離和發信者的方向。每個羣類都有獨立的通信參數,從而消除冗餘,包括傳輸速率、功率,競爭窗口(即最大退避時間)大小,仲裁幀間間隔(如最小時間)。只要傳輸之前信道不被佔用,衝突就不會發生。

無線資源管理

如何正確地管理頻譜、功率、存儲和計算資源,對車輛網絡的正常運行十分重要。目前資源管理的主要解決方法是將其建模成一個優化問題,然後根據性能複雜性的權衡獲得方案。但是在實踐中存在兩個問題:1.車輛網絡是高度時變的,尤其是信道和網絡拓撲不斷變化,因此每次系統變化時都需要重新計算優化問題,從而導致巨大的網絡開銷;2.異構的車輛鏈路的優化目標不同,無法對他們形成一個統一的目標函數,此外某些QoS公式在數學上難以解決也是的問題更加複雜。

而強化學習因爲可以與環境互動,進而使用環境並採取行動,所以他在這方面很有潛力!

負載平衡和垂直控制

以一天爲研究對象,交通流在時空分佈存在一定的模式和規律。強化學習可以利用這些信息來解決動態車輛環境中用戶關聯性的問題。[10]中提出了一種使用負載平衡的解決用戶關聯性的在線強化學習算法,首先僅基於目前已掌握的信息使用在線強化學習進行初始關聯,同時基站不斷積累這些信息並通過歷史的關聯性模式自適應地更新關聯方案。沿着這個思路,[11]提出了一種基於模糊Q學習的異構車聯網絡垂直切換策略,該策略使用四個參數確定網絡的連通性:接受信號強度、車速、數據量、與目標網絡相關的用戶的數量。這個策略可保證在不事先掌握切換行爲的前提下無縫的移動性管理。

虛擬資源分配

虛擬車輛網絡的圖示

如上圖所示,受益於網絡功能虛擬化(可參考這篇博文),ITS服務的處理、感知、存儲、計算資源池由車載單元、路側單元、遠端雲服務器提供。如何動態的分配資源,以達成更小的開銷和更大的QoS(服務質量)一直是個大問題。文獻[12]中,將資源分配問題建模成一個MDP(馬爾可夫決策過程)並使用強化學習解決,其中的狀態空間爲已分配資源的所有可能的配置,動作被定義爲從一個狀態到另一個狀態的轉化行爲。有人提出一種用於資源供應的強化學習框架,其可以在符合QoS需求的同時滿足資源得動態需求。[13]中開發了一種延遲最優的動態虛擬化資源調度方案,其使用基於Bellman和隨機逼近的在線分佈式學習,算法分爲兩個階段,分別適應長期的時間因素(如流量密度)和短期的時間因素(如信道和隊列狀態信息)。

[14]中提出了一個用於網絡、緩存和計算資源的聯合管理算法,爲了應對這個優化問題的高複雜性,提出了一種深度強化學習方法,經實驗其性能很理想。將來可能會在虛擬網絡中構建網絡切片,以便通過調整邏輯網絡功能和參數設置來滿足特定服務的需要。如何根據已到達流量進行切片,將會對支持車輛網絡中不同的用例至關重要。

分佈式資源控制

目前已有許多集中式的D2D(設備到設備)車輛通信資源分配的方式,其由中央管理器收集信息並做出決策,之後將決策結果下發到所有車。然後集中式方案獲取信息的開銷非常大, 並隨着鏈路的增多而劇增。[14]提出了一種基於深度強化學習的分佈式資源分配機制,如圖4所示,其查找車輛代理的部分觀測值最佳分配方案之間的映射。具體來說,該方法可以滿足V2V鏈路上嚴苛的時延要求,這對於現有的優化算法來說是很難解決的。

假設V2I鏈路已經預先分配了正交資源,並且建議的分佈式信道和功率分配的主要目標是滿足V2V鏈路的延遲約束並最大程度減少對V2I鏈路的干擾。用於V2V通信的強化學習的結構如圖4所示,每個V2V鏈路用一個代理表示,這個代理與環境進行交互,這裏的環境是指V2V鏈路外的其他所有事物。這是因爲其他V2V鏈路的行爲並不由分佈式設置控制,所以他們的行動(比如選擇頻譜或傳輸功率等)只能被視作環境的一部分。

如圖所示,在時間t,每個V2V鏈路是一個agent,其從狀態空間\mathcal{S}觀察到一個狀態s_t,並從動作空間\mathcal{A}選擇一個動作a_t,這個過程相當於依據策略\pi選擇了自帶和傳輸功率.這個策略\pi由Q函數決定,Q(s_t,a_t,\theta)中的\theta是其參數並可由深度學習得到。環境的狀態根據這個動作將會改變到s_{t+1},並且根據V2I鏈路的容量和相對應的V2V時延計算得到一個回報r_t。本系統中,每個V2V鏈路觀察到的用於表徵環境狀態的特徵爲:相應V2V鏈路的瞬時信道信息g_t,過去的對鏈路的干擾I_{t-1},V2I鏈路的信道信息(比如從V2V發涉及到基站的信道信息h_t,鄰居在前一個slot選擇的子帶B_{T-1},車輛傳輸的剩餘負載L_t,爲達到實驗約束的剩餘時間U_t)。因此狀態可以用s_t=[g_t,I_{t-1},h_t,B_{t-1},L_t,U_t]進行表徵。這個過程中所用的訓練和測試數據都是從一個基於3GPP信道模型的環境模擬器生成的。在訓練階段,我們使用深度Q學習並將生成的數據存儲在內存中。用於更新Q網絡的minibatch從內存中採樣。通過這種方法可以抑制數據的相關性。對於策略\pi,最初是隨機選擇的,隨着Q網絡的更新而更新。

圖5將上述方法和隨機資源分配法進行了比較,其中代理每次都隨機選擇一個子帶進行傳輸。由圖可知,之前的基於強化學習的方法對於V2V鏈路之所以能滿足時延約束,有很大的可能性是因爲它可以動態的調整功率和傳輸子帶,所以哪些可能會違反實驗約束的鏈路被分配了更多的資源。

高能效的資源管理

這一小節部分來自這篇文章,所以這一節的參考文獻標號也與本博客的其他部分獨立

當RSU(路邊設施)缺乏持續的電源連接時,能效就顯得尤爲重要。[78]通過強化學期解決了MDP問題,隊放電期間RSU的下行鏈路調度性能進行了優化。RSU基於已收集到的信息(關於交通特徵、基礎設施電力預算、充電總時長等)在每個時隙開始時學習選擇服務的車輛,獎勵函數爲放電週期內已完成的車輛請求數和每次已下載的比特數,通過Q學習得到最高的回報。[79]通過強化學習進一步擴展了該框架,該方案可以客服離散狀態和動作的缺點,其首先使用隨機調度,之後逐步學習自適應動態策略以延長電池壽命,最小化接受時延時並滿足QoS要求。深度強化學習增強了RSU的能力,時期能過觀察和分析環境並做出決策。

開放式問題

車載網絡的動態性學習

車載網絡的許多方面都有很強的動態性,如無限傳播信道、網絡拓撲和流量等,他們的時變性都很強。如何基於傳感器信息和歷史的傳輸信息有效又魯棒地預測這些量,是個還未解決的問題。傳統上,某些貝葉斯模型(如隱馬爾科夫模型)可用於表徵時間關係並預測下一個時隙中的狀態。而一些深度神經網絡可通過時間前後的依賴性來改進預測(如RNN和LSTM)。

一個可能的應用是根據接收到的信號和歷史數據使用DNN(深度神經網絡)預測無線信道,但因爲用戶的高移動性和MIMO等新技術肚餓使用,很難對高維且快速變化的信道進行預測。當將DL(深度學習)通過稀疏性來有效提取高維數據的特徵,但尚不清楚DNN能否協助甚至取代現有的信道估計模塊【這裏可能需要實驗證明了】(後者需要傳輸頻繁的導頻信號來跟蹤信道變化)。另一個可能的應用時預測車輛軌跡,進而預測交通動態。這裏可用DNN從歷史數據中學習一些隱式的特徵,如駕駛員的意圖和道路結構等。

方法複雜度

DL通過隱式的提取特徵在某些情境下可以得到很好的效果,而通過GPU已經可以構建更深的神經網絡來使用更先進的訓練方法(比如歸一化batch和殘差網絡)對更大量的數據完成訓練。但是車載網絡的機載計算資源有限,並且端到端的時延要求限制了雲服務器的大量使用。因此重要的是爲車輛網絡開發特殊的處理方法(例如模型簡化或壓縮),以減輕資源限制而不影響性能。

分佈式表示

車載網絡中,數據並非集中在一個設備上而實存儲在網絡中的不同單元之間(比如車載單元、路側單元、遠端雲端等),這給大多數的機器學習算法的應用帶來了挑戰。所以車載網絡需要分佈式的學習方法,該方法需要可以在部分被觀測到的數據上運作並可以從網絡中其他實體獲取信息。此外,應該考慮車在網絡中各個單元之間用於分佈式學習的信息共享導致的額外開銷。

多主體系統是此類問題的一個解決方案,主體間通過共享信息來實現合作,進而達到系統級的最佳性能,此時每個單獨的agent都可以更瞭解環境並與其他agent共同優化性能。

在傳統的多主體系統中,沒有考慮agent間消息共享的時間成本,但實際上通信時延和數據誤差都是不可避免的,因此需要在此前提下改進多代理的協調和協作方案。

以下兩節同樣來自這篇文章

安全性

雖然機器學習自身可以用來檢測黑客,保障系統安全。但其系統本身也可以被經過設計的惡意數據所欺騙[86],強化學習的agent也可能會以不理想的方式該改進回報。因此在將其應用於車輛網絡之前,應仔細研究其魯棒性和安全性,防止災難性後果。

毫米波車輛網絡的學習

毫米波可提供高數據速率的通信,並且具有更高數量級的帶寬[88][89],但出於毫米波的傳播特性和車輛的移動性,將大量波束定向並指向正確的方向的開銷是很大的,此外毫米波也容易受到障礙物的阻擋,因此可使用機器學習利用歷史波束訓練的結果[92]、情境感知[93]和其他通信環境的上下文信息解決此問題。如通過DNN或其他迴歸算法得到上下文信息(包括環境的幾何形狀、網絡狀態、用戶位置等)與波束訓練結果的映射,此外還可以嘗試用RNN或LSTM結合實踐相關性預測毫米波波束成形方向從而實現更好的性能。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章