[論文筆記]Toward Intelligent Vehicular Networks: A Machine Learning Framework

前言

[作者自留,非內容相關,可跳過]本文是使用機器學習方法解決車聯網問題系列的第二彈blog,看題目感覺會提出一種結合機器學習的車聯網的新架構,比起上一篇綜述,這篇文章看起來乾貨滿滿(但是頁數也比較長…),注意筆記的寫作邏輯並儘量壓縮字數吧!話不多說現在開始!
次日補充:昨天完成了本文前半部分 介紹 挑戰 機器學習基礎的學習(翻譯),但看過朋友的進展後發現目前這樣不行,到目前爲止的所有論文學習都是按順序看並做修改和刪減,但介紹和基礎知識部分有很多重複內容,因此之後的將跳過這段着重對該論文所提出的新東西進行整理和闡述!


本文首先整理了高移動性的車載網絡的特徵並列舉了使用機器學習解決車載網絡的挑戰的動機。其次討論了使用機器學習進行決策的方法和使用強化學習進行資源管理的方法。最後提出了一些之間的進一步研究的問題。

需求 – 技術 – 已知方法的缺陷 – 可用什麼方法 – 此方法在別的地方的應用

介紹

    多年以來全球範圍內已開發了多種用於VANET(車輛自組織網絡)的通信標準,包括基於IEEE 802.11p的DSRC(專用短程通信,美國用)和ITS-G5(歐洲用)。但他們都存在諸多問題,比如訪問延遲、QoS(服務質量)、V2I連接壽命等。爲解決802.11p的一些問題,3GPP開始研究LTE的V2X和5G蜂窩系統,其通過部署D2D通信技術以支持蜂窩系統中的V2V傳輸。通過使用圖理論的工具也可以改進車輛網絡中的資源分配設計。目前對於車載網絡有效且可靠通信的主要設計難點在於:嚴格且異構的QoS要求和車載環境的高動態性。
  同時,先進的傳感器、車載高性能計算和存儲設備給我們提供了諸多數據,這些數據包括:車輛運動的信息、道路狀況、交通流量、無線環境等。由此可以使用自適應算法來改善網絡性能,這是傳統通信所忽略的。
  機器學習方法善於發現潛在的模式和規律,並且可以使用異構數據,因此可將其用於處理車輛網絡中採集到的數據。但如何利用其解決車輛網絡中高移動性帶來的一些問題並提供可靠的通信仍存在挑戰。
  本文列舉了車載網絡通信難點,如快速變化的無線信道和網絡拓撲,不斷變化的車輛密度和對各種車載鏈路的異構QoS要求。我們提出了一些機器學習的方法解決這些問題,並詳細討論如何通過機器學習來獲取和跟蹤車輛的環境變化,從而自動進行流量控制、傳輸調度和路由、網絡安全性還有基於強化學習的資源管理等。
  本文結構如下:第二節:車輛網絡的挑戰和使用機器學習應對挑戰的動機;第三節:機器學習的基本概念和主要類別【這部分我會跳過,內容在我上個博文裏有】;第四節:如何應用機器學習來應對網絡動態性的挑戰;第五節:如何應用機器學習來進行決策和資源管理;第六節:一些尚未解決的問題。

車聯網的高移動性所帶來的挑戰

高度的動態變化

  車輛的移動會導致系統嚴重的動態變化,從而對通信系統的設計造成多種影響。比如過強的時變性和不平穩的信道參數。具體來說,快速變化會導致相干時間減小和信道估計精度下降;信道統計參數的的不平穩也會降低信道估計的精度;與此同時,較高的多普勒擴展會將載波間干擾引入多載波調製方案中,由此給信號檢測帶來困難;車輛移動性導致網絡拓撲的頻繁變化會影響信道分配和路由協議的設計。比如在基於集羣的車輛網絡中,車輛可能會頻繁的加入和離開集羣,這都需要對集羣的穩定性進行進一步的分析。
  車輛密度的變化也會導致很強的動態變化,車輛密度在不同位置和時間會有很大差別,因此需要靈活且健壯的資源管理方法,此方法要能在適應車輛密度變化的同時靈活地調度資源。
  傳統上針對無線網絡的數學理論都是在靜態或低移動的前提下進行的,其通常不適用於快速變化的環境條件。因此重要的是找到可以與快速變化的環境交互的新算法,和對於物理層問題(比如信道估計、信號檢測和解碼)和上層設計(比如資源分配、鏈路調度和路由)的最佳策略。

異構性和嚴格的QoS需求

  車聯網中主要的連接類型爲V2I和V2V,其中V2I需要頻繁訪問Internet或遠端服務器以進行較大數據量的傳輸(比如交通信息、娛樂服務、高清地圖等),因此帶寬密集度更高;而V2V主要以週期性或事件觸發的行駛在車之間傳遞關鍵信息,所以對延遲和可靠性更敏感(文獻[38]指出對1.6k的數據包,歐洲METIS項目要求D2E延遲小於5ms,可靠性高於99.999%)。

機器學習的潛力

  機器學習方法對變化和不確定環境的學習和適應性很強,它不依賴顯式的系統參數(比如接收信號功率或信噪比)進行決策。其利用數據也被數據的噪聲和污染所限制。
  特別地,強化學習可以與動態環境交互並指定策略以適應策劃在網絡的QoS要求。用於資源分配問題時,其可通過調整功率或信道分配來適應環境,這裏的環境是指鏈路條件、本地接收到的干擾和車輛運動信息等,而傳統的靜態數學模型則做不到這些。

機器學習簡介

簡介以及監督/無監督學習請見這篇博文

強化學習

  強化學習的架構中,進行動作的主體稱作agent,其將通過與環境互動來學習選擇行爲的準則,旨在最大程度的從環境中獲取回報。此處將環境建模成MDP(馬爾可夫過程),MDP的狀態轉移概率記爲p(s,rs,a)p(s',r|s, a),回報記爲rr,其僅由當前狀態ss決定,aa爲選擇的動作。強化學習的目標是找到一個準則,通過該準則採取的行動可以最大化未來折扣回報,記爲
Gt=Rt+1+γRt+2+γ2Rt+3=Rt+1+γGt+1(1) G_t=R_{t+1}+\gamma R_{t+2} + \gamma^2 R_{t+3} = R_{t+1} + \gamma G_{t+1} \tag{1} 其中γ\gamma爲折扣係數,RtR_t是時點t的回報。
  對Q函數的學習是一個強化學習問題的經典解法,Q(s,a)Q(s,a)在每次採取行動時會對總回報做一個估計,而最優Q函數是在Bellman約束下的最大總體預期回報:
Q(s,a)=s,rp(s.rs,a)[r+γmaxaAQ(s,a)](2) Q^*(s, a) = \sum_{s',r}p(s'. r|s, a)[r+\gamma max_{a'\in \mathcal{A} }Q^*(s', a')] \tag{2}
  其中A\mathcal{A}是動作集。通常,在Bellman方程的不動點出可通過迭代更新來找到最佳Q函數,並在此之後可通過選擇動作來確定最佳策略,如Sarsa和Q-learning算法均提供了得到最佳Q函數的方法。

對動態變化進行學習

(此處與這篇博文-開放式問題-車載網絡的動態性學習相關聯)
  動態變化會影響網絡性能,包括無線信道、網絡拓撲、流量動態變化等。表1總結了一些動態性引發的問題及機器學習的解決方法。
表1

支持學習的信道估計

  信道估計對於接收端的設計(均衡、解調、解碼等)及發射端的無線資源分配有很大影響,尤其是在多普勒頻移嚴重和信道相干時間短的車輛網絡中這種影響更爲嚴重。
  無線信道的統計信息(比如時域和頻域的相關性)主要取決於車輛的位置/速度,多徑的時延擴散和周圍的無線環境。而基站可通過車載網絡獲得通信信道的歷史古蹟及發射/接收機的位置等。通過貝葉斯學習和深度學習可以發掘這些歷史信息的價值進而對信道統計信息和鏈路進行估計。
  與傳統通過數學模型進行信道估計不同,此方法以數據驅動,通過結合上下文信息來提高信道估計的精度。不會遇到傳統信道估計方法中功放的非線性、相位噪聲、時間/頻率偏移等問題。
  在[56]中,採用貝葉斯學習方法估計稀疏的大規模MIMO信道,其中使用高斯混合分佈對信道建模並基於近似信息傳遞和最大化期望算法來推導估計器。[57]使用DL以隱式軌跡正交頻分複用系統中的無線信道,經實驗說明其對非線性失真和其他損害(如導頻和循環前綴的缺失)的魯棒性強。此外,對於時序數據,通常可用貝葉斯模型表示(比如隱含馬爾可夫模型),這或許可以用來跟蹤時變的車載信道。RNN和LSTM可以發掘較長時間尺度的特徵,因此可能用來改善信道估計的準確性。

交通流預測

[58]提出了一種基於深度學習的方法預測交通流量使用堆疊式自動編碼器來學習交通流的特徵並通過貪心法進行分層訓練,其隱式地考慮了模型中的空時相關性並取得了出色的性能。[59]中隊概率圖模型進行了學習,稱爲泊松依賴網絡,它通過隊經驗性的車輛交通數據集進行描述來預測交通流。此外蜂窩網的連接性和車輛交通流量之間的強相關性可用於泊松迴歸樹來增強預測。

車輛軌跡預測

軌跡預測可用於網絡切換、鏈路調戶和路由等。[60]中使用高斯混個模型(GMM)和變分GMM實現概率軌跡預測,使用已發生的運動模式在預測軌跡。也可使用DNN從歷史數據中學習隱式特徵(如駕駛員意圖、交通方式等),此時RNN和LSTM等模型或可帶來更好的結果。

支持學習的決策方法

通過數據改進決策的方案可適應網絡的動態變化並增強魯棒性,一些使用機器學習的決策方法如下表所示在這裏插入圖片描述

基於位置預測的調度和路由

車輛的運動信息除了可以預測行駛路線外,還可以用於協議的設計以提高系統性能。[67]將HMM用於V2I和V2V鏈路的混合VANET中預測車輛的路線,並基於此路線提出一種有效的路由方案,以有效的選擇中繼節點進行消息轉發和V2I和V2I之間的無縫切換。[68]使用可變階馬爾可夫模型隊車輛軌跡進行預測並開發有效的軟路由協議。[69]使用遞歸最小二乘法預測車輛位置進而隊大規模的信道進行預測,其促進了VANET中協作數據分發的新型調度策略的開發。

安全性

這裏主要防止黑客篡改傳網絡參數或傳感器數據。[73]使用DNN檢測車載網絡入侵,預處理階段使用無監督的之心網絡初始化參數,之後通過高維數據訓練DNN,目標是找出正常數據包和黑客數據包的潛在特徵。[74]使用LSTM檢測是虛假信息,其通過學習可以對車輛的下一個信息進行預測從而識別虛假信息。

負載平衡和垂直控制 & 擁塞控制 & 無線資源管理

這篇博文

開放式問題

方法複雜度&分佈式表示和多代理&安全性&對毫米波車聯網的學習

這篇博文

Reference

(僅列出博客中表格所列的文獻,完整版論文請查閱此處
[56] C.-K. Wen, S. Jin, K.-K. Wong, J.-C. Chen, and P. Ting, “Channel estimation for massive MIMO using Gaussian-mixture Bayesian learning,” IEEE Trans. Wireless Commun., vol. 14, no. 3, pp. 1356–1368,Mar. 2015.
[57] H. Ye, G. Y. Li, and B.-H. Juang, “Power of deep learning for channel estimation and signal detection in OFDM systems,” IEEE Wireless Commun. Lett., vol. 7, no. 1, pp. 114–117, Feb. 2018.
[58] Y. Lv, Y. Duan, W. Kang, Z. Li, and F.-Y. Wang, “Traffic flow prediction with big data: A deep learning approach,” IEEE Trans. Intell. Transp.Syst., vol. 16, no. 2, pp. 865–873, Apr. 2015.
[59] C. Ide et al., “LTE connectivity and vehicular traffic prediction based on machine learning approaches,” in Proc. IEEE VTC-Fall, Boston, MA, USA, Sep. 2015, pp. 1–5.
[60] J. Wiest, M. Höffken, U. Kreßel, and K. Dietmayer, “Probabilistic trajectory prediction with Gaussian mixture models,” in Proc. Intell. Veh.Symp., Jun. 2012, pp. 141–146
[67] L. Yao, J. Wang, X. Wang, A. Chen, and Y. Wang, “V2X routing in a VANET based on the hidden Markov model,” IEEE Trans. Intell. Transp.Syst., vol. 19, no. 3, pp. 889–899, Mar. 2017.
[68] G. Xue, Y. Luo, J. Yu, and M. Li, “A novel vehicular location prediction based on mobility patterns for routing in urban VANET,” EURASIP J. Wireless Commun. Netw., vol. 2012, no. 1, pp. 222–235, Jul. 2012.
[69] F. Zeng, R. Zhang, X. Cheng, and L. Yang, “Channel prediction based scheduling for data dissemination in VANETs,” IEEE Commun. Lett.,vol. 21, no. 6, pp. 1409–1412, Jun. 2017.
[70] N. Taherkhani and S. Pierre, “Centralized and localized data congestion control strategy for vehicular ad hoc networks using a machine learning clustering algorithm,” IEEE Trans. Intell. Transp. Syst., vol. 17, no. 11, pp. 3275–3285, Nov. 2016.
[71] Z. Li, C. Wang, and C.-J. Jiang, “User association for load balancing in vehicular networks: An online reinforcement learning approach,” IEEE Trans. Intell. Transp. Syst., vol. 18, no. 8, pp. 2217–2228, Aug. 2017.
[72] Y. Xu, L. Li, B.-H. Soong, and C. Li, “Fuzzy Q-learning based vertical handoff control for vehicular heterogeneous wireless network,” in Proc. IEEE ICC, Sydney, NSW, Australia, Jun. 2014, pp. 5653–5658.
[73] M.-J. Kang and J.-W. Kang, “A novel intrusion detection method using deep neural network for in-vehicle network security,” in Proc. IEEE VTC Fall, Nanjing, China, May 2016, pp. 1–5.
[74] A. Taylor, S. Leblanc, and N. Japkowicz, “Anomaly detection in automobile control network data with long short-term memory networks,”in Proc. IEEE Int. Conf. Data Sci. Adv. Anal. (DSAA), Montreal, QC,Canada, Oct. 2016, pp. 130–139.
[75] Q. Zheng, K. Zheng, H. Zhang, and V. C. M. Leung, “Delay-optimal virtualized radio resource scheduling in software-defined vehicular networks via stochastic learning,” IEEE Trans. Veh. Technol., vol. 65, no. 10, pp. 7857–7867, Oct. 2016.
[76] M. A. Salahuddin, A. Al-Fuqaha, and M. Guizani, “Reinforcement learning for resource provisioning in the vehicular cloud,” IEEE Wireless Commun., vol. 23, no. 4, pp. 128–135, Aug. 2016.
[77] Y. He, N. Zhao, and H. Yin, “Integrated networking, caching, and computing for connected vehicles: A deep reinforcement learning approach,” IEEE Trans. Veh. Technol., vol. 67, no. 1, pp. 44–55, Jan. 2018.
[78] R. F. Atallah, C. M. Assi, and J. Y. Yu, “A reinforcement learning technique for optimizing downlink scheduling in an energy-limited vehicular network,” IEEE Trans. Veh. Technol., vol. 66, no. 6, pp. 4592–4601,Jun. 2017.
[79] R. Atallah, C. Assi, and M. Khabbaz, “Deep reinforcement learningbased scheduling for roadside communication networks,” in Proc. IEEE WiOpt, Paris, France, May 2017, pp. 1–8.
[80] H. Ye and G. Y. Li, “Deep reinforcement learning for resource allocation in V2V communications,” in Proc. IEEE ICC, May 2018, pp. 1–5.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章