基於RL的路由策略

敘述了基於RL的路由策略。這種方案帶來的優勢,同時也存在一些問題。最後提出了一些開放性的問題。

路由的任務:向用戶提供端到端的服務質量保證。

蟻羣算法收斂慢,時間複雜度高。

遺傳算法:通過模擬自然進化過程搜索最優解的方法,是解決搜索問題的一種通用算法。可用來搜索最優解。存在局部收斂問題。(可以通過此求出一個次優解)

ad hoc 無線自組網:由於節點移動性導致的動態拓補問題。通過RL可以更好的適應拓撲變化。

WSNs 無線傳感網絡:是一種特殊的無線自組網,其中每一個節點都可以作爲路由。本質問題,傳感器節點能量約束大,處理能力有限。需要面對如何降低網絡的能耗並計算傳感器節點的成本來延長網絡壽命。RL相對有較低的計算成本和路由開銷。

new routing challengings:探索-利用困境;獲得更高的收斂速度;及時監測到Q-value收斂;更高效的存儲Q-value;規則的應用;Q-value初始化爲近似值而不是隨機數。

dual RL-based Q-routing approach 雙向更新Q-value,已經被證明可以最小化端到端的延遲。提高網絡性能和收斂速度。

Q-routing with dynamic discount factor:動態折扣由三個因素決定,連接穩定性,帶寬效率和節點剩餘能量。獎勵函數爲0或1,表示i節點通過j節點轉發能否順利到達目標節點。γi,j=ω MFj.BFj.PFj。使得Q-value預測更加精確,並更傾向代表講包成功送到目標節點的可能性。減少因爲連接中斷而導致的路由搜索。

動態調整學習率的Q-routing,學習率基於一個包計數器,這樣可以最小化每個包平均的路由時間。Q-value代表包從i節點到j節點傳輸的適用性。

通過實現基於強化學習的路由策略,有以下發現:實現了更低的路由消耗;實現了更高的包傳輸率或者更低的包丟失率;由於複雜的數據結構,需要更多的空間在存儲Q-value;造成更高的路由發現延遲。

基於RL的路由策略被證明有如下優勢:

1、更低的端到端延遲;

2、更高的吞吐量;

3、更高的包傳輸率或者更低的包丟失率;

4、更低的路由開銷和更高的路由穩定性,意味着更低的包重發率;

5、更長的網絡生命時間,以及更低的能量消耗。

6、更高的獎賞值,以及更低的平均路由消耗。

開放性問題:

1、動作選擇的方法,如貪婪或者softmax,各有優缺點。

2、最優路由由於利用而退化(利用過多導致堵塞)。有幾個解決方法,提高學習率;提高探索率;使用不同的Qos等級。

3、多智能體RL模型已協調智能體以獲得最佳的網絡性能爲目標,但是需要額外的開銷和複雜性。

4、提高探索的穩定性。

5、將事件應用在路由上。通過事件來檢測q值的波動,提高收斂速度和網絡性能。

6、缺乏在無線平臺上基於RL的路由方案的實現。

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章