智能交通中的大數據和物聯網

隨着個人奢侈品和就業機會的迅速增加,人們更喜歡自己駕駛汽車來滿足他們的交通需求而不是使用公共交通,由於訪問的簡單性和隨時使用汽車的能力,這導致交通嚴重擁堵和交通信號燈等待時間過長,這已成爲所有大城市的一大困難。這將影響環境,由於大量的汽車產生的污染,也將打亂個人的時間安排。

本文的目的是演示如何使用數據分析、機器學習算法和物聯網來預測流量,創建有關實時交通擁堵的準確數據,以及將使用導航的車輛疏導到不太擁擠的路線。該系統的設計基於攝像頭視頻的圖像分析,以及在移動設備中使用 GPS 監控特定路線上的交通。如果將這兩個因素結合起來,可能會產生有關交通擁堵的有意義的統計數字。下一部分使用所提供的數據計算到達目的地的最有效路線,以減少流量並在短時間內到達。

1、介紹

造成"交通擁堵"問題的主要原因是使用私家車而不是乘坐公共交通工具上下班。個人不乘坐公共交通工具的原因可能有多種。然而,這個問題不能僅僅通過鼓勵個人使用公共交通而不是自己的汽車來解決。

我們利用機器學習的新發展和數據分析的多種算法,爲這個問題設計了一個智能解決方案。隨着通信和傳感技術的飛速發展、低成本和有效的傳感器、更高的數據存儲和檢索效率以及大量數據的低成本存儲,我們很容易提取和利用數據。現行交通管制系統採用預先編程的信號變更時區間機制,數據分析的主要問題是收集相關且可使用的數據,以便設計解決方案。必須將不斷更新的數據上傳到數據模型,算法生成的預測技術必須能夠從這些不斷增長的數據中提供正確的報告。

項目的主要數據源是衆包數據。如今,隨着汽車行業技術的進步,GPS傳感器正被應用於汽車智能應用,從汽車中收集的GPS數據可能非常有利於開發數據模型。GPS 傳感器(全球定位系統)決定車輛的精確位置,根據所有汽車的位置,可以預測是否存在交通擁堵。這些數據對於確定某一地點的流量速率或流量密度特別有價值。交通密度可以通過將特定汽車的位置與該地點方圓 100 米範圍內的汽車數量進行比較來估算。車輛的速度在這方面也有顯著的影響。另一個有用的數據來源是路線上安裝的視頻監控攝像頭。

圖像分析技術可用於估計路線上的汽車數量。OpenCV 是計算機視覺相關功能的集合,主要面向實時計算機視覺。這可用於實時視頻分析,以計算交叉的車輛數量。最終,我們可以用車輛通過視頻監控的時間計算交通速率使,還可以通過計算道路上的車輛數量與車輛速度來計算交通密度。

建議架構的主要組成部分之一已在平臺原型中進行了重新修改,該原型特別依賴於Kafka,這是高效處理大數據流的有效工具。由於Kafka的內置機制,記錄評估是可擴展的,即可以擴展到大量記錄源,同時以過高的速度發送記錄,並且可靠,即它可以容忍硬件故障而不丟失記錄。

論文的其餘內容組織如下:在第二節中,我們概述了現有的交通管制機制和使用各種技術的智能方法。在第三節中,詳細解釋了建議的架構及其如何克服目前智能交通管理的方法。在第四節中,我們討論結論和預期結果,並建議進一步研究。

2、背景

  • 智能交通管理系統的特性

這項工作的目標是使用Kafka —最流行的大數據技術之一 —以開發一個可擴展的實時交通管理系統。因此,調查當前控制系統與 Kafka 流分析之間的相似性和差異至關重要。觀察情況(數據收集)和執行確定的控制戰略是實時交通管制系統(數據處理和信息傳播)的兩個基本組成部分。本地系統檢查實時輸入數據,然後對這些數據進行組合和處理,以確定方案(例如事件檢測)。當超過閾值時,使用既定技術之一優化控制器目標功能。在某些情況下,中心繫統設定了戰略目標,而本地系統則具有足夠的靈活性,能夠適應不斷變化的情況。最普遍的流量控制技術是反饋迴路和模型預測控制 (MPC),然而它們大多是單一目標的,需要有目的地感知的數據(即基本流量參數)。

  • 大數據分析

通過使用稱爲聚類的存儲和處理單元的集合,大數據分析技術根據必須檢查的數據的規模和速度進行擴展。這克服了單個 CPU 和硬盤容量的限制,但增加了相關工具的配置和運行過程的複雜性。大數據分析的核心前提是"將計算帶到數據中":大數據集羣中的每臺計算機都根據自己的本地存儲數據集(map)工作:然後對單個計算機的結果進行彙總和(reduce)。

不同的大數據分析解決方案已經演變,以支持各種應用程序和用戶需求。主要對比是工具之間,這些工具對歷史數據進行所謂的批量分析,這些工具通常存儲在Hadpp布式文件系統 (HDFS) 或 NoSQL 數據庫(例如,Cassandra、HBase)。Spark、Hadoop的 MapReduce 和 Tez,以及各種類似 SQL 的前端(如Hive和Pig)都是批量分析技術的例子。另一方面,有些工具使用流分析,即那些在數據到達預設時間框架時分析數據的工具。當數據驅動型選擇必須快速做出時,這是理想的選擇。Flink、Kafka Stream(Kafka擴展)和Spark Streaming都是這一領域值得注意的技術。

3、大數據分析方法

機器學習是大數據生態系統中最廣泛使用的建模和分析技術,因爲它能夠從海量數據中提取模式和模型。機器學習理論在 ITS 部門也被廣泛用於進行數據分析。機器學習算法可分爲有監督、無監督和強化學習方法,具體取決於可用於學習的數據集的完整性。近年來,隨着人工智能的飛速發展,強大的深度學習模式已經被應用到 ITS 中。

3.1 有監督學習

有監督學習是機器學習的子集,計算機在有標籤數據集上進行訓練,然後根據這些數據預測輸出。標記數據表明,某些輸入數據已標記爲所需的輸出。在有監督學習中,呈現給機器的訓練數據承擔監督角色,指導機器如何準確預測輸出。它採用了學生在老師的監督下學習的相同原則。有監督學習是給機器學習模型提供適當的輸入和輸出數據的過程。有監督的學習算法的目標是發現映射函數,該映射函數將輸入變量 (x) 映射到輸出變量 (y)。

在這裏插入圖片描述

3.2 無監督學習

在某些模式識別任務中,訓練數據包括一組輸入向量 x,這些輸入載體沒有任何相關的目標值。這種無人監督的學習任務的目標可能是在數據中定位類似實例的集羣,稱爲聚類過程,或計算空間中數據的分佈,這個過程稱爲密度估計。換句話說,用 n 樣本空間 x1 到 xn,每個樣本不提供真正的類標籤,導致所謂的無監督學習。

無監督學習的主要問題是:

  • 無監督學習比有監督學習更難。
  • 在沒有標籤的情況下,我們如何知道這些發現是否有意義?
  • 允許專業人員檢查結果(外部評估)
  • 定義聚類目標函數(內部評估)

無監督學習可進一步分爲兩類:

  • 參數化無監督學習:在這種情況下,我們假設數據是參數分佈的。它基於這樣一種假設,即樣本數據來自由預先定義的參數集定義概率分佈的羣體。從理論上講,normal分佈族的每個成員都有相同的形式,並且由平均值和標準偏差進行參數化。即,如果你知道分佈的均值和標準偏差,並假設它是normal分佈,就可以計算未來任何觀測的概率。它涉及高斯混合模型的構建和使用期望最大化方法來預測樣本的分類。此實例遠比傳統的監督學習困難得多,因爲沒有相應的標籤,因此沒有適當的正確性衡量標準來驗證結果。
  • 非參數無監督學習:在非參數化的無人監督學習版本中,數據被聚類,每個組集(理想情況下)包含有關數據中所表示的類別和類別的信息。這是一種常用的技術,用於建模和分析樣本量很小的數據。與參數模型相比,非參數模型不需要建模者對樣本的分佈做出任何假設,因此有時被稱爲無分佈技術。

3.3 深度學習

深度學習模型可以比傳統的機器學習模型獲得更好的性能。它們已廣泛應用於智能交通管理系統。在交通流量領域,深度學習模型已成爲預測交通流量密度的常用工具。深度學習模型比典型的人工神經網絡具有更廣泛的系統功能和更復雜的設計,因此可以優於典型的機器學習模型。它們已在 ITS 系統中廣泛實施。

例如,使用出租車的 GPS 數據,使用深度受限的Boltzmann機器和遞歸神經網絡架構來模擬和預測交通擁堵的增長。使用大數據後,使用深度神經網絡進行缺陷診斷。輸入由從所有高速公路接收的數據組成。考慮到流量的時間關係,利用以前時間間隔的數據,即 xt-1,xt-2,...,xt-l,在時間間隔 t 時預測流量。建議的模型內在考慮了交通流量的地理和時間相關性。 在這裏插入圖片描述

  • Kafka

從技術上講,場合流是從事件流形狀內的場合源(如數據庫、傳感器、蜂窩設備、雲服務和軟件程序)實時拍攝統計數據的實踐:將這些場合流持久存儲,以便以後檢索;除了回顧性地實時操縱、處理和響應時事流外;並根據需要將場合流路由到不同的地點的技術。因此,事件流保證了統計數據的不停調整和解釋,以便正確的事實運用於適當的地點,在適當的時間。

4、大數據收集來源

  • 來自 GPS 的大數據

GPS 是跟蹤行蹤的最廣泛使用的方法。通過 GPS 位置監控,可以更有效、更安全地獲取流量數據。通過結合地理信息系統 (GIS) 或其他地圖顯示技術,GPS 提供了收集數據的潛在工具,可利用已獲得的數據解決各種交通挑戰,包括旅行模式識別、行程延遲評估和交通監控。

  • 閉路電視圖像處理

許多社區現在擁有負擔得起的視頻監控系統,通常稱爲閉路電視(CCTV)。近年來,它們取得了顯著的擴展,通常包括各種分辨率、安裝點和幀速率不同的攝像機。CCTV 每週七天、每天 24 小時運行,並創建大量數據,稱爲"大數據"。除其他事項外,這些數據可用於爲自動流量監控系統提供基礎。

在這裏插入圖片描述

該系統主要由兩個方塊組成:

  • 對象檢測
  • 多對象跟蹤

對象檢測

到目前爲止,大多數對象探測器都基於卷積神經網絡(CNN),分爲兩類:單級探測器和兩級探測器。單級探測器通常速度很快,可以預測單個網絡運行中的對象邊界框以及類。YOLO 和 SSD 是兩個衆所周知的單級探測器。當目標占據圖片的很大一部分時,這些設計表現尤其出色。著名的UA-DETRAC車輛檢測數據集就是此類數據的一個例子。mitriy Anisimov和Tatiana Khanova用這些數據證明,一個適當開發的類似SSD系統探測器可以在當前CPU上以每秒40幀以上的速度工作,同時保持可接受的精度。YOLO v2 架構是一個很好的速度精度權衡的另一個例子,它通過使用錨定聚類、額外損失正常化和多層功能融合方法優化了車輛識別。

多對象跟蹤

由於之前所述對象探測器精度的提高,tracking-by-detection模式已成爲多對象跟蹤 (MOT) 任務的實際標準。跟蹤在此範式中定義爲數據關聯 (DA) 問題,目標是將多個幀中的模糊檢測組合到擴展的軌跡中。

傳統上,按檢測方式跟蹤僅取決於探測器的運動信息,並使用優化方法解決 DA 問題。多假設跟蹤 (MHT) 和聯合預測數據協會過濾器 (JPDAF) 是衆所周知的示例。雖然這些算法逐幀處理關聯問題,但它們的組合複雜性隨着受監控對象的數量呈指數級增長,使其不適合實時跟蹤。另一方面,最近的 SORT 跟蹤器 顯示,帶有 Kalman 過濾運動預測的基本匈牙利算法可以達到實時處理速度,同時保持可接受的性能。

傳感器的大數據

ITS 中部署的傳感器可捕獲車輛速度、車輛密度、交通流量和行駛時間等數據。道路傳感器(例如紅外和微波探測器)已經演變爲收集、計算和傳輸交通數據 。傳感器數據收集可分爲三類:路邊數據、浮動汽車數據和廣域數據 。術語"道路數據"主要指位於路邊的傳感器收集的數據。多年來,傳統的路邊傳感器,如電感磁環、氣動道路管、壓電環陣列和微波雷達被採用。隨着技術的最新進步,下一代路邊傳感器,包括超聲波和聲學傳感器系統、磁性車輛探測器、紅外系統、光檢測和測距 (LIDAR) 以及視頻圖像處理和檢測系統,正逐步普及。浮動車數據 (FCD) 主要是指使用植入汽車的特定探測器在 ITS 系統內不同位置收集的車輛移動數據。某些車載傳感器提供可靠和高效的數據,用於路線選擇和估計。流行的 FCD 傳感器技術包括自動車輛識別 (AVI)、車牌識別 (LPR) 以及探測汽車和電子收費標籤等轉發器。廣域數據是指使用各種傳感器監控方法(包括光度處理、錄音、視頻處理和天基雷達)在大面積獲取的流量數據。

目前,汽車部門正在引入傳感器,以監控車輛的方方面面。評估路線,並使用 3D Mapper 檢測內容,這用於識別自動駕駛汽車中的障礙物。該技術用於機器學習,以增強形式和運動的識別與分類。車輛的這些數據可以通過物聯網進行通信,這對爲智能交通管理系統的分析提供大數據可能非常有益。

社交媒體

社交媒體(另稱社交網絡服務或社交網站)是一種 Web 2.0 產品,它使互聯網從信息領域轉變爲互動和影響領域。

社交媒體的基本含義是迷人的,因爲服務面廣。

我們可以總結如下:"社交媒體是基於網絡的應用程序,使用戶能夠相互交互。

爲了一致性,我們將利用Boyd和Ellison對社交媒體的定義,該定義將其定義爲使用戶能夠:a) 維護公共或半公共個人個人形象的服務;b) 通過與其他用戶連接來構建社交網絡;和 c) 探索和響應連接。

相比之下,考慮到學習環境,Kietzmann等人開發了一個由七種不同的社交媒體功能組成的蜂窩結構:

a) 存在

b) 共享

c) 對話

d)分組

e) 聲譽

f) 身份

g) 與每個社交媒體網站連接,以爭取上述混合,並優先選擇三個或四個功能。

出租車服務的開源數據

隨着客戶越來越多地使用 Uber 和 Lyft 等出租車服務,應用程序正在使用的汽車和交通路線的這些數據可用於提供數據模型並預測流量,從而在預測流量的同時提供更好的結果。來自此類應用的數據可能是可靠的,並且可能是準確的,因爲驅動程序遵循應用中顯示的路徑,並且數據將不時更新。從中,我們可以在城市中獲取實時更改數據或流量中的實時更新。這些數據還可用於訓練模型,因爲有些數據將每天重複出現,因爲有些數據可能更喜歡每天通過出租車進行工作。

V. 建築

旅行速度預測一直是最難解決的問題之一。個人數據源(如閉路電視攝像機和交通傳感器數據)傳統上被控制器用於饋送回歸或時間系列預測模型。這些方法不使用大量和多樣化的運輸數據,這些數據可以使用當代數據、工程和機器學習工具進行分析。通過攝入和集成大量不同數據,可以利用尖端的深度學習,在典型操作環境下爲路網創建快速、高性能的速度預測。當路網運行不正常時,通常會出現最引人入勝的情況。如果發生特殊事件、道路施工或交通事故。由於訓練數據不足,AI 模型傳統上一直難以應對此類偶發性非經常性事件。在某些情況下生成高質量預測的幾種方法,包括使用經典的流量模擬來分析關鍵的非經常性事件可以實現。模擬可能會運行許多場景,並使用預先配置的反應策略對旅行者的結果進行比較。

在這裏插入圖片描述

數據分析引擎分析和/或控制每個客戶建立的邏輯,其範圍可能從基本的反饋迴路到複雜的機器學習算法。此外,客戶可以選擇獲得分析引擎輸出的時間間隔。收到數據時,使用用戶定義的減員功能處理數據。這些功能是特定主題。例如,在速度數據的情況下,合適的減速器函數可以計算傳入數據的移動平均值。每個時間段結束時運行單獨的評估器函數。評估員可以訪問所有減員的輸出:在這裏,可以根據對各種減員的綜合分析做出判斷。在自動流量控制的情況下,評估員通過更改提供商有條件地激活對流量系統的修改。

在這裏插入圖片描述

深度學習算法在預測模型中基於所述算法實現。Essien建議的框架由八層雙向 LSTM 堆疊自動編碼器組成。ReLU 被用作所有相互關聯層(不包括輸出層)的激活功能,該層爲學習過程注入非線性。深度學習網絡性能高度依賴於必須通過稱爲超參數優化或超參數化的過程建立的重要參數。爲了確定此調查的理想超參數集,我們使用了網格搜索方法。

算法包括以下評估步驟:

輸入:收集特定區域的數據序列

外流:該地區特定道路的預測交通流量

  • 將獲得的實際數據分成 70:30 比率進行培訓和測試。
  • 在培訓數據中選擇 b 的回頭步驟大小,並在 t 時創建回頭觀察,稱爲 x1,x2,x3,...
  • xb 作爲輸入,xb+1 作爲預期值 yt
  • 建立模型參數、重量 wt 和偏置 c 的隨機初始化程序。
  • 使用向前貪婪層明智方法訓練模型,並使用雙向處理更新模型參數。
  • 後傳播算法優化器用於更新模型。
  • 損失功能最小化
  • 將測試數據用於模型驗證和隨後的再培訓程序的另一批培訓數據。
  • 代表,直到培訓集完成。
  • 返回預測 Y 的輸出序列。

6、 挑戰

數據隱私

在大數據時代,最令人費解和擔憂的問題是隱私。在數據傳輸、存儲和使用過程中,個人信息可能會受到損害。從歷史上看,從運輸網絡獲得的數據是非個人性質的,如汽車位置和交通流量數據。然而,隨着公共和商業部門收集個人數據的增多,隱私問題也日益受到關注。例如,可以隨時收集人員和車輛的位置。如果這些數據得不到安全保護,竊取這些數據的人將對數據所有者造成損害。因此,隱私保護對於 ITS 中的大數據應用程序至關重要。爲避免個人私人信息被非法泄露,各國政府應採用全面的數據隱私規則,涵蓋哪些數據可以發佈、數據發佈和使用的廣度、數據分發的基本原則以及數據可訪問性等。運輸機構應嚴格限制個人數據的定義,加強數據安全認證管理,使用更復雜的算法來提高數據安全水平。

處理能力

對於智能流量管理系統中的大數據應用,及時性至關重要:這些應用包括交通數據預處理、交通狀態識別、實時交通控制、動態路線引導和實時巴士調度。必須將來自各種來源的各種形式的流量數據與歷史數據進行比較,然後快速處理。數據處理系統必須能夠處理更復雜且不斷增長的數據。如何確保如此龐大和快速的數據的處理及時性是一個重大問題。最近出現了許多支持實時數據源的通用大數據框架,包括Apache Storm、Apache Flink、Apache Samza、Apache Spark Streaming和Kafka Stream。此外,還爲 ITS 創建了特殊的大數據處理框架,包括實時流量管理平臺和預測路線的平均速度和擁堵區域。這些框架爲實時數據處理提供了有效的解決方案。要在雲平臺中部署這些服務進行實時監控和反饋,需要大量的處理能力、存儲和穩定的互聯網連接,以便跨不同的平臺傳輸批量數據文件以進行存儲和處理。

電源使用

必須創建一個連續的監控系統來始終收集數據。這可以確保預測正確,並且模型會更新任何可能影響模型評估的事故或事件。有力的電源供應用於使系統每週七天、每天 24 小時運行。

7、結論

我們提出了一個完整且適應性強的基於大數據分析的實時流量管理架構,並在本文中進行了深入的學習。架構是對域的需求進行有條不紊的檢查的結果。實時深度學習算法與 kafka 流或火花流服務同時結合,用於數據流,可導致開發高度選擇的流量預測模型。這項研究的主要弱點是缺乏對真實世界數據的訪問。通過使用真實數據對模型進行培訓,我們可以顯著提高模型的效率。數據收集是一個重大限制因素。維護如此大量的數據需要大量的工作和管理機制。

儘管它簡單,但這個真實世界的例子需要分析來自各種來源的龐大和多樣化的數據流。雖然使用這種平臺只執行傳統的控制措施需要付出相當大的努力,但這種多目標控制平臺對於新興的自動駕駛車輛至關重要,特別是對於同時協調所有部件之間的控制措施,例如針對單個車輛移動的戰略決策。隨着自動駕駛汽車技術的進步,該車型可能有助於汽車預測交通流量和重定向到另一條路線。因此,可以開展更多的研究,將這項技術與無人駕駛汽車和其他車輛相結合,以便以最少的交通中斷智能地將用戶路由到目的地。另一個需要研究的領域是物聯網在智能城市建設中的使用,這可能大大有助於爲該模型收集真實世界的數據。


原文鏈接:基於大數據和物聯網的智能交通系統 — BimAnt

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章