交通事故預測—《Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network》

一、文章信息

《Traffic Accident’s Severity Prediction:A Deep-Learning Approach-Based CNN Network 》,2019年Access上的一篇文章。

二、摘要

基於交通事故特徵的權重,提出了基於特徵矩陣的灰色圖像(FM2GI)算法,將交通事故數據的單一特徵關係轉換爲包含並行組合關係的灰色圖像作爲模型的輸入變量,網絡模型是基於CNN。(也就是說這篇文章的最主要創新點就是將對事故嚴重程度產生不同影響權重的各類特徵按照權重值轉化到灰度圖像來表示,表達各不同影響權重維度特徵之間的組合關係,而不是以單一特徵同等權重來考慮對事故嚴重程度的影響。)

三、簡介

文章的主要貢獻如下:

  • 提出了一種基於交通事故特徵權值並行化的FM2GI算法,將交通事故數據的單一特徵關係轉換爲包含組合關係的灰度圖像。
  • 比較了9個競爭模型的性能,結果表明,所提出的TASP-CNN模型優於9個競爭模型。

統計學方法和傳統的機器學習方法目前大都考慮數據之間的單一特徵關係,而不考慮所有特徵之間的組合關係。而本文中結合CNN的特性,通過聯繫數據的特徵獲取數據之間的組合關係。(圖一爲傳統研究思路,圖二爲文章提出的思路)
在這裏插入圖片描述
在這裏插入圖片描述

其實特徵到圖像的轉換已經不是什麼新鮮事了,但是本文的思想有點不同,利用CNN的特性,發現在指定卷積核大小和移動步幅的情況下,當所有的卷積操作都完成時,矩陣中心的卷積數最大,而矩陣邊緣的卷積數最小(如上面的Feature5卷積數最大),這也就解釋了文章中爲啥要測量特徵的權重,權重越高證明對事件主體的影響越大。所以,文章吧權重最大的特徵填充到全0矩陣的中心,而其它權重小的依次往邊緣排列。這樣,就可以充分發揮CNN的固有屬性和特點,提高模型的性能。

那麼文章是如何測量交通事故的各維度特徵的權重的呢?

基於的原理是梯度增強決策樹(GBDT)。(具體原理可以看下文章的描述)

一條數據記錄的特徵向量表示:(一個3元組,FP表示父類特徵,FC表示子類特徵,wc表示子類特徵的權重)
在這裏插入圖片描述

由以上單一特徵向量因此可以構建一個特徵矩陣爲:
在這裏插入圖片描述
其中k表示數據集的大小,n表示數據集中每個數據的子特徵個數。
具體如何將文本特徵構建特徵向量和特徵矩陣進而轉化爲灰度圖像的兩個算法流程在原文中有描述。(FV2GI,FM2GI算法描述)
在這裏插入圖片描述
在這裏插入圖片描述

四、模型

模型包括模型輸入,卷積層,完全連接層和模型輸出層,模型上來說就是CNN模型:
在這裏插入圖片描述同時文章對於原始數據集進行了歸一化處理(零均值歸一化法)、數據不平衡化處理(SMOTE過採樣算法),通過XGBoost並行化處理得到特徵權重值。

在模型的超參數選擇優化上,文章利用sklearn接口,結合網絡搜索和隨機化網絡搜索算法進行100個epochs的迭代,找到最佳的超參數組合。
在這裏插入圖片描述

模型結果比較:
在這裏插入圖片描述

五、總結

文章的總體思路比較清晰,理解也比較容易,主要的工作還是特徵的選擇和提取上,集中在上文描述的特徵權重計算(GBDT算法)和灰度圖轉化FM2GI算法(特徵向量——>單張灰度圖——>多張灰度圖(數據集量的大小)),至於採用的預測模型其實沒有改進,也就常規的優化思路。

文中的數據集量不是很大,只有幾萬條數據記錄,作者採用的是tensorflow-gpu構建模型並訓練;而對於數據量大的情況,其產生的灰度圖像張數也越多,所以對於計算平臺有一點要求,但相比於三通道甚至更多的圖像處理來說,這都不算什麼。

原文參考:
Zheng, M., Li, T., Zhu, R., Chen, J., Ma, Z., Tang, M., Cui, Z., & Wang, Z. (2019). Traffic Accident’s Severity Prediction: A Deep-Learning Approach-Based CNN Network. IEEE Access, 7, 39897-39910.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章