想復工嗎？人體檢測原理先了解一下！

原創

2020-06-16 14:38

美國大面積的復工已經箭在弦上，不得不發了。一些人性化的州做出了一系列規定，比如保證人口密度，隔離間距等。這些規定，加大了僱主們復工的門檻，也是變相鼓勵遠程工作。可是，工作間的合作再算難免，很多面對面接觸的行業，僱主們如何才能滿足要求，安全復工？

一些基於AI的辦公視頻監控創業公司在這個危機中發現了契機，比如加州的一家公司，他們的主要產品是用於辦公環境的視頻監視AI應用，一方面可以極大的提高企業管理效率，另一方面也必須在隱私和公共安全的尺度上找到其平衡點。

該產品的主體是基於雲端的SAS服務（software-as-a-service或軟件即服務），但是也必須在需要監控的公共區域天花板上裝上相應的攝像頭：

在新冠疫情爆發前，客戶採購該款產品的一些主要用途包括：

正如該公司CEO沒有想到的是，新冠的爆發給公司帶來一個新的增長契機。對於需要復工的企業，該產品順手就可以提供一些新的功能：

不難猜出，從AI角度而言，該產品的AI核心技術就是圖像中的人體識別技術！

計算機視覺研究的一個熱點和難點就是找到圖像中的所有人物。比如，在無人駕駛領域，能夠實時識別街道周圍的行人是一個至關重要的技術。否則無人駕駛不可能上路行使，如果人可以都不管不顧，機器人豈不是無法無天？

找出圖像中的人體位置和大小，從更大的方面來說，是目標檢測的問題。能夠找人就能找其他一樣明顯的東西，只是運用場景不同。比如下圖中，計算機自動找到街道上的行人：

從上面的圖中，我們大概也能看出人體目標檢測的一些難點所在：

今天提到辦公監測產品，由於是在室內安裝和檢測，因此有兩個地方可以簡化這個問題。一是攝像頭是固定的，二是背景也是通常固定的。

因爲背景和照明一般來說在辦公區域比較穩定，所以可以減少很多的誤測。由於背景和攝像頭都是固定的，運動的物體就只有人。因此第一個相對簡單算法就是比較連續拍攝圖像之間的差異，尤其是夜深人靜時候沒有人的圖像。兩張圖像相減，得到的區別圖像就=完全是人體造成的。

無人的圖像作爲背景，利用背景建模算法提取當前運動的目標，再利用一些分類器模型判斷運動目標是不是人。比如下圖所示的一個監控場面，簡單方法就可以比較清楚的看見有人體的圖像：

比上面背景對比算法更加複雜和功能強大的方法就是採用更加複雜的機器學習模型。比如我們之前文章提到過的卷積神經網絡等深度學習技巧。不過在這之前需要理解的則是圖像特徵的處理方法。

人體檢測領域一個重要的里程碑是2005年提出的HOG（方向梯度直方圖）特徵計算方法。

先上一個圖看看效果：

很明顯，該特徵讓我肉眼都看出了，人體的輪廓被勾畫了出來。有了這個好的特徵，後面的分類預測，計算速度則是更順暢的事情（從理解角度而言，不一定是技術難度）。

怎麼得到HOG特徵呢？以黑白圖像爲例（彩色圖像道理是一樣，只要取某個通道上的最大值即可）。

首先，我把圖片分成若干個小的單元，比如8x8的像素單元，在每個單原裏面就有64個格子。每個小格子的灰度值和周邊格子灰度值大小相比，可以讓我們計算灰度的變化方向和強度（即梯度），如下圖表示：

但是每個單元都要用8x8x2=128個值來表示這些梯度，有點太多，而且看得太仔細也容易過擬合和不抗干擾。我便可以把這些128個值的角度分成9個值，每20度爲一個直方，從而統計出該單元的梯度方向直方圖，這樣用9個數字就搞定128個數字做的同樣事情。

最後每兩個單元，採用滑動窗口的方式把每2個單元合併一下，得到新的直方圖。把這些直方圖從新畫一下，就得到了上面的輪廓對比圖，可以很清楚的看到人的輪廓。

當然現在最先進的人體檢測技術已經在這個基礎上有了很大的進展，主要是從更加複雜的特徵處理技巧，分類模型的深度學習模型應用，和運輸速度優化等方向上努力的。但是大概的特徵處理原理還是萬變不離其宗的。

更多精彩文章，請關注我（gongzhonghao):

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.