李飛飛高徒:斯坦福如何打造基於視覺的智能醫院?

選自Stanford AI Lab Blog

作者:Albert Haque、Michelle Guo

機器之心編輯部

自 2009 年擔任斯坦福人工智能實驗室和視覺實驗室的負責人,李飛飛在推動計算機視覺方面研究的同時,還密切關注 AI 醫療的發展。昨日,李飛飛離任斯坦福 AI 實驗室負責人一職,Chris Manning 接任,並推出了全新的斯坦福 AI 技術博客。近日,斯坦福 AI 實驗室博客更新,介紹了基於視覺的智能醫院,將 AI 用於改善醫療衛生狀況。博客作者 Albert Haque 和 Michelle Guo 均爲李飛飛的學生。

每年,死於醫院內感染的人數比車禍還要多。這意味着去醫院就醫比不去醫院病情加重的概率要高 1/30。

這當然是極端情況,但醫院可以通過創造更好的衛生條件輕鬆改善這種狀況。衆所周知,無論是在醫院還是機場、飯店等公共場所,手部衛生是阻止傳染病傳播的第一道防線,因此,這點不容忽視。檢查手是否洗乾淨需要自動檢驗技術的幫助。解決這一問題最簡單的方法可能是利用最普通的人類策略——利用計算機視覺來確認大家有沒有洗手。

開發這樣一種技術解決方案是斯坦福 Partnership in AI-Assisted Care(PAC)項目及其世界各地的合作者多年以來的努力方向。儘管還有很多的工作要做,但我們希望該技術可以幫助醫院降低感染率,改善患者的健康狀況。

爲什麼要藉助視覺?

目前,醫院通過醫學院課程、公告牌上的宣傳材料、員工週會等教育手段來強化手部衛生意識。世界衛生組織(WHO)甚至提出了手部衛生的「五大時刻」(Five Moments),詳細規定了醫務工作者應該洗手的時間點。爲了檢查醫務人員是否遵守規定,醫院讓員工佩戴 RFID 卡或標識來追蹤他們的手部衛生狀況。這種方法有一定效果,但對工作流程造成的干擾也時有發生,如人衝進一間新的房間時皁液器會刷到 RFID 卡產生響應。這主要是由技術原因造成的:一般 RFID 卡通訊距離較短,而長距離的「活躍」RFID 卡受自身定向天線的控制,且需要電池。顯然,我們需要一種可以克服 RFID 技術侷限的新型解決方案。

計算機視覺與醫院

斯坦福 AI 實驗室與斯坦福大學露西爾帕卡德兒童醫院(Lucile Packard Children』s Hospital)合作,共同開發了一種新的手部衛生追蹤高級方法。該方法採用最前沿的計算機視覺技術,不需要臨牀醫生改變他們的日常習慣。計算機視覺已經應用於醫學成像,但在物理醫院空間中還沒有得到充分利用。所幸計算機視覺在另一個問題中已經用在物理空間中:自動駕駛汽車。自動駕駛汽車利用大量傳感器來了解周圍環境。那麼,我們能將其中一些傳感器用在醫院裏以更好地瞭解醫院的衛生狀況嗎?

深度傳感器

深度傳感器(如 Xbox Kinects)看起來很像相機,但它記錄的是距離而非顏色。在一幅正常的彩色圖像中,每個像素代表一種顏色。而在深度圖像中,每個像素代表到現實世界空間中像素的「距離」,通常是一個浮點數,如 1.337 米。

(左)用手機相機拍攝的醫院彩色照片。(右)天花板上的傳感器拍攝的對應深度圖像。顏色越深表示物體距離深度傳感器越近。

觀察以上深度圖像可以發現,雖然看不清人臉,但你還是能分辨出他們在做什麼。這麼做可以保護用戶隱私,而隱私在醫院中非常重要。爲了改進和驗證該技術,我們在兩家醫院(一家兒童醫院的心血管科室,一家成人醫院的 ICU 病房)的天花板上安裝了深度傳感器。

裝在兒童醫院天花板上的深度傳感器。

把深度傳感器裝在兩家不同的醫院之後,我們可以利用 3D 計算機視覺工具來自動測量手部衛生活動。這需要三個步驟:

1. 檢測醫護人員。

2. 對在醫院內走動的醫護人員進行追蹤。

3. 對他們的手部衛生行爲進行分類。

行人檢測

繼續用自動駕駛汽車打比方:爲了理解環境,我們首先需要檢測環境中的人。儘管有很多種目標檢測方法,但它們大多數都是爲彩色 RGB 圖像開發的。因此,我們選擇一種可在任何類型的圖像上運行的方法,該方法利用了該問題的兩個層面:在給定房間圖像中,人只佔據很小的空間,而深度圖像中的人看起來則像地板背景上醒目的「一坨」。

字典條目(dictionary entry):每個字典條目包含一張合成圖像,對應某個人所處的位置。

檢測人的一種方法是確定地面的佔據網格,這是一個二值矩陣,表示一個人是否佔據地面的某個特定位置。我們可以創建一個字典,其在地面的每個點包含一「坨」。對於多個人,我們可以渲染場景中的多「坨」。在測試期間,我們只需要每一「坨」的圖像,這可以利用前景/背景分離或目標分割算法來實現。現在,給定一張測試圖像,我們可以對該字典執行 K 近鄰搜索來尋找每一「坨」的位置。

手部衛生活動分類

目前,我們已經識別了單位中所有行人的軌跡(即全局醫院單位地面上的位置)。最後一步是檢測手部衛生活動,並將其和特定軌跡關聯起來。當一個人使用了洗手液時,手部衛生活動被定義爲正。然後我們將每個行人的軌跡標記爲「乾淨」或「不乾淨」。

在現實世界中部署傳感器通常受限於安裝過程。無論是否有意,建築和維護技術人員都安裝了角度和位置各不相同的傳感器,這意味着我們的模型必須對這些差異具有魯棒性,從而它可以適用於任何傳感器視點。由於傳統的卷積神經網絡(CNN)通常不是視點不變的,我們可以使用空間變換網絡(STN)代替。

(左)帶有人物分割的數據增強階段。(右)手部衛生活動分類器:空間變換網絡加上密集連接卷積網絡。

STN 的輸入是任意圖像,輸出是變形圖像。爲了幫助模型更快地學習,我們還向 STN 提供人物分割(即身體掩模)。可以使用經典的前景/背景分離技術或深度學習方法來提取該身體掩模。STN 將圖像變形成學習到的「視點不變」形式。從這個變形的圖像中,我們使用標準 CNN(即,DenseNet)來執行是否有人使用洗手液的二進制分類。

該技術與人類觀察員和 RFID 的對比結果

如今,很多醫院使用 secret shopper 來衡量手部衛生是否合格,訓練有素的人會在醫院各處巡視,觀察醫護人員私下是否洗手。這種 secret shopper 可能是護士、醫生,甚至是訪客。我們將這種行爲稱之爲祕密觀察,與爲審覈而進行的公開觀察相反。這種祕密觀察可以最小化霍桑效應(即當你發現有人在觀察自己時,會刻意改變行爲)。如上所述,我們把計算機視覺和多個站在固定位置的觀察員、在醫院內走動的單個觀察員以及 RFID 標籤的使用進行了比較。

對比結果

RFID 產生了大量的假陽性,並且判斷是否合格的準確率比較低。它正確預測乾淨或骯髒的概率只有 18%。

觀察員效果比這好得多,準確率爲 63%,而三個人做得更好,72%。但是,我們的算法甚至超過了人類觀察員,達到了 75% 的準確率。這個結果在意料之中,畢竟觀察員的對手是具有「全局視野」的計算機視覺系統。不過,既然真實標籤是由人類標註的,人類觀察員怎麼會比算法做得還差呢?這是因爲真實標籤是被遠程標註而非實時標註的。遠程標註者可以訪問所有的傳感器,並及時向前或向後播放視頻以確保其標註是準確的。而在現場的觀察員不能「訪問」所有傳感器,也無法及時回放事件來確定自己的觀察是否準確。

不同時段的手部衛生檢測。藍色方塊表示有人使用了手部衛生分配器。深藍色表示更多同時發生的事件。底部顯示了真實標籤。一般來說,空白越多表示結果越差。

拋開數字不說,一個更有趣的結果是視覺效果。上圖顯示了現場觀察員檢測手部衛生活動的頻率之低。注意到所有的空白部分了嗎?如果你仔細觀察真實標籤那一行,你會發現幾乎沒有空白。這意味着人類觀察員錯過了很多手部衛生活動。這通常是由觀察員的注意力分散造成的:他們可能打瞌睡了,也可能在看區域內的無關活動,或者就只是沒有看到手部衛生活動的進行。

走在重症監護病房的人的時空熱圖。黃色/紅色表示該區域內有更多人站立/行走。

我們得出一個最終的可視化圖。上面的動畫顯示了醫院內的俯視圖。因爲我們可以追蹤整個醫院裏的人,所以我們幾乎一直都知道他們的特定(x,y,z)位置。我們繪製了每個點,並隨着時間的推移創建了熱圖。這種類型的空間分析可用於識別交通模式並可能追蹤疾病的傳播。始終爲黃色/紅色的區域表示擁擠的空間。這些空間通常位於走廊交叉點或緊鄰病房外。如果你仔細觀察,就會發現我們的固定觀察員是紅色的。

未來方向

我們已經展示瞭如何使用計算機視覺和深度學習來自動監控醫院的手部衛生活動。在 AI-Assisted Care 的斯坦福合作項目中,手部衛生只是醫療保健中應用計算機視覺的一個案例。我們還在開發計算機視覺系統,以監測患者的活動水平,分析外科手術的質量,並檢查老年人生活中的異常情況。我們希望這項工作能夠向世人展示人工智能輔助醫療的潛力和影響。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章