帝國理工:如何用 AI 解決 80% 專科醫生擔憂的心律裝置移植手術難題

  倫敦帝國理工學院的研究人員開發了一種基於AI的軟件,目前,這款軟件被稱爲PPMnn(永久起搏器神經網絡), 用於識別起搏器或者除顫器的製造商和型號。該研究結果發表在美國心臟病學會(JACC):臨牀電生理學雜誌上。這篇論文介紹了基於神經網絡的系統的開發、驗證和有效性。

  背景

  全世界每年有超過一百萬人進行心律裝置的移植手術,在移植過程中,醫護人員通常是通過一些算法來輔助自己識別設備的X圖像,進而確定起搏器或除顫器的製造商和型號。但即使是最有效的算法,識別也不是完美的,而一旦錯誤就會導致病情延誤。

  事實上,多達80%的心臟相關專科醫生報告說他們“經常”難以識別設備。

  研究人員對來自5家生產廠家的45種型號的1676臺設備的X光圖像進行提取。利用1451幅圖像作爲訓練集,建立了卷積神經網絡對圖像進行分類。測試集還包含其餘的225幅圖像,每種型號包括5個樣本,並將神經網絡識別設備的能力與心臟病專家進行了比較。

  結果顯示,神經網絡對製造商設備的識別準確率爲99.6%(95%置信區間:97.5 ~ 100),對型號的識別準確率爲96.4%(95%置信區間:93.1 ~ 98.5)。5名心臟病專家對製造商識別正確率的均值爲72.0%(範圍爲62.2% ~ 88.9%),無法進行型號識別。可以看出,基於神經網絡識別的能力明顯優於所有心臟病專家。

  方法

  數據提取

  在本研究中,數據集是選取1998年2月至2018年5月期間在 Imperial College Healthcare NHS Trust醫療保健中心植入的心率儀的圖像。

  訓練神經網絡需要足夠多的類別樣例,每一類至少包括25幅圖像,包括便攜式和部門AP/PA胸片,不包括側位胸片。從連續病例患者中提取圖像,每個型號最多提取40張圖像,以最小化類不平衡。從每張X光圖像中,分割出一個比設備稍大的正方形區域,該區域最大限度地提高了網絡的信噪比。然後將這些裁剪後的圖像調整爲224×224像素,並進行歸一化,得到0到1之間的像素值。在提取過程中注意,在某些情況下,如果製造商引進一種新型號時,在X光圖像上沒有檢測到變化,這可能只是設備軟件上的一個更新,或者是部件外觀上幾乎相同無法區分。

  第一步,是從45類中隨機分配5張圖片作爲“測試集”,這在網絡的任何訓練階段都不會用到,在最終驗證準確性時纔會使用。

  剩下的“訓練集”用於訓練網絡,分爲兩個不同階段:第一個階段是決定使用哪個底層網絡(包括結構特徵,如層的數量和大小)以及訓練的快慢(稱爲 “學習率”)。這些卷積神經網絡類似於人類大腦的層次結構組織,解決圖像分類問題;第二階段是調整權重的詳細過程,以對起搏器進行分類。這兩個階段都使用了訓練集,但方式不同。

  在網絡訓練第一階段 (如圖1所示),每種神經網絡候選模型都從75%的訓練集中學習,並正確預測剩餘25%的訓練集。如此重複4次,這樣所有的訓練集都輪流扮演了兩個角色。這個過程被稱爲“4次交叉驗證”。

  

帝國理工:如何用 AI 解決 80% 專科醫生擔憂的心律裝置移植手術難題


  圖1 網絡設計流程圖

  第二階段,基於第一階段選擇的神經網絡模型開始,但是使用整個訓練集對網絡進行訓練,得到最終的神經網絡模型。

  最後,這個訓練好的網絡模型第一次向“測試集”公開,“測試集”始終保持獨立,以評估其正確分類製造商和型號的能力。

  該研究獲得了衛生研究管理局(集成研究應用系統標識249461)的監管批准。

  卷積神經網絡架構與訓練

  我們評估了五種不同的卷積神經網絡架構(DenseNet、Inception V3、VGGNet、ResNet和Xception),這些架構在近幾年都是世界領先級的。在對整個模型進行再訓練時,使用ImageNet上訓練得到的權值對所有網絡進行初始化。

  對於每個網絡,輸出層設置爲45個密集連接的神經元(對應每個設備型號1個)。使用交叉熵損失函數對其中16幅圖像進行損失計算,並使用ADADELTA優化器更新權重。損失是用來評估網絡性能和改進網絡性能的技術指標。損失比簡單的錯誤率(準確度的倒數)更敏感,因爲要獲得滿分(零損失),網絡對每個心臟起搏器圖像的正確預測達到100%。

  神經網絡的訓練是一個自動調整權值以使損失最小化的過程,直到損失函數達到穩定。使用Tensorflow和Keras機器學習框架的Python編程語言進行編程。

  可視化

  對每個例子進行處理以提供特徵映射,其中梯度最高的像素對應於正確的類(突出顯示對網絡決策貢獻最大的像素),這可以使用Keras-vis軟件完成 。

  藉助算法的專家測試

  將225張圖像的測試集提供給5名心臟病專家(其中兩個是電生理學家),同時提供心律儀識別算法CaRDIA-X(3)。該算法只針對製造商進行區分,而不能識別特定的型號。對於每一幅圖像,都已知是起搏器、除顫器還是循環記錄器。

  我們要求評分者將每種設備分類爲Biotronik、Boston Scientific、Medtronic、Sorin或St. Jude Medical。

  統計分析

  對比測試神經網絡和藉助CaRDIA-X算法的專家對製造商分類的結果。採用McNemar檢驗進行評估,p值0.05作爲統計特徵閾值。最後參照每位專家的評估結果計算精度均值。

  精確度定義爲測試集中正確分類的圖像數量除以測試集中圖像的總數。精確度的置信區間使用二項式方法計算。對於大小不相等的製造商類別,也計算F1分數,定義爲精度和召回率的平均值的兩倍,範圍在0和1之間。

  使用費希爾精確檢驗,對網絡的準確性進行了不同子組的評估。韋爾奇不等方差t檢驗通過計算每張圖像的拉普拉斯方差來評估部門和便攜式x線片在圖像清晰度方面的差異,採用R軟件進行統計分析。

  結果

  數據集

  數據集總共包括來自1575名患者的1676張不同設備的圖像。儘管有66種不同的設備型號,但其中一些在視覺上是無法區分的,這可能只是設備中軟件的變化。型號組共有45個,其中278張X光圖像來自便攜式設備,其餘1398臺爲部門AP/PA片。

  測試集45種型號中每種型號由5個樣本組成,總共225個樣本。

  

帝國理工:如何用 AI 解決 80% 專科醫生擔憂的心律裝置移植手術難題


  (左)條形圖顯示了識別5個人類報告者和神經網絡中的設備製造商的比較準確性。p值是指中位數和最佳人類評分之上的神經網絡的優越性。(右)混淆矩陣顯示網絡在預測正確的設備製造商時的準確性。BIO = Biotronik; BOS = Boston Scientific; MDT =美敦力; SOR =索林; STJ = St. Jude。

  階段1:不同神經網絡架構的性能比較

  對於所有的網絡模型,經過階段1的訓練後,網絡的性能都達到了一個穩定狀態,損失函數也下降到一個平穩水平。VGGNet的準確率爲4.4%,Xception的準確率爲91.1%。

  第一階段的結論是爲第2階段選擇Xception架構打下基礎,並預先指定訓練的epoch爲15。然後第二階段從一個全新的Xception神經網絡開始,使用1451張完整的訓練集進行訓練。最後,使用第二階段生成的最終神經網絡對“測試集”數據進行測試驗證。

  階段2: “測試集”驗證神經網絡性能

  最終的神經網絡識別設備製造商的準確率爲99.6%,對應的F1得分爲0.996。性能如圖1所示。唯一錯誤分類的圖像是Medtronic Adapta設備被誤認爲Sorin Reply設備。

  不可避免地,識別模型組(而不僅僅是製造商)的性能較低,準確率爲96.4% (95% CI: 93.1 ~ 98.5), F1評分爲0.964分。值得注意的是,在其中的8個預測中,正確的型號是前3個預測中的1個。因此,通常描述爲“前3名”的準確率爲99.6% (95% CI: 97.5到100.0)。

  

帝國理工:如何用 AI 解決 80% 專科醫生擔憂的心律裝置移植手術難題


  型號識別矩陣

  便攜式X光圖像的型號識別準確率爲89.5% (95% CI: 75.2 - 97.1),而部門X線圖像的準確率爲97.9% (95% CI: 94.6 - 99.4)(兩組間差異p = 0.029)。然而,唯一的製造商分類錯誤是部門X光圖像。起搏器組準確率爲95.0% (95% CI: 90.4 - 97.8),ICDs組準確率爲96.4% (95% CI: 87.5 - 99.6%)(兩組間差異p = 1.00),準確率在不同廠家之間差異不顯著(p = 0.954)。

  與醫學專家的性能進行比較

  五名心臟病專家使用CaRDIA-X算法對5家製造商的225張測試集圖像進行分類。他們的準確率從62.3%到88.9%不等,平均準確率爲72.0%,神經網絡的準確率顯著高於專家。

  可視化分析

  在另一項探索性分析中,我們對測試集中的每張圖像都生成了特徵圖,顯示它們所描述的心率儀的最大特徵,就類似於臨牀醫學中疾病的病徵。

  圖3顯示了包含2個不同型號的4幅圖像,圖4表明AT500設備的特徵映射,顯示圍繞該設備特有的環形電路板組件。

  

帝國理工:如何用 AI 解決 80% 專科醫生擔憂的心律裝置移植手術難題


  圖3

  

帝國理工:如何用 AI 解決 80% 專科醫生擔憂的心律裝置移植手術難題


  圖4

  討論

  這是首次利用人工智能從X光圖像中識別心律裝置的研究。該神經網絡在識別設備製造商方面具有更高的準確性。對於從未見過的圖像,該網絡識別設備製造商的準確率爲99.6%,對應的專家識別準確率爲62.3%到88.9%。

  臨牀應用

  在一些臨牀應用中,使用更快的、可靠的(至少和心臟病專家一樣)工具會大有用處。醫生用它從一個簡單的胸片快速評估心臟設備的性質。因爲只有特定的製造商才能與病人的設備通信,知道帶哪個程序員來可以節省寶貴的臨牀時間,這樣可以在緊急情況下快速訪問設備,提供緊急治療。

  機器學習:特徵圖

  在圖3中,大多數人包括心臟病專家,都很難區分起搏器的兩種模型。然而,神經網絡不僅能準確地區分它們,特徵圖還能突出區分它們最明顯的特徵。此外,一旦這個顯著的特性被指出來(圖4),就很容易區分。

  網絡架構極大地影響性能

  表2顯示了不同神經網絡架構的性能水平,VGGNet在這項任務上的表現很差。ResNet設計了“殘差連接”,這種方法使原始圖像可用於網絡的所有後續層,而不僅僅是第一層。GoogLeNet Inception使用“1×1卷積”在層之間壓縮信息,大大降低網絡的複雜性。性能最好的設計是Xception,它廣泛使用了這兩種創新“殘差連接”和“1×1卷積”。

  侷限性

  該神經網絡可以識別英國地區常用的設備,無法適應所有的設備。當然,該網絡能夠不斷地擴展,訓練神經網絡只需要新設備的25個樣本。

  有時候,神經網絡也會得出錯誤的結論。儘管網絡選擇的正確率在96.4%。但(巧合的是)在99.6%的情況下,正確的型號是前3個預測中的1個。

  所有的神經網絡都有“過度擬合”的風險。我們試圖以兩種方式將過度擬合的風險降至最低。首先,網絡的性能被定義爲在未經過訓練的“測試集”上的準確性。其次,網絡中包括各種“正規化”方法,例如丟失和權重衰減。大連治療早泄的醫院 http://jbk.39.net/yiyuanfengcai/zn_dlbhyy/

  讓神經網絡,從“工作臺走到病牀邊”的部署可能很困難,因爲在護理時並不總是需要很大的處理能力。通過提供任何人都可以使用的在線Web門戶,我們可以緩解這種情況。

  結論

  本研究證明卷積神經網絡能夠從X光片上準確識別心律裝置的製造商和型號。此外,它的性能顯著超過使用流程圖的心臟病專家。

  醫學能力:機器學習和人工智能在醫學領域,特別是在醫學圖像分析領域,得到了迅速的發展。我們的方法會加速患者的診斷和治療。本文也表明了神經網絡越來越多的處理大量的醫學數據(整個衛生保健系統),以及未來病人護理可能會越來越多地依賴計算機輔助決策。

  成果轉化:將機器學習的成果從計算機實驗室轉化爲現實應用往往是困難的。通過研究,我們提供了一個在線教育門戶網站,醫生可以在線與網絡互動。與以往一樣,在將神經網絡部署爲有效工具之前,進一步的臨牀研究對於評估網絡的準確性至關重要。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章