論文閱讀——利用Inceptioin V3在PET上進行AD預測

分享一篇用18F-FDG PET進行AD預測的文章,下面是一些本人的理解。

論文信息:Ding, Y., Sohn, J. H., Kawczynski, M. G., Trivedi, H., Harnish, R., Jenkins, N. W., … Franc, B. L. (2019). A deep learning model to predict a diagnosis of Alzheimer disease by using 18 F-FDG PET of the brain. Radiology, 290(3), 456–464. https://doi.org/10.1148/radiol.2018180958

本人依照着從數據到模型,再到結果這樣一條線來介紹,可能有些地方和原文順序不太相符。

一、數據及預處理

1.數據集

在這裏插入圖片描述
除非特別說明,表中數據爲平均值±標準偏差,括號中一個是範圍,一個是男性患者的百分比。

本文所使用的ADNI Set 包含2005年5月到2017年1月的1002名個體,共2109張PET影像。

ADNI Set 中的90%(1921張影像,899名個體)用於訓練模型,10%(188張影像,103名個體)用於測試,同時還有一個由40名個體組成的獨立測試集。該測試集來自作者所有單位,採用下圖的條件來篩選。所有患者來自神經記憶科,首先排除沒有PET數據的患者,然後排除屬於ADNI的患者,最後選出40名患者。

在這裏插入圖片描述

在這裏插入圖片描述
除非特別說明,表中數據爲平均值±標準偏差,括號中一個是範圍,一個是男性患者的百分比。

獨立數據集包括了從2006年到2016年的患者。

對於這兩個數據集,所有隨訪檢查後的最終臨牀診斷被用作基本真實性標籤。

2.預處理

在這裏插入圖片描述
這個預處理部分本人對中間的理解有些欠佳,在這裏先貼上原文,下圖是原文彙總提到的Fig 2。之後再寫本人的理解。

本文采用了一種網格方法來處理原始的圖像。

首先將圖像重採樣到 2mm 各向同性體素,並裁剪到 100x100x90 像素網格,從而產生 200x200x180mm3 的體積。

然後利用Otsu閾值(應該是指Otsu算法)選擇腦體素。

通過選擇頭頂和頭部最底端超過 100x100mm2 的腦軟組織,將總體積分成16個均勻間隔的部分,並分佈到4x4的網格中。(如下圖A)

論文中有兩個詞語:cranial-most 和 caudal-most,我理解爲頭頂和頭部最底端,如果有人知道具體指什麼位置可以留言。

在這裏插入圖片描述
在上圖中:
A,76歲的AD患者;B,83歲的MCI患者;C,80歲的non-AD/MCI患者

二、模型

在這裏插入圖片描述
本文的模型採用的是Inceptioin V3,使用了11個Inception模塊,三個大小爲1024、512和3的全連接層。
該模型在ImageNet數據集上進行了預訓練,並進一步進行了微調。

在全連接層之前使用dropout=0.6作爲正則化方法。
batch size=8,learning rate=0.0001,損失函數:交叉熵(categorical cross entropy)。

模型的輸入是由預處理步驟產生的的二維圖像,即4×4網格上的16張切片,同時文中提到該圖像是512x512大小的矩陣。

在訓練模型時使用了數據增強的手段:隨機地將高度和寬度偏移0-10%,縮放0-8%。

三、結果

1.模型結果

在這裏插入圖片描述
上圖展示了該文章所使用模型在ADNI Set 和獨立數據集的表現,以及放射科醫師在獨立數據集的診斷表現。
文章中提到首先由三位分別有着36、14、5年經驗的醫師對一個病人進行連續的定性和定量解釋。
解釋包括兩個組成部分:一個是PET圖像在軸向、矢狀面和冠狀面的定性解釋,另一個是使用臨牀神經分析軟件包完成的半定量區域代謝分析。
如果三位醫師意見未統一,則再由兩位分別有1年和13年經驗的醫生來做出判斷,然後以多數人的意見作爲結果。

我們可以看到,與放射科醫生相比,模型在識別成爲AD的患者方面表現更好。

在這裏插入圖片描述
上圖爲在剩餘10%的ADNI Set上測試模型得到的ROC曲線。

在這裏插入圖片描述
在95%置信區間的設置下,模型以及醫師在獨立測試集測試得到的ROC曲線
在獨立測試集上,模型在統計上顯著地改善了對AD患者的識別。該模型對非AD/MCI患者的識別效果較好,對MCI患者的識別效果較差,但未達到統計學意義。
如果臨牀讀片的敏感點和特異點位於ROC曲線的CI空間之外,則認爲結果具有統計學意義。
總體來講,該模型對AD的敏感率高,特異性強,能在76個月的隨訪期內預測最終診斷結果。

2.模型解釋與可視化

在這裏插入圖片描述
上圖中:
a)77歲男性解剖圖和顯著圖的重疊圖
b)阿爾茨海默病神經影像學初始集的平均顯著性地圖超過10%
c)獨立測試集上的平均顯著性圖

顯著性地圖繪製關於每個輸入像素的AD類得分的梯度,以達到對圖像上被認爲對分類結果重要的區域的可視化的目的。(像素顏色越接近圖像中顏色條的 “High”,表示它對阿爾茨海默症等級預測的影響越大)

先使用PCA將1024個特徵降維到30維,然後使用 t-SNE (learning rate 200 and 1000 iterations) (t-SNE = t-distributed stochastic neigh- bor embedding)降到2維。

如圖b和c中的顯著圖所示,第三行的第二和第三部分顯示了信號分散區域中最強烈的信號。結果表明,它們對AD患者的分類決策具有重要影響,這符合臨牀意義(more caudal sections in the parietotemporal regions are informative of AD)。然而,這些模式的特異性不足以提取統一的人類可預測的影像生物標記物。不過總體而言,顯著圖表明深度學習模型在進行預測時考慮了整個大腦,如圖a所示。

在這裏插入圖片描述
在使用T-SNE進行維度縮減之後,將 Inception -v3 提取的特徵分成三個簇。

non-AD/MCI的聚類幾乎是只包含了non-AD/MCI,MCI的聚類混合了non-AD/MCI患者和AD患者,AD的聚類也混合了其他兩類。這和模型測試的結果是比較相符的。

由於幾乎所有的AD患者都位於AD聚類中,所以本文的模型在AD分類上獲得了較高的敏感率。
由於non-AD/MCI聚類幾乎是純的,所以本文的模型在non-AD/MCI分類上獲得了較高的準確率。

四、討論

1.關於結果的討論

本研究開發並測試的深度學習算法,在ADNI保持測試集和獨立測試集上都表現出很強的魯棒性,對獨立測試集上的AD預測具有100%的靈敏度(95%CI:65%,100%)。此外,在獨立測試集上預測AD的最終診斷時,它在ROC空間上優於三個放射科讀者,具有統計學意義。隨着對更大和更多樣的數據集的進一步驗證,該算法可能能夠增強放射科醫生閱讀器的性能,提高對AD診斷的預測能力,爲早期干預提供了機會。

先前的多項研究表明,18F-FDG PET圖像上皮質低代謝區域的獨特分佈有助於區分AD、MCI和健康人。但是18F-FDG本身並不是AD或MCI的明確影像生物標記物。在過去的十年中,已經產生了一些對AD進行早期診斷的工具,包括越來越特異的AD生物標誌物。例如,β-amyloid (Aβ)是AD的標誌物,可在腦脊髓液中檢測到,或在PET成像時,使用放射性標記Aβ配體,如18F-florbetapir、flutemetamol和florbetaben。然而,這些創新與高成本有關,這些成本可能無法通過患者的保險報銷,或者無法普遍推廣,因此18F-FDG PET得以登場。

據原文提到,將深度學習方法應用於功能成像來對癡呆症患者進行分類的工作較少。作者目前的研究方法在文獻中並沒有得到預先的重視。(可能因此作者再次強調了他們的實驗結果)

值得注意的是,顯著圖模型可視化並沒有顯示出明顯的人類可解釋的成像生物標記物,這似乎對AD預測有影響。相反,深度學習算法顯然利用了來自不同解剖區域的不同影響程度的整個大腦來做出最終決定。這突出了深度學習算法的優勢,該算法在分類中將大腦視爲逐像素體積,這意味着深度學習算法從人類對成像研究的解釋中得出診斷結果。

2.侷限性

在文章的開頭,作者提到應用機器學習技術去發現複雜的模式,例如在腦PET影像中,纔剛剛開始被探索。如此看來作者的工作也是比較具有前沿性的,同時在文章最後作者也自己提出了很多侷限性和不足。加以我的理解整理如下:

1.獨立測試集已經排除非AD性神經退行性疾病和其他可能影響記憶功能的患者,如此模型的普適性就降低了。

2.深度學習算法的魯棒性受到ADNI訓練集的臨牀分佈的內在限制。

3.儘管作者使用了顯著圖進行可視化,但深度學習算法並沒有產生人類可解釋的成像生物標記,這突出了深度學習算法固有的黑箱限制。

4.MCI和non-AD/MCI的診斷本質上是不穩定的,因爲它們的準確性取決於隨訪時間的長短。
例如,一些MCI患者,如果隨訪足夠長的時間,最終可能會發展爲AD。

結束語

本人才疏學淺,且對放射學雜誌一竅不通,對文章的講解也不甚到位,更多的是對文章的翻譯,還請見諒。最後,如果你也讀了這篇論文歡迎來交流,或者發現哪裏我的理解有問題可以留言。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章