SPSS(二十)SPSS之生存分析(圖文+數據集)

SPSS(二十)SPSS之生存分析(圖文+數據集)

生存分析背景

爲什麼要使用生存分析而不是使用傳統方法,大家可參考(理論介紹的非常詳細)

https://wenku.baidu.com/view/453b1a0c26284b73f242336c1eb91a37f11132d2.html

傳統方法在分析隨訪資料時的困難

隨訪是指醫院對曾在醫院就診的病人以通訊或其他的方式,進行定期瞭解患者病情變化和指導患者康復的一種觀察方法。

  • 時間和生存結局都成爲了要關心的因素

除了生存結局作爲判定標準以外,只要能讓病人存活時間延長,這種藥物也應當是被認爲有效的。即時間延長也認爲有效
如果將兩者均作爲因變量擬和多元模型,則時間分佈不明(肯定不呈正態分佈,在不同情況下的分佈規律也不同),擬和多元模型極爲困難

  • 存在大量失訪

失去聯繫(病人搬走,電話號碼改變)
無法觀察到結局(死於其他原因)
研究截止
顯然,將失訪數據無論是算作死亡還是存活似乎都不大合理
 

生存分析的主要研究內容

  • 描述生存過程

研究人羣生存狀態的規律
研究生存率曲線的變動趨勢
是人壽保險業的基礎

  • 生存過程影響因素分析及結局預測

瞭解哪些因素會影響生存過程
對生存結局加以預測
在臨牀中應用的非常廣泛

 

生存分析專業術語

  • 失效事件(Failure event)

也被稱爲稱“死亡”事件或失敗事件,表示觀察到隨訪對象出現了我們所規定的結局。失效事件的認定是生存分析的基石,必須絕對準確。失效事件應當由研究目的而決定,並非一定是死亡(如研究燈泡壽命),而死亡也被並非一定是發生了失效事件(如肺癌患者死於其他疾病)。

  • 截尾值(Censored value)

終止隨訪不是由於失效事件發生,而是無法繼續隨訪下去,常用符號“+”表示。 
生存但中途失訪:包括拒絕訪問、失去聯繫或中途退出試驗。
死於其它與研究無關的原因:如肺癌患者死於心機梗塞、自殺或因車禍死亡,終止隨訪時間爲死亡時間。
隨訪截止:隨訪研究結束時觀察對象仍存活。

  • 生存時間(Survival time)

隨訪觀察持續的時間,按失效事件發生或失訪前最後一次的隨訪時間記錄,常用符號t表示。
根據失效事件的定義不同,生存時間可以是各種類型的指標,甚至於根本就不是“時間”
從症狀緩解到再次惡化
設備從開始使用到失效
汽車的累積行駛里程

  • 生存率(Survival rate)

實際上應當是生存概率,指某個觀察對象活過t時刻的概率,常用p(x>t)表示。
根據不同隨訪資料的失效事件,生存率可以是緩解率、有效率等。

 

 生存分析方法分類

  • 參數法(使用非線性迴歸來擬合【Nonliner過程】)

(該方法興起是二戰的時候去評價一個新的武器壽命的,這個武器壽命t往往符合某些特定的分佈)

首先要求觀察的生存時間t服從某一特定的分佈,採用估計分佈中參數的方法獲得生存率p(X>t)的估計值。
生存時間的分佈可能爲指數分佈、Weibull分佈、對數正態分佈等,這些分佈曲線都有相應的生存率函數形式。只需求得相應參數的估計值,即可獲得p(X>t)的估計值和曲線。 

  • 非參數法(生存壽命表【Life tables過程】和Kaplan-Meier過程

(比如人的生存t不知是何種分佈,參數法就不適用了)

實際工作中,多數生存時間的分佈不符合上述所指的分佈,就不宜用參數法進行分析,應當用非參數法。
這類方法的檢驗假設與以往所學的非參數法一樣,假設兩組或多組的總體生存率曲線分佈相同,而不論總體的分佈形式和參數如何。
非參數法是隨訪資料的常用分析方法。 

  • 半參數法(Cox Regression過程與Cox w/Time-Dep Cov過程

(非參數法一般只針對單變量,對於多變量就沒辦法了)

只規定了影響因素和生存狀況間的關係,但是沒有對時間(和風險函數)的分佈情況加以限定
這種方法主要用於分析生存率的影響因素,屬多因素分析方法,其典型方法是Cox比例風險模型

 

SPSS中的相應模塊

  • Nonliner過程
     

可以針對任何種類的時間分佈加以擬和

  • Life tables過程

分析分組生存資料,主要用於計算壽命表

  • Kaplan-Meier過程

用於未分組生存資料

  • Cox Regression過程

最重要的一個分析方法

  • Cox w/Time-Dep Cov過程

對比例風險模型的擴展,允許影響因素的影響程度雖時間而變化

 

參數法案例--Kaplan-Meier方法

是最基本的一種生存分析方法

案例:Prednisolone新藥對慢性肝炎療效的研究

2	0	1
6	0	1
12	0	1
54	0	1
56	1	1
68	0	1
89	0	1
96	0	1
96	0	1
125	2	1
128	2	1
131	2	1
140	2	1
141	2	1
143	0	1
145	2	1
146	0	1
148	2	1
162	2	1
168	0	1
173	2	1
181	2	1
2	0	2
3	0	2
4	0	2
7	0	2
10	0	2
22	0	2
28	0	2
29	0	2
32	0	2
37	0	2
40	0	2
41	0	2
54	0	2
61	0	2
63	0	2
71	0	2
127	2	2
140	2	2
146	2	2
158	2	2
167	2	2
182	2	2

定義失效事件

結果:

兩組都有22個人,新藥組出現失效事件的有11人,存在刪失的案例也爲11人,佔總體50%

對照組出現失效事件的有16人,存在刪失的案例也爲6人,佔總體27.3%

下面的生存表是每一個案例的生存時間

新藥組最快出現失效事件爲2個月,累計人數1人,此時生存率爲95.5%

到第56個月時候,出現刪失,失訪,生存率不用重新計算,但是剩餘個數少了

均值:新藥組平均生存125.264個月,對照組生存平均週期爲72.545個月(均值並非簡單的均值求和)

中位數:新藥組50%的人可以生存146個月,對照組可生存40個月

 

以圖形方式展現出來,更加直觀展示

 

Kaplan-Meier曲線

那這兩個到底有沒有差別呢?我們在圖形中查看發現其是有差別的,檢驗一下

對數秩:比較注重全局的(使用的比較對)

對數秩:比較注重前半截的

Tarone-Ware:介於對數秩和對數秩中間的一個方法(使用的比較少)

H0:相應兩組全時間段無區別,曲線是重疊的

三個檢驗的Sig.<0.05,拒絕原假設,說明新藥組確實和對照組不一樣,有明顯的積極作用。

 

Cox比例風險模型

Kaplan-Meier只是研究單因素的

屬於半參數模型
與參數模型相比,該模型不能給出各時點的風險率,但對生存時間分佈無要求,可估計出各研究因素對風險率的影響,因而應用範圍更廣。爲了紀念Cox的貢獻,統計學家把它稱爲Cox比例風險模型。

相對於logistic來說,其無常數項

 

我們還是剛纔上面的數據做Cox比例風險模型

結果(Cox比例風險模型與邏輯迴歸模型SPSS結果結構呈現差不多

塊0:由於無常數項,所以擬合了一個無效的模型

-2倍對數似然值:假如加入自變量後模型效果變好,這個值會降低

塊1:有自變量,-2倍對數似然值比塊0小,說明模型變好了,但是這個變量有沒有加入的必要呢?

Sig.<0.05說明自變量有加入的需要,EXP(B)說明在任何時間的情況下,對照組的風險是新藥組的兩倍(由於Cox比例風險模型假設是任何時間點的情況下風險是等比例的,如何驗證其是等比例的呢?可用Cox w/Time-Dep Cov過程,本質就是加入group與時間的交互項,假如有意義就不是任何一個時間點都一樣了)

用圖形展示出來呢?

 

這是把group平均起來的曲線,假如想分開畫呢? 

 

這些都是按照模型估計出來的,並非原始的值做的圖

 

邏輯迴歸與生存分析怎麼選擇?

邏輯迴歸比較關注單點的比較,5年、10年

生存分析全程都關注,而且對生存分析來說結局和時間都非常重要

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章