Stata: 因變量是類別變量時採用什麼方法估計?

Stata連享會   計量專題 || 精品課程 || 簡書推文 || 公衆號合集

點擊查看完整推文列表

連享會計量方法專題……https://gitee.com/arlionn/Course

問題背景

多數情況下,我們的被解釋變量都是連續變量,但也有些情況下,我們會對分類變量感興趣,比如,出門時選擇何種交通工具?大學畢業時是否繼續讀研?等等。那麼,此時,該用何種模型來分析比較合適呢?

分類變量可以被進一步分爲多種類型,要根據情況來選擇合適的模型。

0/1 變量

例如,是否結婚? 是否生二胎? 是否買越野車 ……,被解釋變量都是非此即彼的二元選擇問題。此時,最爲常用的是 LogitProbit 模型,二者雖然形式上有差異,在係數解釋、概率預測方面的差異卻很小。

若使用 Stata 進行估計,語法也很簡單。

sysuse auto, clear 
logit foreign price weight mpg  // Logit 估計
probit foreign price weight mpg // Probit 估計

更爲詳細的介紹,請參閱:

類別數目較小的分類變量

例如,被解釋變量爲「yy = 出行交通工具選擇」:1 步行;2 電動車;3 汽車;4 地鐵。顯然,各個類別雖然用數字加以區分,但數字之間並無大小區分,只起到了「標記」作用。

類似的例子還有很多,例如:

  • yy = 上市公司的融資方式」:1 內部融資;2 債務融資;3 權益融資 (這是比較規範的例子)
  • yy = 上市公司的融資方式」:1 內部融資;2 銀行貸款;3 公司債券;4 定向增發;5 公開二次發行 (這是比較糟糕的例子)
  • yy = 高管激勵方式=」:1 貨幣薪酬;2 股票期權;3 績效獎金

此時可以使用 多元 Logit/Probit 模型 (Multinomial Logit/Probit regression) 進行估計,對應的 Stata 命令是 mlogitmprobit。Stata 幫助文件和電子手冊提供了詳細的範例和說明。

本質上,可以把多元 Logit 視爲多個二元 Logit,同時附加一些約束條件,例如,要求各種選擇的概率之和爲 1,且每一組二元 Logit 模型的干擾項之間彼此存在一定相關性。

如下是相關參考資料:

類別數目較多的情形

類別數較多時,比如,超過 10 組甚至 20 組,直接進行分析的難度較大。退一步來講,此時組間的差異分析也不容易進行,經濟含義比較難以說清楚。

一個比較穩妥的處理方式是,根據相關的理論和經驗分析對現有的分類進行適當合併,使分析對象相對集中一些。

例如,可以把「A. 銀行短期貸款;B. 銀行長期貸款;C. 商業票據;D. 可贖回債券」等融資方式都歸類爲「1. 債務融資」,進而與「2. 內部融資」和「3.權益融資」放在一起進行對比分析。 從理論上講,上述小類 (A, B, C, D) 雖然也有差別,當相對於大類 (1, 2, 3) 之間的差異而言,這些差別的重要性就會大大降低。從大類層面進行分析便於我們抓住問題的本質。

具有序別特徵的分類變量

有時候,我們是無法明確區分「類別變量」和「序別變量」的。例如,「HY - 幸福感」 —— 取值爲 1-5,5 代表“非常幸福”。

你可以把 HY 視爲類別變量,使用 mlogit 模型來分析 HY=5HY=4 的人羣有哪些差別。此時,數字 45 只是用來標記兩類人羣的,並不存在 4<54<5 的關係。

你也可以把 HY 視爲序別變量,用 有序 (Ordered) Logit / Probit 分析幸福感的提升 (由 1 → 2 或 4 → 5) 受哪些因素的影響。此時,4<54<5

相對而言,後者用的多一些,但也有文章同時從上述兩個角度進行分析,因爲二者並不存在孰優孰劣的問題。

上述兩個模型的 Stata 命令爲 mlogitologit。如下是兩個不錯的例子:

除了上述提到的 Logit / Probit 族模型外,在某些情況下,也會考慮使用 計數模型 (Count Data model, help poisson, help nbreg) 來分析諸如 專利個數交通違章次數 等有「計數」特徵的變量。

參考資料

關於我們


歡迎加入Stata連享會(公衆號: StataChina)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章