Stata: 因變量是類別變量時採用什麼方法估計？

Stata連享會計量專題 || 精品課程 || 簡書推文 || 公衆號合集

連享會計量方法專題……，https://gitee.com/arlionn/Course

問題背景

多數情況下，我們的被解釋變量都是連續變量，但也有些情況下，我們會對分類變量感興趣，比如，出門時選擇何種交通工具？大學畢業時是否繼續讀研？等等。那麼，此時，該用何種模型來分析比較合適呢？

分類變量可以被進一步分爲多種類型，要根據情況來選擇合適的模型。

0/1 變量

例如，是否結婚？ 是否生二胎？ 是否買越野車 ……，被解釋變量都是非此即彼的二元選擇問題。此時，最爲常用的是 Logit 或 Probit 模型，二者雖然形式上有差異，在係數解釋、概率預測方面的差異卻很小。

若使用 Stata 進行估計，語法也很簡單。

sysuse auto, clear 
logit foreign price weight mpg  // Logit 估計
probit foreign price weight mpg // Probit 估計

更爲詳細的介紹，請參閱：

類別數目較小的分類變量

例如，被解釋變量爲「 $y$ = 出行交通工具選擇」：1 步行；2 電動車；3 汽車；4 地鐵。顯然，各個類別雖然用數字加以區分，但數字之間並無大小區分，只起到了「標記」作用。

類似的例子還有很多，例如：

「 $y$ = 上市公司的融資方式」：1 內部融資；2 債務融資；3 權益融資 (這是比較規範的例子)
「 $y$ = 上市公司的融資方式」：1 內部融資；2 銀行貸款；3 公司債券；4 定向增發；5 公開二次發行 (這是比較糟糕的例子)
「 $y$ = 高管激勵方式=」：1 貨幣薪酬；2 股票期權；3 績效獎金

此時可以使用 多元 Logit/Probit 模型 (Multinomial Logit/Probit regression) 進行估計，對應的 Stata 命令是 mlogit 和 mprobit。Stata 幫助文件和電子手冊提供了詳細的範例和說明。

本質上，可以把多元 Logit 視爲多個二元 Logit，同時附加一些約束條件，例如，要求各種選擇的概率之和爲 1，且每一組二元 Logit 模型的干擾項之間彼此存在一定相關性。

如下是相關參考資料：

Stata 手冊 - mlogit 多元 Logit 模型的理論介紹
UCLA Stata 範例 - mlogit 介紹的比較詳細。

類別數目較多的情形

類別數較多時，比如，超過 10 組甚至 20 組，直接進行分析的難度較大。退一步來講，此時組間的差異分析也不容易進行，經濟含義比較難以說清楚。

一個比較穩妥的處理方式是，根據相關的理論和經驗分析對現有的分類進行適當合併，使分析對象相對集中一些。

例如，可以把「A. 銀行短期貸款；B. 銀行長期貸款；C. 商業票據；D. 可贖回債券」等融資方式都歸類爲「1. 債務融資」，進而與「2. 內部融資」和「3.權益融資」放在一起進行對比分析。從理論上講，上述小類 (A, B, C, D) 雖然也有差別，當相對於大類 (1, 2, 3) 之間的差異而言，這些差別的重要性就會大大降低。從大類層面進行分析便於我們抓住問題的本質。

具有序別特徵的分類變量

有時候，我們是無法明確區分「類別變量」和「序別變量」的。例如，「HY - 幸福感」 —— 取值爲 1-5，5 代表“非常幸福”。

你可以把 HY 視爲類別變量，使用 mlogit 模型來分析 HY=5 和 HY=4 的人羣有哪些差別。此時，數字 4 和 5 只是用來標記兩類人羣的，並不存在 $4<5$ 的關係。

你也可以把 HY 視爲序別變量，用 有序 (Ordered) Logit / Probit 分析幸福感的提升 (由 1 → 2 或 4 → 5) 受哪些因素的影響。此時， $4<5$ 。

相對而言，後者用的多一些，但也有文章同時從上述兩個角度進行分析，因爲二者並不存在孰優孰劣的問題。

上述兩個模型的 Stata 命令爲 mlogit 和 ologit。如下是兩個不錯的例子：

除了上述提到的 Logit / Probit 族模型外，在某些情況下，也會考慮使用 計數模型 (Count Data model, help poisson, help nbreg) 來分析諸如 專利個數、交通違章次數 等有「計數」特徵的變量。

參考資料

關於我們

Stata連享會 由中山大學連玉君老師團隊創辦，定期分享實證分析經驗。
歡迎賜稿： 歡迎賜稿至[email protected]。錄用稿件達三篇以上，即可免費獲得一期 Stata 現場培訓資格。
往期精彩推文：
Stata繪圖 | 時間序列+面板數據 | Stata資源 | 數據處理+程序 | 迴歸分析-交乘項-內生性

Stata: 因變量是類別變量時採用什麼方法估計？

連享會計量方法專題……，https://gitee.com/arlionn/Course

問題背景

0/1 變量

類別數目較小的分類變量

類別數目較多的情形

具有序別特徵的分類變量

參考資料

關於我們

畢業季10分鐘Markdown簡歷——在線美觀易變

Stata：畢業論文大禮包 A——實證結果輸出命令大比拼

Stata: 因變量是類別變量時採用什麼方法估計？

Stata 可重複性報告系列A：動態文檔命令 (dyn*)

珠聯璧合 I：Jupyter Notebook 和 Stata 關聯 (windows系統)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結