Lasso思想及算法-----good

Lasso思想及算法

統計 2010-11-25 21:47:59 閱讀843 評論2   字號: 訂閱

1、只有這麼幾個人在做LASSO,他們都是大牛,你可以直接GOOGLE他們的主頁,看他們在這塊發了什麼文章。

yu bin, zhu ji, zhang tong, hui zou, yuan ming, Nicolai Meinshausen, Peter Bühlmann, Martin J. Wainwright, jianqing fan, Liza Levina, Peter Bickel,Tibshirani(Lasso的提出者)

2、統計和算法不是一回事的。舉個例子吧,下面這篇文章就是統計的人發的,其中討論到如何在GLM上運用SCAD -- LASSO衍生出來的一種懲罰函數項 -- 他們就做的很理論,他們很關心這個“算法”的理論性質,比如估計量是否趨近正太,如果是,lambda該以何種rate收斂。他們也討論算法,但是他們對算法的要求很簡單,能算出來就行。http://www.stat.umn.edu/~hzou/Papers/onestep.pdf

3、而如下這篇,討論的基本屬於同一個問題,如果將LASSO運用在GLM中的logistic迴歸上。但是,他們關心的是,如何算得又快又好。你看,這個時候,統計學界所陌生的nestiov都出來了。這個算法非常快,1000多個變量,也就幾十秒的事情。
http://www.public.asu.edu/~jye02/Publications/Papers/fp817-Liu-KDD09.pdf

4、variable selection 是一個熱點專題啊,特別是在high dimensional data analysis,
有很多新的方法( lasso, group lasso, elastic net, SCAD...)

5、R的包lars 提供了LASSO

6、請教 lasso regression 和bridge logistic regression
你可以去看一下網址“http://www-stat.stanford.edu/~tibs/lasso.html”上下載文章“Penalized regressions: the bridge vs the lasso”看一下就知道了,如果想了瞭解這方面更詳細的信息,可加qq:381823441,他的碩士論文做的就是這方面的內容。

7、LASSO有很多令人期待的問題沒有解決,所以還是有很多坑可以去填的。要想好好學習這塊的話,先讀那幾篇state-of-the-art的文章,如下:

最基本那篇
http://www-stat.stanford.edu/~tibs/lasso.html

yuan ming 然後提出的 group lasso
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.79.2062

zou hui的elastic net,可以同時自動選取相關程度比較大的變量(LASSO不能)
http://www-stat.stanford.edu/~hastie/TALKS/enet_talk.pdf

zou hui 提出的adative lasso,試圖避免lasso對參數的shrunkage
http://www.stat.umn.edu/~hzou/Papers/adaLasso.pdf

jianqing fan 2001 年提出的另外一種 nonconvex的懲罰項 -- SCAD
http://www.orfe.princeton.edu/~jqfan/papers/01/penlike.pdf

其學生08年時接着解決了SCAD的算法問題 -- 實際上就是一種adaptive lasso
http://www.stat.umn.edu/~hzou/Papers/onestep.pdf

這方面文獻太多了,我給的這幾篇是影響比較大的,你可以看看08年這篇的reference,在裏面可以找到一些有意思的線索。另外,LASSO還被廣泛應用在graphical model上,有興趣可以看看這篇

http://www.stats.ox.ac.uk/~meinshau/consistent.pdf
http://arxiv.org/abs/0811.4463
http://www-stat.stanford.edu/~tibs/ftp/graph.pdf

這三篇是目前文獻裏公認的里程碑式的文章--關於gaussian graphical model的。


 

研究內容:< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" />

Lasso應用於迴歸,可以在參數估計的同時實現變量的選擇,較好的解決迴歸分析中的多重共線性問題,並且能夠很好的解釋結果。本項目注重對實際案例中的共線性問題利用Lasso的方法剔除變量,改進模型,並將其結果與以往變量選擇的方法比較,提出Lasso方法的優勢。

Lasso應用於時間序列。將Lasso思想應用於AR(p)ARMA(p)等模型,利用Lasso方法對AR(p)ARMA(p)等模型中的變量選擇,並給出具體的算法,隨後進行模擬計算,闡明AR(p)ARMA(p)等模型的Lasso方法定階的可行性。

嘗試將Lasso方法應用到高維圖形的判別與選擇以及應用於線性模型的變量選擇中,以提高模型選擇的準確性。

研究意義

隨着科技的進步,收集數據的技術也有了很大的發展。因此如何有效地從數據中挖掘出有用的信息也越來越受到人們的關注。統計建模無疑是目前處理這一問題的最有效的手段之一。在模型建立之初,爲了儘量減小因缺少重要自變量而出現的模型偏差,人們通常會選擇儘可能多的自變量。但實際建模過程中通常需要尋找對響應變量最具有解釋性的自變量子集—即模型選擇(或稱變量選擇、特徵選擇),以提高模型的解釋性和預測精度。所以模型選擇在統計建模過程中是極其重要的問題。

Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996))方法是一種壓縮估計。它通過構造一個罰函數得到一個較爲精煉的模型,使得它壓縮一些係數,同時設定一些係數爲零。因此保留了子集收縮的優點,是一種處理具有復共線性數據的有偏估計。
  Lasso 的基本思想是在迴歸係數的絕對值之和小於一個常數的約束條件下,使殘差平方和最小化,從而能夠產生某些嚴格等於的迴歸係數,得到可以解釋的模型。RLars 算法的軟件包提供了Lasso編程,我們根據模型改進的需要,可以給出Lasso算法,並利用AIC準則和BIC準則給統計模型的變量做一個截斷,進而達到降維的目的。因此,我們通過研究Lasso可以將其更好的應用到變量選擇中去。

研究意義:

一般地說,多元數據分析處理的對象是刻畫所研究問題的多個統計指標在多次觀察中呈現的數據,樣本數據具有離散且有限的特徵。但是,現代的數據收集技術所收集的信息,不但包括傳統統計方法所處理的數據,還包括具有函數形式的過程所產生的數據。在處理數據的時候我們就會遇到模型建立的問題,這時候我們就把一些多元數據分析模型應用到函數型數據中(比如線性模型),那麼在線性模型中變量的選擇問題就很重要了。

在分析這種模型的時候,人們根據問題本身的的專業理論及有關經驗,常常把各種與因變量有關的自變量引進模型,其結果是把一些對因變量影響很小的,有些甚至沒有影響的自變量也選入模型中。這樣一來,不但計算量大,而且估計和預測的精度也會下降。此外,在一些情況下,某些自變量的觀測數據獲得代價昂貴,如果這些自變量本身對因變量的影響很小或根本沒有影響,但我們不加選擇都引到模型中,勢必造成觀測數據收集和模型應用費用不必要的加大。

因此,本項目基於數據的普遍特徵,在對數據分析時,必須對進入模型的自變量作精心的選擇。而Lasso以縮小變量集(降階)爲思想,是一種收縮估計方法Lasso方法可以將變量的係數進行壓縮並使某些迴歸係數變爲0,進而達到變量選擇的目的,可以廣泛的應用於模型改進與選擇。我們通過選擇懲罰函數,借用Lasso思想和方法實現變量選擇的目的。

國內外研究現狀分析:

Tibshirani,R.(1996)Frank(1993)提出的“Bridge Regression”和Bireman(1995)提出的“Nonnegative Garrote”的啓發下提出了一種稱之爲Lasso (Least absolute shrinkage and seleetion operator)的新的變量選擇方法並將其成功應用於COX模型的變量選擇。該方法克服了傳統方法在選擇模型上的不足,因此該方法在統計領域受到了極大的重視。但是該方法缺乏有效的算法支撐。因此很多學者在這方面展開了研究。

Fu(1998)提出了“Shooting”算法,接着Osbome,M.R.等發現Lasso迴歸的解的路徑是逐片線性的並提出相應的同倫算法;Bradley Efron(2004)提出的最小角迴歸(Least Angle Regression)算法很好地解決Lasso的計算問題;FanLi(2001)指出Lasso估計對於絕對值較大的係數的壓縮過大,可能會造成不必要的模型偏差,並且推測Lasso估計不具有“哲人”性質(oracle properties),還給出了一種被簡稱爲SCAD新的懲罰函數,並沿用GCv方法來選擇懲罰參數(或者叫“Tunning parameters)

Lasso這種方法使一些迴歸係數變小,有些甚至被壓縮爲0,但忽略了相鄰兩個迴歸係數間的差異,使估計值波動性很大。在2005年,TibshiralliSawnders又將此方法改進,又加入了約束條件,控制了迴歸係數的波動性。

模型選擇本質上是尋求模型稀疏表達的過程,而這種過程可以通過優化一個“損失”十“懲罰”的函數問題來完成。

主要參考文獻:

[1] Jun Liu. Large-Scale Sparse Logistic Regression[J]KDD’09

[2] Hui Zou and Runze Li. One-step sparse estimates in nonconxave penalized[J]The Annals of Statistics,2008,11

[3] Tibshirani,R.Regression Shrinkage and Selection Via the Lasso[J]Journal of the Royal Statical Society.Series B.58,267-288

[4] Wang Zhanfeng. A LASSO-Type Approach to Variable Selection and Estimation for Censored Regression Model[J]2010,02

[5] 邱南南.基於Lasso 改進的一般因果關係檢驗[J].統計與信息論壇,2008,02

[6] 趙婷婷.AR(p)模型的Lasso方法定階[D].東北師範大學碩士論文,2008,05

[7] 宋國棟.線性不等式約束下的變量選擇[D].東北師範大學碩士論文,2007,05

[8] 孫麗麗.工具變量回歸模型中的變量選擇[D].東北師範大學碩士論文,2008,05

[9] 劉小明.數據降維及分類中的流行學習研究[J].浙江大學博士學位論文,2007,4

[10] 楊威.函數型迴歸模型的成分選取[D].東北師範大學碩士論文,2009,05

技術路線:

根據已發表論文中遇到的違反估計的情況進行總結研究,提出補救方案,進而根據不同參數估計方法的優劣,針對實際問題給出相應的參數估計方法或是方法的組合。

    實驗方案及可行性分析

第一年主要從事理論研究,通過閱讀相關的書籍和學術論文,對Lasso的最新成果刻苦鑽研,找出着手點,並嘗試算法的改進,對不同的模型嘗試借用Lasso實現變量的篩選。

  後半年主要從事Lasso在變量選擇中的應用。

作者從研一開始就閱讀Lasso的相關論文,通過閱讀與Lasso相關的近期論文,有了一定的想法和思考,並嘗試着懲罰項的添加和模擬。

2.本項目的創新之處及預期成果

創新之處:

試圖將Lasso應用於現在未涉及的模型,通過添加懲罰項,利用AIC準則和BIC準則給統計模型的變量做一個截斷,進而達到降維的目的。並將結合實例分析與其他模型中變量選擇的方法進行比較,突出Lasso方法在多元統計分析問題中的優點。

預期成果:

1)給出Lasso思想應用在部分模型的優劣,並在借用懲罰函數達到剔除部分變量的基礎上,降低研究成本和提高模型成果的解釋力度。並與傳統的變量選擇方法比較,突出Lasso在實際分析應用中的優勢。

2)針對實際問題和數據特徵,給出相應的Lasso模型變量的選擇,並與其他變量方法選擇進行比較優勢。

3預期成果:在覈心期刊發表論文1-2篇。

3.與本項目有關的研究工作積累和已取得的研究成果

工作積累:

(1)通過學習多元統計分析,對變量的選擇和相關的理論知識有了深入的研究。

(2)通過閱讀與Lasso相關的論文,有了一定的想法和思考,並開始理論改進和案例分析。

 

發佈了16 篇原創文章 · 獲贊 10 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章