分箱問題

問題

假設12個銷售價格記錄組已經排序如下:5, 10, 11, 13, 15,35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻(等深)劃分時,15在第幾個箱子內?等寬劃分時在第幾個箱?

分箱問題分爲有監督分箱和無監督分箱。

無監督分箱

  1. 等寬分箱
         將變量的取值範圍分爲k個等寬的區間,每個區間當作一個分箱。
         在本問題中變量的取值範圍爲5–215,k爲4.(215-5)/4=52.5劃分點爲57.5,110,162.5,4個箱中數據爲
         A箱:5, 10, 11, 13, 15,35, 50, 55
         B箱:72, 92
         C箱:空
         D箱:204, 215
  2. 等頻(等深)分箱
         把觀測值按照從小到大的順序排列,根據觀測的個數等分爲k部分,每部分當作一個分箱,例如,數值最小的1/k比例的觀測形成第一個分箱,等等。
         在本問題中觀測個數爲12.k=4.每箱裏有3個數據。
         A箱:5, 10, 11,
    B箱:13, 15,35
    C箱: 50, 55,72
    D箱:92
    ,204, 215 
  3. k聚類分箱
         用k均值聚類法將觀測值聚爲k類,但在聚類過程中需要保證分箱的有序性:第一個分箱中所有觀測值都要小於第二個分箱中的觀測值,第二個分箱中所有觀測值都要小於第三個分箱中的觀測值。手算太費時間,筆試中應該不會出現。

有監督分箱

在分箱時考慮因變量的取值,使得分箱後達到最小(minimumentropy)或最小描述長度(minimumdescriptionlength)。

(1)假設因變量爲分類變量,可取值1,…,J。令pl(j)表示第l個分箱內因變量取值爲j的觀測的比例,l=1,…,k,j=1,…,J;那麼第l個分箱的熵值爲Jj=1[-pl(j)×log(pl(j))]。如果第l個分箱內因變量各類別的比例相等,即pl(1)=…=pl(J)=1/J,那麼第l個分箱的熵值達到最大值;如果第l個分箱內因變量只有一種取值,即某個pl(j)等於1而其他類別的比例等於0,那麼第l個分箱的熵值達到最小值。

(2)令rl表示第l個分箱的觀測數佔所有觀測數的比例;那麼總熵值爲kl= 1rl×Jj=1[-pl(j)×log(pl(j ))]。需要使總熵值達到最小,也就是使分箱能夠最大限度地區分因變量的各類別。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章