文本分類之多標籤分類

多標籤分類綜述

意義

  • 網絡新聞往往含有豐富的語義,一篇文章既可以屬於“經濟”也可以屬於“文化”。給網絡新聞打多標籤可以更好地反應文章的真實意義,方便日後的分類和使用。

難點

  • 類標數量不確定,有些樣本可能只有一個類標,有些樣本的類標可能高達幾十甚至上百個。 
  • 類標之間相互依賴,例如包含藍天類標的樣本很大概率上包含白雲,如何解決類標之間的依賴性問題也是一大難點。
  • 多標籤的訓練集比較難以獲取。

如下方法來解決這個問題:

1.在傳統機器學習的模型中對每一類標籤做二分類,可以使用SVM、DT、Naïve Bayes、DT、Xgboost等算法;在深度學習中,對每一類訓練一個文本分類模型(如:textCNN、textRNN等)

以上這種方法不能解決標籤之間有關聯的問題

2.考慮多標籤的相關性時候可以將上一個輸出的標籤當成是下一個標籤分類器的輸入。在傳統機器學習模型中可以使用分類器鏈,在這種情況下,第一個分類器只在輸入數據上進行訓練,然後每個分類器都在輸入空間和鏈上的所有之前的分類器上進行訓練

就是說訓練第二個標籤的分類模型時候,使用第一個分類模型的結果加入到特徵之中

3.重新定義類別,兩個樣本都有同樣的標籤例如(都是類別1和類別3)那麼這兩個樣本就可以歸爲統一一個類別(一個新的類別)。

4.深度學習輸出層對每一個標籤的輸出值使用sigmod函數進行2分類,然後就可以進行多分類學習。

開源fast-bert多標籤文本分類算法

kaggle多標籤分類比賽開源代碼

多標籤形象解釋介紹

講解第四種方法

發佈了358 篇原創文章 · 獲贊 113 · 訪問量 82萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章