本文圖片摘自https://www.zhihu.com/question/35486862中景略集智的回答。
分類策略:基於標籤的order of correlations
- first-order strategy:逐一考察單個標記而忽略標記之間的相關性,如將多標記學習問題分解爲個獨立的二類分類問題,從而構造多標記學習系統。該類方法效率較高且實現簡單,但由於其完全忽略標記之間可能存在的相關性,其系統的泛化性能往往較低。
- second-order strategy:考察兩兩標記之間的相關性,如相關標記與無關標記之間的排序關係,兩兩標記之間的交互關係等等,從而構造多標記學習系統。該類方法由於在一定程度上考察了標記之間的相關性,因此其系統泛化性能較優。
- high-order strategy:考察高階的標記相關性,如處理任一標記對其它所有標記的影響,處理一組隨機標記集合的相關性等等,從而構造多標記學習系統。該類方法雖然可以較好地反映真實世界問題的標記相關性,但其模型複雜度往往過高,難以處理大規模學習問題。
摘自:https://www.zhihu.com/question/35486862中國雙商業市場的回答
評估指標:
- Example-based: Evaluating the learning system’s performance on each test example separately, and then returning the mean value across the test set.
- Label-based: Evaluating the learning system’s performance on each class label separately, and then returning the macro/micro-averaged value across all class labels.
學習算法:
1. 問題轉換(將多標籤問題轉換爲單標籤問題)
1.1. 二元關聯(Binary Relevance)
將每個標籤看作一個單獨的類分類問題
缺點:它沒有考慮標籤之間的關聯,因爲它是單獨處理每個目標變量。
1.2. 分類器鏈(Classifier Chains)
第一個分類器只用輸入數據訓練,然後在輸入空間以及鏈條上前面所有分類器上訓練接下來的每個分類器。
缺點:按順序組成鏈條以保存標籤之間的關聯,因此標籤的關聯和順序十分重要。
1.3. LP法(Label Powerset)
將問題轉換爲一個多類問題,用在訓練數據中發現的所有唯一標籤的組合訓練一個多類分類器。
→
2. 自適應算法(改編算法,直接執行多標籤分類任務)
BRkNNaClassifier,BRkNNbClassifier,MLkNN,
MLARAM,
MLTSVM
隨機森林和嶺迴歸,scikit-learn提供
3. 集成方法
RakelD,RakelO,LabelSpacePartitioningClassifier,
MajorityVotingClassifier