マルチラベル分類メモ
はじめに
G. Tsoumakas, I. Katakis, I. Vlahavas., Mining Multi-label Data
http://lpis.csd.auth.gr/paper_details.asp?publicationID=290
マルチラベル分類問題について、メモ。
マルチラベル分類問題
シングルラベル問題へ変換(Problem Transformation)
- single label classifierを使う
- 学習データはどのようにシングルラベル用に変換すればよいか?
copy transformation
- マルチラベルの事例を、ついているラベル数個の事例にコピーする
- いくつかのバリエーションがある
- copy
- 事例についている複数ラベルのそれぞれをシングルラベルとする事例を用意する
- dubbed copy-weight
- copyし、その時の事例の重みを1/事例数にする
- select family
- 事例についている複数ラベルから1つ選んでそれだけにする(他を無視する)
- select-max, select-min, select-random
- ignore
- 複数ラベルの事例は無視してしまう
- copy
label powerset
- 冪集合をラベルとして扱う
- 例:1,2,3のラベルがある場合は、1,2,3,1&2,1&3,2&3,1&2&3をラベルとして扱う
pruned problem transformation
- label powersetで、出現数(2とか3とかユーザー定義)が少ないラベルを無視する
RAndom k-labELsets method(RAkEL)
- http://lpis.csd.auth.gr/publications/tsoumakas-tkde10.pdf
- k-labelsetとは、ラベル集合Lの部分集合R(k=|R|)のこと
- いろんな組み合わせの部分集合について、label powersetして、アンサンブル学習
binary relevance
- よく使われる方法
- 各ラベルについて、関連するかしないかのbinary分類器を作成し、各分類器の結果の和集合を出力する
ranking by pairwise comparison(RPC)
- ラベル集合から、その事例についてどちらか片方だけラベルが正解になるような2ラベルを取りだす
- その2ラベルを区別する2値分類を学習し、予測では各ラベルについて投票してランキングする
calibrated label ranking(CLR)
- RPCに仮想ラベルを導入し、binary relevance
マルチラベルに対応したアルゴリズムの適用(Algorithm Adaptation)
Decision Tree, Boosting
- C4.5 algorithm
- AdaBoost.MH, AdaBoost.MR
Probabilistic Methods
- probabilistic generative model for mutil-label document
- conditional random fields
Neural Networks, SVM
- BP-MLL
- ML-RBF
- multi-class multi-label perceptron (MMP)
- SVM algorithm (minimize the ranking loss)
Lazy, Associative Methods
- k-NNのlazy拡張
- MMAC
- 手法をcombineしたもの