マルチラベル分類メモ

はじめに

G. Tsoumakas, I. Katakis, I. Vlahavas., Mining Multi-label Data
http://lpis.csd.auth.gr/paper_details.asp?publicationID=290
マルチラベル分類問題について、メモ。

マルチラベル分類問題

  • 1つの事例が、複数のラベル(ラベルの集合)に同時に分類されうる分類問題
    • 例:「ダビンチコード」の記事のカテゴリ→宗教、映画
  • マルチラベル教師あり学習では、主に以下のタスクがある
    • マルチラベルクラス分類(multi label classification)
    • ラベルランキング(label ranking)
  • また、マルチラベル学習の方法は、主に2つのグループに分けられる
    • Problem Transformation
    • Algorithm Adaptation

シングルラベル問題へ変換(Problem Transformation)

  • single label classifierを使う
  • 学習データはどのようにシングルラベル用に変換すればよいか?
copy transformation
  • マルチラベルの事例を、ついているラベル数個の事例にコピーする
  • いくつかのバリエーションがある
    • copy
      • 事例についている複数ラベルのそれぞれをシングルラベルとする事例を用意する
    • dubbed copy-weight
      • copyし、その時の事例の重みを1/事例数にする
    • select family
      • 事例についている複数ラベルから1つ選んでそれだけにする(他を無視する)
      • select-max, select-min, select-random
    • ignore
      • 複数ラベルの事例は無視してしまう
label powerset
  • 冪集合をラベルとして扱う
    • 例:1,2,3のラベルがある場合は、1,2,3,1&2,1&3,2&3,1&2&3をラベルとして扱う
pruned problem transformation
  • label powersetで、出現数(2とか3とかユーザー定義)が少ないラベルを無視する
RAndom k-labELsets method(RAkEL)
binary relevance
  • よく使われる方法
  • 各ラベルについて、関連するかしないかのbinary分類器を作成し、各分類器の結果の和集合を出力する
ranking by pairwise comparison(RPC)
  • ラベル集合から、その事例についてどちらか片方だけラベルが正解になるような2ラベルを取りだす
  • その2ラベルを区別する2値分類を学習し、予測では各ラベルについて投票してランキングする
calibrated label ranking(CLR)
  • RPCに仮想ラベルを導入し、binary relevance

マルチラベルに対応したアルゴリズムの適用(Algorithm Adaptation)

Decision Tree, Boosting
  • C4.5 algorithm
  • AdaBoost.MH, AdaBoost.MR
Probabilistic Methods
  • probabilistic generative model for mutil-label document
  • conditional random fields
Neural Networks, SVM
  • BP-MLL
  • ML-RBF
  • multi-class multi-label perceptron (MMP)
  • SVM algorithm (minimize the ranking loss)
Lazy, Associative Methods
  • k-NNのlazy拡張
  • MMAC
  • 手法をcombineしたもの