EntityLinkingメモ

はじめに

WSDM2014(WWW2013,YSS2013,SIGIR2013)のチュートリアルで「EntityLinking」といタスクが紹介されていたので、ちょっと調べてメモしておく。
次元圧縮!

Entity Linkingとは

  • テキストに出てくるエンティティ(実体)を識別・決定するタスク
    • 固有名詞抽出は「固有名詞を識別して取り出す」タスクなので、異なる
  • 雑にいうと、KnowledgeBaseと呼ばれる(識別された)エンティティ集合からテキストにでてくるエンティティを決定すること
    • KBにない新しい固有名詞を発見することも含まれたりする(「NIL」として取り扱う)
実際の例
できること
  • セマンティック検索
  • 高度なUI/UX
  • 自動的にKnowledgeBaseとつなげることでドキュメントがよりリッチな情報を持つ
  • インラインアノテーション
  • オントロジー学習
  • 機械学習の素性としての利用
  • 次元削減
  • など
主な問題
  • Name Variation
  • Entity Ambiguity
    • 1つの表記が複数のエンティティの曖昧性を持ってしまっている、複数のKBに対応するものが存在する、など
    • 「木」という表記が「植物の木」「データ構造の木」などのどれに対応するのか
    • →Ranking and Features for Entity Disambiguation
  • Absence
    • 表記に紐づけるべきエンティティがKBにない(NIL,無)
    • →Learning NILs
用語
  • Named Entity Linking(NEL)
    • 固有名詞のEntityLinking。Wikiepdiaの場合、必ずしも固有名詞ではないので注意が必要。
  • Wikify, ウィキ化
    • 既存の記事をWikipediaの一般的なスタイル(リンク入れたりなど)に整える作業
  • Knowledge Base(KB)
    • 知識ベース。エンティティ(実体)を持つ集合・データベースのこと。Wikipedia・DBpediaやFreebaseがよく使われたりする。
    • Wikipediaの場合は、各ページがエンティティに相当する(曖昧性解消ページやカテゴリページなどもあるので注意)

現状の典型的な手法

  • 1. リンクできるフレーズを選ぶ
    • MD, Mention Detection
  • 2. フレーズに紐づけられる、候補となるエンティティをKBからランキング/選択
    • LG, Link Generation
    • (ターゲットとなるエンティティがKB内にないかもしれないことも考慮)
  • 3. コンテキスト情報を使って曖昧性解消/フィルタリング/改善
    • DA, Disambiguation

関連してそうな論文/資料

とりあえず、読んでおきたいものを列挙。後で読む。
(リンク先が信頼できるネットワークかどうかは未確認なので注意)