EntityLinkingメモ
はじめに
WSDM2014(WWW2013,YSS2013,SIGIR2013)のチュートリアルで「EntityLinking」といタスクが紹介されていたので、ちょっと調べてメモしておく。
次元圧縮!
Entity Linkingとは
- テキストに出てくるエンティティ(実体)を識別・決定するタスク
- 固有名詞抽出は「固有名詞を識別して取り出す」タスクなので、異なる
- 雑にいうと、KnowledgeBaseと呼ばれる(識別された)エンティティ集合からテキストにでてくるエンティティを決定すること
- KBにない新しい固有名詞を発見することも含まれたりする(「NIL」として取り扱う)
実際の例
- テキスト「東京タワーに行った」
- 固有名詞抽出
- 「東京タワー」を取り出す
- Entity Linking
- 「東京タワー」が以下のreference(ここではWikipediaのページ)と対応することを決定する
- http://ja.wikipedia.org/wiki/%E6%9D%B1%E4%BA%AC%E3%82%BF%E3%83%AF%E3%83%BC
できること
主な問題
- Name Variation
- エンティティがいろんな表記で出てきてしまう
- 「東京ディズニーランド」というエンティティが、「東京ディズニーランド」「ディズニーランド」「TDL」など
- →Robust Candidate Selection
- Entity Ambiguity
- 1つの表記が複数のエンティティの曖昧性を持ってしまっている、複数のKBに対応するものが存在する、など
- 「木」という表記が「植物の木」「データ構造の木」などのどれに対応するのか
- →Ranking and Features for Entity Disambiguation
- Absence
- 表記に紐づけるべきエンティティがKBにない(NIL,無)
- →Learning NILs
現状の典型的な手法
- 1. リンクできるフレーズを選ぶ
- MD, Mention Detection
- 2. フレーズに紐づけられる、候補となるエンティティをKBからランキング/選択
- LG, Link Generation
- (ターゲットとなるエンティティがKB内にないかもしれないことも考慮)
- 3. コンテキスト情報を使って曖昧性解消/フィルタリング/改善
- DA, Disambiguation
関連してそうな論文/資料
とりあえず、読んでおきたいものを列挙。後で読む。
(リンク先が信頼できるネットワークかどうかは未確認なので注意)
- Mihalcea&Csomai, Wikify! Linking Documents to Encyclopdic Knowledge
- logicaldash, Wikify!: Wikipediaを用いた文書への注釈付け
- Medelyan et al., Topic Indexing with Wikipedia
- Milne&Witten, Learning to Link with Wikipedia
- Kulkarni et al., Collective Annotation of Wikipedia Entities in Web Text
- Ratinov et al., Local and Global Algorithms for Disambiguation to Wikipedia
- Ferragina&Scaiella, Fast and accurate annotation of short texts with Wikipedia pages
- Meij et al., Adding Semantics to Microblog Posts
- Odijk et al., Feeding the Second Screen: Semantic Linking based on Subtitles
- Guo et al., A Graph-based Method for Entity Linking
- Hachey et al., Graph-based Named Entity Linking with Wikipedia
- Han et al., Collective Entity Linking in Web Text: A Graph-Based Method
- Pilz et al., From Names to Entities using Thematic Context Distance
- Han&Sun, An Entity-Topic Model for Entity Linking
- Kataria et al., Entity Disambiguation with Hierarchical Topic Models
- Cucerzan, Large-Scale Named Entity Disambiguation Based on Wikipedia Data
- Cornolti et al., A Framework for Benchmarking Entity-Annotation Systems
- Yosef et al., AIDA: An Online Tool for Accurate Disambiguation of Named Entities in Text and Tables
- Lin et al., No Noun Phrase Left Behind: Detecting and Typing Unlinkable Entities
- Sil et al., Linking Named Entities to Any Database
- Eskevich et al., Multimedia Information Seeking through Search and Hyperlinking
- Sauper&Barzilay, Automatically Generating Wikipedia Articles: A Structure-Aware Approach
- Bordino et al., Penguins in Sweaters, or Serendipitous Entity Search on User-generated Content
- Bordino et al., From Machu_Picchu to "rafting the urubamba river": Anticipating information needs via the Entity-Query Graph
- Lin et al., Active Objects: Actions for Entity-Centric Search
- Dai et al., From Entity Recognition to Entity Linking: A Survey of Advanced Entity Linking Techniques
- Huber, Entity Linking - A Survey of Recent Approaches
- Batista, Entity Linking
- slideshare「Entity+Linking」
- Mendeley「Entity+Linking」
- TAC KBP 2013 Entity Linking Track
参考
- http://en.wikipedia.org/wiki/Entity_linking
- http://www.cs.jhu.edu/~delip/entity_linking.pdf
- http://edgar.meij.pro/entity-linking-retrieval-semantic-search-wsdm-2014/
- http://ejmeij.github.io/entity-linking-and-retrieval-tutorial/
- http://edgar.meij.pro/tag/entity-linking/
- http://d.hatena.ne.jp/sleepy_yoshi/20111223/