語義曖昧性解消メモ

はじめに

意味を捉えた解析を行うためには、曖昧性のある語の意味を明確にする必要がある。
語義曖昧性解消周りをちょっと調べたので、メモ。

語義曖昧性解消(Word Sense Disambiguation)とは

複数の意味を持つ語(例えば、plantは「植物」「工場」など)が存在する。
語義曖昧性解消は、その語の周辺情報(コンテキストなど)から正しい意味を見つけるタスク。

アプローチ

知識ベース(Knowledge-Based)

辞書やシソーラスデータ、WordNetなどが使える場合

語に関する情報・リソースを使うアプローチ
リソース
- 構造化
  - シソーラス
  - 辞書(機械処理しやすい、Machine-readable)
  - オントロジー
- 非構造化
  - コーパス(タグ付き/タグなし)
  - 連語リソース
  - 語の頻度リスト
  - ストップワード
  - ドメインラベル

Leskアルゴリズム
- 初期の有名なアルゴリズム
- 注目している単語の語義の説明や例の中で、一番コンテキスト(周囲の単語やその語義セット)と重複する単語が多い語義を選ぶ
- 同じ文中の単語は共通のトピックを共有する傾向があることを利用

教師あり(Supervised)

正解ラベル付きデータが使える場合

分類問題などと考えて、機械学習の手法などを適用
- コンテキスト情報が語の曖昧性をなくすに十分だという仮定
- 素性としては、連語情報(前後の単語)、品詞や文の主題、語の構成、拡張情報、など
- SVMがよく成功している
ただし、かなりの量のデータを準備する必要があり、高コスト

教師なし/半教師あり(Unsupervised/Semi-Supervised)

正解ラベルがついていないデータや統計情報などしか使えない場合

「類似した語義は類似したコンテキストで生じる」という仮定を元に、クラスタリングや分類をする

Yarowskyアルゴリズム
- Semi-Supervised Method (~~Bootstraping~~Self-training)
- http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-21/www/papers/YarowskiAlg-Abney2004.pdf
  - たくさんあるみたいだけど、ここでは1995の論文のやつ
  - http://www.coli.uni-saarland.de/courses/comsem-11/material/matej_korvas_yarowsky.pdf
  - 「連語や会話中の単語の語義は一定」という性質(仮定？)を利用
- まず、タグのついていない大きめのコーパスを用意する
- 少量のコーパスに正解タグをつけ、連語情報から教師ありクラス分類手法(ここでは、Decision-list(決定リスト)アルゴリズム)で分類する
- 分類したものから信頼性の高い物を正解データとして採用する
- また任意で、会話中の多義語の中で、語義が決まったものがあれば、それを使った調整をしてもよい
- 上記を繰り返し、収束したら終了

その他

優性な語義の識別
ドメインドリブンな曖昧性解消
複数言語間の情報を使った語義曖昧性解消
デフォルトロジックの意味論に基づく語義曖昧性解消
など

難しいところ

wikipediaのを簡単に訳。

辞書間の定義の違い

明確な区別ができる語義であればよいが、関連のある語義から選ばなければいけない場合がありうる
どのレベルで語義を分けるかは辞書に依存してしまう
- 特定の辞書しか使わず、その定義に従う、などで対応

品詞タグ付け

大体、品詞情報と語義には密接な関係が存在する
なので、品詞タグ付けタスクと語義曖昧性解消タスクを同時に行うべきか、分けるべきか議論がある
また、上記の2つのタスクを比較したりなども行われている

判定基準の相違

正解データを作るために、人手でやるとなると、各語義の種類を正確に覚え、タグ付するのはかなり困難
さらに、人によってどの語義を選ぶかはそろうとは限らない

常識の利用

常識となっている情報を使って曖昧性解消する場合がある
- その情報が無いと、その文単独ではどうやっても解決できない

どのような意味目録やアルゴリズムが必要かはタスク依存

意味目録：語の意味を列挙したもの
タスクによって必要な意味目録やアルゴリズムが異なる
- 機械翻訳や情報検索など
タスクに依存しない首尾一貫した意味目録は作ることができないんだとか

語義の離散性

そもそも「語義」とは何か？、概念自体が論争になる
同形異義語レベルでの相違の認識は合うが、きめ細かい多義性を扱って、その認識をそろえるのは難しい
最近だと、目録を作ってそれを選ぶのが難しいので、「Lexical Substitution」という語の置き換えが可能かどうかのタスクなどが提案されている

Negative/Positive Thinking

はじめに

語義曖昧性解消(Word Sense Disambiguation)とは

アプローチ

知識ベース(Knowledge-Based)

教師あり(Supervised)

教師なし/半教師あり(Unsupervised/Semi-Supervised)

その他

難しいところ

辞書間の定義の違い

品詞タグ付け

判定基準の相違

常識の利用

どのような意味目録やアルゴリズムが必要かはタスク依存

語義の離散性

関連タスク

係り受け解析

句構造解析

述語項構造解析

照応・共参照解析

参考