語義曖昧性解消メモ
はじめに
意味を捉えた解析を行うためには、曖昧性のある語の意味を明確にする必要がある。
語義曖昧性解消周りをちょっと調べたので、メモ。
語義曖昧性解消(Word Sense Disambiguation)とは
複数の意味を持つ語(例えば、plantは「植物」「工場」など)が存在する。
語義曖昧性解消は、その語の周辺情報(コンテキストなど)から正しい意味を見つけるタスク。
アプローチ
知識ベース(Knowledge-Based)
- 語に関する情報・リソースを使うアプローチ
- リソース
教師あり(Supervised)
- 正解ラベル付きデータが使える場合
教師なし/半教師あり(Unsupervised/Semi-Supervised)
- 正解ラベルがついていないデータや統計情報などしか使えない場合
- 「類似した語義は類似したコンテキストで生じる」という仮定を元に、クラスタリングや分類をする
- Yarowskyアルゴリズム
- Semi-Supervised Method (
BootstrapingSelf-training) - http://www.cs.cmu.edu/afs/cs.cmu.edu/project/theo-21/www/papers/YarowskiAlg-Abney2004.pdf
- たくさんあるみたいだけど、ここでは1995の論文のやつ
- http://www.coli.uni-saarland.de/courses/comsem-11/material/matej_korvas_yarowsky.pdf
- 「連語や会話中の単語の語義は一定」という性質(仮定?)を利用
- まず、タグのついていない大きめのコーパスを用意する
- 少量のコーパスに正解タグをつけ、連語情報から教師ありクラス分類手法(ここでは、Decision-list(決定リスト)アルゴリズム)で分類する
- 分類したものから信頼性の高い物を正解データとして採用する
- また任意で、会話中の多義語の中で、語義が決まったものがあれば、それを使った調整をしてもよい
- 上記を繰り返し、収束したら終了
- Semi-Supervised Method (
その他
- 優性な語義の識別
- ドメインドリブンな曖昧性解消
- 複数言語間の情報を使った語義曖昧性解消
- デフォルトロジックの意味論に基づく語義曖昧性解消
- など
難しいところ
wikipediaのを簡単に訳。
辞書間の定義の違い
- 明確な区別ができる語義であればよいが、関連のある語義から選ばなければいけない場合がありうる
- どのレベルで語義を分けるかは辞書に依存してしまう
- 特定の辞書しか使わず、その定義に従う、などで対応
品詞タグ付け
- 大体、品詞情報と語義には密接な関係が存在する
- なので、品詞タグ付けタスクと語義曖昧性解消タスクを同時に行うべきか、分けるべきか議論がある
- また、上記の2つのタスクを比較したりなども行われている
判定基準の相違
- 正解データを作るために、人手でやるとなると、各語義の種類を正確に覚え、タグ付するのはかなり困難
- さらに、人によってどの語義を選ぶかはそろうとは限らない
常識の利用
- 常識となっている情報を使って曖昧性解消する場合がある
- その情報が無いと、その文単独ではどうやっても解決できない
どのような意味目録やアルゴリズムが必要かはタスク依存
語義の離散性
- そもそも「語義」とは何か?、概念自体が論争になる
- 同形異義語レベルでの相違の認識は合うが、きめ細かい多義性を扱って、その認識をそろえるのは難しい
- 最近だと、目録を作ってそれを選ぶのが難しいので、「Lexical Substitution」という語の置き換えが可能かどうかのタスクなどが提案されている
関連タスク
いくつか関連しているタスクをメモ。
述語項構造解析
- 「述語」と「その述語と関係のある項」がどのような関係になっているかを解析
- 述語:動作や状態を表す(事態を表す)要素。(動詞や動詞性名詞、など)
- 項:事態に関係する人やモノなどを表す要素。(名詞+格助詞、など)
照応・共参照解析
- 照応とは、ある表現の同一文内の他の表現を指すこと
- 指す側:照応詞
- 指される側:先行詞
- 共参照(同一指示)とは、2つ以上の表現が、同一の実体を指していること
- 照応関係となっても、共参照関係にならない場合が存在する
- 照応・共参照解析は、この2つ関係を解析
参考
- http://en.wikipedia.org/wiki/Word-sense_disambiguation
- http://lct-master.org/files/WSD.pdf
- http://promethee.philo.ulg.ac.be/engdep1/download/bacIII/ACM_Survey_2009_Navigli.pdf
- https://www.cl.cs.titech.ac.jp/~ryu-i/class/nlp4.pdf
- http://ocw.osaka-u.ac.jp/language-and-culture-jp/language-and-information-science-jp/lecturenoteno-10.pdf
- http://ja.wikipedia.org/wiki/%E9%A0%85_(%E8%A8%80%E8%AA%9E%E5%AD%A6)