語義曖昧性解消メモ

はじめに

意味を捉えた解析を行うためには、曖昧性のある語の意味を明確にする必要がある。
語義曖昧性解消周りをちょっと調べたので、メモ。

語義曖昧性解消(Word Sense Disambiguation)とは

複数の意味を持つ語(例えば、plantは「植物」「工場」など)が存在する。
語義曖昧性解消は、その語の周辺情報(コンテキストなど)から正しい意味を見つけるタスク。

アプローチ

知識ベース(Knowledge-Based)
  • Leskアルゴリズム
    • 初期の有名なアルゴリズム
    • 注目している単語の語義の説明や例の中で、一番コンテキスト(周囲の単語やその語義セット)と重複する単語が多い語義を選ぶ
    • 同じ文中の単語は共通のトピックを共有する傾向があることを利用
教師あり(Supervised)
  • 正解ラベル付きデータが使える場合
  • 分類問題などと考えて、機械学習の手法などを適用
    • コンテキスト情報が語の曖昧性をなくすに十分だという仮定
    • 素性としては、連語情報(前後の単語)、品詞や文の主題、語の構成、拡張情報、など
    • SVMがよく成功している
  • ただし、かなりの量のデータを準備する必要があり、高コスト
教師なし/半教師あり(Unsupervised/Semi-Supervised)
  • 正解ラベルがついていないデータや統計情報などしか使えない場合
  • 「類似した語義は類似したコンテキストで生じる」という仮定を元に、クラスタリングや分類をする
その他
  • 優性な語義の識別
  • ドメインドリブンな曖昧性解消
  • 複数言語間の情報を使った語義曖昧性解消
  • デフォルトロジックの意味論に基づく語義曖昧性解消
  • など

難しいところ

wikipediaのを簡単に訳。

辞書間の定義の違い
  • 明確な区別ができる語義であればよいが、関連のある語義から選ばなければいけない場合がありうる
  • どのレベルで語義を分けるかは辞書に依存してしまう
    • 特定の辞書しか使わず、その定義に従う、などで対応
品詞タグ付け
  • 大体、品詞情報と語義には密接な関係が存在する
  • なので、品詞タグ付けタスクと語義曖昧性解消タスクを同時に行うべきか、分けるべきか議論がある
  • また、上記の2つのタスクを比較したりなども行われている
判定基準の相違
  • 正解データを作るために、人手でやるとなると、各語義の種類を正確に覚え、タグ付するのはかなり困難
  • さらに、人によってどの語義を選ぶかはそろうとは限らない
常識の利用
  • 常識となっている情報を使って曖昧性解消する場合がある
    • その情報が無いと、その文単独ではどうやっても解決できない
どのような意味目録やアルゴリズムが必要かはタスク依存
  • 意味目録:語の意味を列挙したもの
  • タスクによって必要な意味目録やアルゴリズムが異なる
  • タスクに依存しない首尾一貫した意味目録は作ることができないんだとか
語義の離散性
  • そもそも「語義」とは何か?、概念自体が論争になる
  • 同形異義語レベルでの相違の認識は合うが、きめ細かい多義性を扱って、その認識をそろえるのは難しい
  • 最近だと、目録を作ってそれを選ぶのが難しいので、「Lexical Substitution」という語の置き換えが可能かどうかのタスクなどが提案されている

関連タスク

いくつか関連しているタスクをメモ。

句構造解析
  • 句構造規則(名詞句=名詞+助詞、動詞句=名詞句+動詞、文=名詞句+動詞句、など)を用いて、どのような(木)構造になるかを解析
述語項構造解析
  • 「述語」と「その述語と関係のある項」がどのような関係になっているかを解析
    • 述語:動作や状態を表す(事態を表す)要素。(動詞や動詞性名詞、など)
    • 項:事態に関係する人やモノなどを表す要素。(名詞+格助詞、など)
照応・共参照解析
  • 照応とは、ある表現の同一文内の他の表現を指すこと
    • 指す側:照応詞
    • 指される側:先行詞
  • 共参照(同一指示)とは、2つ以上の表現が、同一の実体を指していること
    • 照応関係となっても、共参照関係にならない場合が存在する
  • 照応・共参照解析は、この2つ関係を解析