単語の数学的表現メモ - Negative/Positive Thinking

単語をベクトルや確率分布などの数学的表現で扱いたい場合があったりする。
しかし、「どのようなベクトル・確率分布にすべきか？」などはタスクに依存したりして、自明じゃない。
たくさんあって、派生や新しいものもどんどんでていると思うので、どんなものがあるか調べたかぎりメモ。

各次元が「その単語か否か」を表すベクトルで表現
- 次元の大きさ＝ボキャブラリ数
- 例: スカイツリー = (「船」か否か, 「スカイツリー」か否か, ... ) = (0,1,0,...)
素性のどれか1つしか1にならなくてスパースネスの問題がでる
未知語はゼロベクトルになってしまう

単語の表層から得られる情報を利用
- 単語に出現している文字nグラムを利用
- カタカナ語とか有効そう
- 例: スカイツリー = (「スカ」の出現回数, 「カイ」の出現回数, 「イツ」の出現回数, 「アア」の出現回数, ...) = (1,1,1,0,...)

対象単語の前後/周辺にでてくる単語を利用
- 例: スカイツリー = (1つ左に「東京」がくる頻度, 1つ右に「クッキー」がくる頻度, ...)
- 「よく似た共起語分布を持つ単語は、よく似た意味を持つ」という考え
素性(各次元)は、だいたい人手でデザインされる
素性
- 文脈窓(context window,考慮している範囲)をどのようなものにするか
- 文脈幅(context window size,考慮している範囲の大きさ)をどの程度にするか
- 前後の区別
- 対象単語との相対位置の区別
- 複数回でてくる単語を区別するか(type,token)
- 先頭末尾にダミー文字を考慮するか否か
素性値
- 出現回数
- 出現するか否か
- TFIDF
構文情報などを利用
- 構文解析
- 係り受け解析

単語wの周辺に出現する単語集合Vの確率P(V|w)などによって単語wを表現
NLP2014ではガウス分布による表現も提案されてた
- http://www.anlp.jp/proceedings/annual_meeting/2014/pdf_dir/A7-2.pdf

単語を階層的クラスタリング(ハードクラスタリング)すると、各階層で単語の集合(クラス)ができる
- クラスn-gramモデル, Class-based n-gram Model
各単語は、そのクラス情報を使って表現
Brown Clustring Model
- p(w_1, w_2, ..., w_T) = Πe(w_i|C(w_i))*q(C(w_i)|C(w_{i-1}))
  - C(w) : 単語wのクラス番号を返す関数
  - e(w|c) : クラス番号がcの時の単語wの出現しやすさ
  - q(c'|c) : クラス番号cからクラス番号c'への連続のしやすさ
- Cがどの程度イケてるかをQuality(C)で測る
  - Quality(C) = Σ_c Σ_c' p(c,c') log p(c,c')/(p(c)*p(c')) + Const.
  - p(c,c') : C(w)において、cにつづいてc'が現れる回数の全体での割合
  - p(c) : C(w)において、cが出現する回数の全体での割合
- アルゴリズム
  - 最初に各単語は別々のクラスタにしておいて、クラスタ数があらかじめ定めたk個になるまでQuality(C)が最大と成る2つのクラスタをマージするのを繰り返す
  - 最初に頻度の多いm単語に別々のクラスタにしておいて、m+1単語目以降は1単語ずつQuality(C)が最大となる2つのクラスタをマージするのを繰り返す

単語を表現するベクトルの素性や素性値を機械学習によって学習
- おおよその場合、低次元で密な実数ベクトルを得る事を目指す
- 潜在的な特徴(意味的な、統語的な)を学習できる可能性がある(似た単語が似たベクトルを持つ)
Word Embeddingsとも呼ばれる

言語モデルの枠組みで、各単語をNeuralNetwork内の隠れ層や写像行列を通して変換させるようにして、学習させる
- 学習された隠れ層や写像行列が各単語の分散表現として使える
- FeedForward NN, Recurrent NN
  - Recurrentの方は、繰り返し、前の状態を入力するので、単語の周辺情報を広く考慮させる事ができている
- Hierarchical log-bilinear(HLBL) model