Negative/Positive Thinking

言語モデルの評価尺度

自然言語処理

エントロピー、パープレキシティ

言語Lにおいて、単語列 $w_1^n=w_1w_2...w_n$ の生起確率が $P(w_1^n)$ のとき、1単語あたりのエントロピーは、
$H(L)=-\sum_{w_1^n}{\frac{1}{n}P(w_1^n)logP(w_1^n)}$
になる。
ある単語について、平均して $2^{H(L)}$ 個の単語が次につながりうることを表す。
この $PP=2^{H(L)}$ はパープレキシティと呼ばれる。

なので、パープレキシティを見ればその言語の複雑さがわかる、と。

テストセット・パープレキシティ

実際の言語モデルの評価には、評価データに対するパープレキシティを求めるらしい(テストセット・パープレキシティ)。
評価データの文書集合 $w_1^n$ に対する1単語あたりのエントロピーから求められる(上の式)。

実用上、パープレキシティが言語の複雑さを表すならば、できるだけ小さいほうがいいように思うけど。。どの程度の複雑さでいいかはやっぱり時と場合に依るんだろう。

参考文献

言語と計算4 確率的言語モデル