言語モデルの評価尺度

エントロピー、パープレキシティ

言語Lにおいて、単語列w_1^n=w_1w_2...w_nの生起確率がP(w_1^n)のとき、1単語あたりのエントロピーは、
H(L)=-\sum_{w_1^n}{\frac{1}{n}P(w_1^n)logP(w_1^n)}
になる。
ある単語について、平均して2^{H(L)}個の単語が次につながりうることを表す。
このPP=2^{H(L)}はパープレキシティと呼ばれる。

なので、パープレキシティを見ればその言語の複雑さがわかる、と。

テストセット・パープレキシティ

実際の言語モデルの評価には、評価データに対するパープレキシティを求めるらしい(テストセット・パープレキシティ)。
評価データの文書集合w_1^nに対する1単語あたりのエントロピーから求められる(上の式)。


実用上、パープレキシティが言語の複雑さを表すならば、できるだけ小さいほうがいいように思うけど。。どの程度の複雑さでいいかはやっぱり時と場合に依るんだろう。

参考文献