Mann-WhitneyのU検定メモ
はじめに
ROC曲線のAUCとも関係のあるらしいマン・ホイットニーのU検定についてメモ。
マン・ホイットニーのU検定とは
統計量U
Uの定義はいくつか種類があるよう。
標本数が少ないとき
- 標本数が小さい方の群をA、他方の群をBとすると、Aの標本iについて、Bの中で標本iより小さい値の個数を求める
- すべてのiについて個数の総和をUとする
標本数が少し多めのとき
検定
- Uが「棄却限界値以下の時」に帰無仮説が棄却される
- 棄却限界値の数表
z検定する場合
ROC曲線AUCと統計量U
AUCと統計量Uが関係するとのことで、(Continuous forecast probabilities, no tiesだけ)ちょっと以下の論文を追ってみた。
S.J.Manson and N.E.Graham, Areas beneath the relative operating characteristics (ROC) ans relative operating levels (ROL) curves: Statistical significance and interpretation
http://www.inmet.gov.br/documentos/cursoI_INMET_IRI/Climate_Information_Course/References/Mason+Graham_2002.pdf
- ROC空間に点が打たれて、それらをつないだものがROC曲線
- その曲線の下側の面積がAUC
- AUCを計算するために、ROC曲線の隣り合う点間の面積を計算すると、
- 真陽率(y軸)方向では、TPの数が1つ分あがることになるので、1/(TP+FN)
- TP+FN=eとしておく。1/e。
- 偽陽率(x軸)方向では、もし偽陽率があがる場合、(TN+FP)中f上がるとすると、f/(TN+FP)
- TN+FP=e'としておく。f/e'。また、e+e'=TP+FN+TN+FP=n。
- 下側面積なので、点間あたり、(1/e) * (1-f_i/e') = (e'-f_i)/(e*e')だけ面積が増加する
- 真陽率(y軸)方向では、TPの数が1つ分あがることになるので、1/(TP+FN)
- なので、AUC=Σ^{e}_{i=1}{(e'-f_i)/(e*e')}となる
- すこし変形し、AUC=1-1/(e*e')*Σ^{e}_{i=1}{f_i}
- ここで、Σf_iについて、順位差を導入してΣ(r_i-i)と書くと、Σ^{e}_{i=1}{f_i}=Σ^{e}_{i=1}{r_i} - e*(e+1)/2
- U統計量=Σ^{e}_{i=1}{r_i}-e*(e+1)/2と書けることから、
- AUC=1-1/(e*e')*U=(e*e'-U)/(e*e')、または、U=(e*e')*(1-AUC)の関係がある
参考資料
- http://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U
- http://ja.wikipedia.org/wiki/%E3%83%8E%E3%83%B3%E3%83%91%E3%83%A9%E3%83%A1%E3%83%88%E3%83%AA%E3%83%83%E3%82%AF%E6%89%8B%E6%B3%95
- http://ja.wikipedia.org/wiki/%E3%83%9E%E3%83%B3%E3%83%BB%E3%83%9B%E3%82%A4%E3%83%83%E3%83%88%E3%83%8B%E3%83%BC%E3%81%AEU%E6%A4%9C%E5%AE%9A
- http://oku.edu.mie-u.ac.jp/~okumura/stat/wmw.html
- http://www.snap-tck.com/room04/c01/stat/stat09/stat0902.html
- 上田拓治,オーム社,「44の例題で学ぶ統計的検定と推定の解き方」