Mann-WhitneyのU検定メモ

はじめに

ROC曲線のAUCとも関係のあるらしいマン・ホイットニーのU検定についてメモ。

マン・ホイットニーのU検定とは

  • Mann-Whitney's U test
    • ウィルコクソンの順序和検定も同等のため、マン・ホイットニー・ウィルコクソン(MWW)検定とも
  • ノンパラメトリックな統計的検定の一種
    • 母集団のパラメータを仮定しないdistribution-freeな方法
    • 一般に、標本数が少ない場合は帰無仮説が偽で、帰無仮説が棄却される可能性が低くなる
  • ある2つの(対応関係のない)標本(群)の母代表値に差があるかどうか」を検定
    • 帰無仮説:両群に差はない(同じ分布をしている)
    • 対立仮説:両群に差がある

統計量U

Uの定義はいくつか種類があるよう。

標本数が少ないとき
  • 標本数が小さい方の群をA、他方の群をBとすると、Aの標本iについて、Bの中で標本iより小さい値の個数を求める
  • すべてのiについて個数の総和をUとする
標本数が少し多めのとき
  • 標本を順位に直し、それぞれの標本群についてその順位の和を求め、その小さい方をUとする
  • 統計量U = min(U1, U2)
    • U1 = n1*n2 + ( n1*(n1+1) )/2 - R1
    • U2 = n1*n2 + ( n2*(n2+1) )/2 - R2
    • n1,n2 : 群1、群2の標本数
    • R1,R2 : 群1、群2の標本の順位の和
  • 同順位がある場合はこの方法は使えないので、t検定(ウェルチのt検定)/z検定を用いる
  • データ数は20程度まで。それ以上あるならば、正規分布で近似できるので、z検定する
検定

z検定する場合

  • 順位に対してz検定する
  • 統計量z = | U-E(U) | / sqrt(V(U))
    • 平均 : E(U) = n1*n2/2
    • 分散 : V(U) = n1*n2*(n1+n2+1)/12
      • ただし、同順位がある場合は、V(U)=n1*n2/(12*(n^2-n)) * {n^3-n-Σ_{i=1}^{m}{t^3_i-t_i}}を用いる
      • m : 同順位の種類数
      • t : 同順位の個数
  • z値からp値を求め、有意水準以下の場合、帰無仮説を棄却 = 両群に差がある

ROC曲線AUCと統計量U

AUCと統計量Uが関係するとのことで、(Continuous forecast probabilities, no tiesだけ)ちょっと以下の論文を追ってみた。

S.J.Manson and N.E.Graham, Areas beneath the relative operating characteristics (ROC) ans relative operating levels (ROL) curves: Statistical significance and interpretation
http://www.inmet.gov.br/documentos/cursoI_INMET_IRI/Climate_Information_Course/References/Mason+Graham_2002.pdf

  • ROC空間に点が打たれて、それらをつないだものがROC曲線
    • その曲線の下側の面積がAUC
  • AUCを計算するために、ROC曲線の隣り合う点間の面積を計算すると、
    • 真陽率(y軸)方向では、TPの数が1つ分あがることになるので、1/(TP+FN)
      • TP+FN=eとしておく。1/e。
    • 偽陽率(x軸)方向では、もし偽陽率があがる場合、(TN+FP)中f上がるとすると、f/(TN+FP)
      • TN+FP=e'としておく。f/e'。また、e+e'=TP+FN+TN+FP=n。
    • 下側面積なので、点間あたり、(1/e) * (1-f_i/e') = (e'-f_i)/(e*e')だけ面積が増加する
  • なので、AUC=Σ^{e}_{i=1}{(e'-f_i)/(e*e')}となる
    • すこし変形し、AUC=1-1/(e*e')*Σ^{e}_{i=1}{f_i}
    • ここで、Σf_iについて、順位差を導入してΣ(r_i-i)と書くと、Σ^{e}_{i=1}{f_i}=Σ^{e}_{i=1}{r_i} - e*(e+1)/2
  • U統計量=Σ^{e}_{i=1}{r_i}-e*(e+1)/2と書けることから、
  • AUC=1-1/(e*e')*U=(e*e'-U)/(e*e')、または、U=(e*e')*(1-AUC)の関係がある