標本抽出メモ

はじめに

大量(または無限)のデータがあっても、人が確認するだとか、1つのデータあたりのなんらかのコストが高い場合、少量のデータを選んで利用する事が多い。(大量に収集されたログデータの分析をするとか、あるプログラムのパフォーマンスを見るために速度を測るとか)
しかし、「少量のデータ」の選び方やその妥当性の判断はかなり難しい。用語などメモしておく。

統計的推測

  • 母集団から標本を抽出して、その標本に対して分析し、母集団について推測すること
  • 統計学や統計的手法を適用する事で、妥当性の判断などが行えるが、適用を間違えると間違った判断を下しかねない
    • 定量、適用方法、適用手順が適切でないと、母集団と標本が大きく異なってしまう
母集団
  • 対象となるデータすべての集まり
  • 有限母集団 : データ数が有限の場合
    • ログデータ、など
  • 無限母集団 : データ数が無限の場合
    • プログラムの速度測定結果、など
  • パラメトリック : 母集団について、分布の形とそのパラメータがわかるような場合
    • 分布に関連するパラメータや指標を用いて分析などが行える
  • ノンパラメトリック : 母集団について、分布の形やパラメータで分布を決定する事ができないような場合
    • 分布に依らないパラメータを使って分析することになる
標本
  • 母集団から部分的に抽出されたデータ
  • 母集団の縮図的なものと見なされるが、標本における統計量は母集団の統計量とは必ずしも一致しない
    • 一般に、誤差が含まれる
    • そのため、母集団と標本での統計量は区別して扱われる
  • 不完全標本 : ある事象が観測されずに、標本で拾えていない標本(切断、打ち切り)
  • 混合標本 : 2つ以上の事象が混同されて抽出された標本
  • 観測過程で時間/ランダムに変化する標本 : 時系列で変化があるものやランダムに変化する事象から抽出された標本
標本抽出
  • 母集団から標本を選び出すこと
    • 標本の分析結果は「どのような標本抽出をするか」に依存
  • 復元抽出 : 抽出した標本を母集団に戻して、次の抽出対象としても扱う場合
  • 非復元抽出 : 抽出した標本は母集団に戻さない場合

標本サイズの決め方

  • 母集団から何個抽出したらよいか?
  • 基本的に、用途によって異なる
  • 標本サイズが大きくなれば検出力が大きくなる
  • 仮説検定などを行う場合、定義から逆算して求める事ができる

標本抽出方法

単純無作為抽出法
  • 母集団の各要素が標本に含まれる確率を等しいとして、等確率無作為に抽出する方法
確率比例抽出
  • 母集団の各要素に均一でない抽出確率が割り当てられる場合、その確率に基づいて必要数抽出する方法
系統抽出法・等間隔抽出法
  • 無作為に一つ選び、そこからシステマチックに抽出する要素を選んでいく方法
  • 母集団に偏りがある場合に、抽出時にその部分のみを取り出してしまい、偏った標本ができてしまう場合がある
多段抽出法
  • 母集団からの抽出をn段階に分けて無作為抽出を繰り返す方法
層化抽出法
  • 母集団がクラスなどに分割できる場合、それらクラスに分類して、そのクラスごとに無作為抽出する方法
  • 比例割当法は、各クラスから抽出する標本数の大きさを、母集団でのクラスの要素数の割合を使って変える
  • 最適割当法は、母集団でのクラスを標準偏差でわけ、分散の大きいクラスから多く抽出する

標本抽出の問題

信頼性・再現性
  • 同じ手順、条件で抽出した際にいつも同様の結果になるかどうか
妥当性
  • 目的にあった抽出であるかどうか
  • 内的妥当性
    • 抽出した標本が適切な標本だとみなせるかどうか
  • 表面的妥当性
    • 抽出が外見上適切に行われているように見えるか
  • 基準関連妥当性
    • いくつかの抽出での結果で得られる指標とどれだけ一致するか
  • 構成概念妥当性
    • 構成した理論での推定値と標本での結果が一致するかどうか