２つの平均の差の検定に必要なサンプル数（タイプⅡエラーと検出力）

概要
タイプⅡエラーと検出力
実験に必要なサンプル数
Minitabを使ったサンプル数の計算
最後に

概要

本記事では、２つの平均値の差の検定に必要なサンプル数について書きます。

例えば、ある実験の測定誤差が0.3だったとき、0.7の差が誤差ではなく、実際に優位な差があると言えるのか、ということについて考えます。

このような問題は実はかなり日常的な問題ですが、多くの技術者はあまり気にしていないのではないでしょうか？

なぜなら、2つのサンプル間に明らかな違いがあれば統計分析をする必要はないし、逆にほとんど違いがなければ差を見出す必要がない、と判断することが多いから。そのため、統計なんて無意味なものだと考える技術者も中にはいるかもしれないですね。

しかしながら、2つ（あるいはより多く）の異なる条件で作製したサンプルの比較を行うとき、技術者はそのサンプルをたった1回ずつ測定して結論を出すでしょうか？

統計嫌いな技術者でも、いや技術者だからこそ、何回か測定して比較をすると思います。そして、「何回測定すればいいのか？」というのが本記事で答えたい質問です。

タイプⅡエラーと検出力

ここで、読者は仮説検定については理解しているものとして話を進めます。

今、図1に示すような帰無仮説の分布f₀があったとして、その中心がdだけずれた分布f_dが実際にサンプルの従う分布だとしましょう。

f:id:Sturgeon:20200308175943j:plain 図1.タイプIIエラーβとは、実験値が分布fdに従うにもかかわらず、有意水準αの仮説検定では分布f0が正しいとみなされてしまう誤りの確率。

図1の斜線部はタイプⅠエラーαであり、αは帰無仮説（分布f₀）が正しいとき帰無仮説を棄却してしまう確率です。なお、ここでの議論は簡単のため上側のαに限定します。

一方、図1の塗りつぶした領域はタイプⅡエラーβと呼ばれるものです。

βは帰無仮説が間違いであるのにもかかわらず、帰無仮説を正しいと判断してしまう確率のこと。

今の場合は、実験値が分布f_dに従うにもかかわらず、有意水準αの仮説検定では分布f₀が正しいとみなされてしまう誤りの確率になります。

以上を言葉通り表すと、タイプⅡエラーβは次式で定義されます。

$\beta=f_d(x\le x_{\alpha})$

xαは分布f0において有意水準αとすれば計算できる座標です。また、

$Power=1-\beta$

は検出力（Power）というもので、仮説検定の性能を表す0~1の値です。差dを統計的に有意な差だと判断できる確率と考えても良いでしょう。

実験に必要なサンプル数

「必要な」というのは具体的には「有意水準αの仮説検定において、差dの違いをある一定以上の検出力1-βをもって統計的有意な差であると結論するために必要な」ということです。したがって、その「必要な」サンプル数nを計算するためには、

有意水準αからxα計算する。
検出したい差dを設定する。
適当な未知数nを適当に対する分布fdを計算する。
βが指定の値になるような未知数nを求める。

という手順でサンプル数nを求めます。しかし、ありがたいことに、分布がt分布の場合には手順1~4を行う必要はなく、次の公式を使えば必要なサンプル数nを計算できます。

$\displaystyle{ n=\frac{(z_\beta^2+z_\alpha)^2\sigma^2}{d^2} }$

ここで、zβはt分布の左側確率がβになる標準化点、zαはt分布の右側確率がαになる標準化点です。

検出力1-β=0.9、有意水準α=0.05のときは、zβもzαも約2であるため、上式は

$\displaystyle{ n=\frac{16\sigma^2}{d^2} }$

と近似できます。手計算でおおよその見積もりをするのにはこの式が使えますね。

Minitabを使ったサンプル数の計算

ツールバーの"Stat"機能から"Power and Sample Size>2-Sample-t"を選択すると。図2のダイアログが出てきます。

Minitabを使って必要なサンプル数nの計算ができます。

このダイアログでDifferences(d)とPower values(1-β)だけ値を指定しましょう（Sample sizeは空です）。今回は図2のように数値を入力して、標準偏差0.31のとき、差0.7を検出力0.8で判定するために必要なサンプル数を求めます。

f:id:Sturgeon:20200308211216p:plain — 図2. 必要なサンプル数の計算

OKボタンを押すと、図3のような結果が得られます。図3において、サンプル数n=5のとき、差0.71（横軸）が曲線と交わる点が検出力0.8（縦軸）を上回ることわかります。

参考のためにn=3と10の曲線も計算しており、n=3では検出力は約0.6、n=10では1.0にかなり近くなっていますね。

結論として、0.7の差を0.8（80％）の確率で正しく検出するためには、サンプル数（または繰返し数）nは5以上必要ということになります。

f:id:Sturgeon:20200308211558p:plain — 図3. サンプル数n(=3, 5, 10)ごとの差 vs. 検出力プロット

最後に

本記事では、複数のサンプルを比較するとき、測定誤差を考慮して何回の測定で統計的に正しい結論を出せるのかを説明しました。

余談ですが、学生時代、指導教員と実験をよく一緒にしていました。その時の実験も異なる条件で作製した複数サンプルの比較で、何回か測定を繰り返すように言われたので、先生に「何回実験したらいいんですか？」と尋ねました。先生は「3回くらいかな」と言ったんですが、根拠のない回答に腑に落ちなかった気持ちをよく覚えています。

多くの場合、統計的有意性を示すためには、3回の繰返しは十分でないでしょう。したがって、「3回くらいかな」というのは統計的な問題というよりは、測定値の確認の意味合いが強いのだと思います。そう考えると、繰返し2回で良かったのでは…