不良品をテーマにした統計的検定の問題は結構目にします.
昨日の問題もなかなか面白かった.変に捻ってない簡単な例だったので,残しておきます.
だけど,比率の問題の場合とどうしても混同してしまうので,ここで違いを明確にしたいと思いました.
問題1 (佐藤の確率統計 p.242)
ある工場で作られている直径7mmのボルトは,過去の資料によると,平均7mm,標準偏差0.4mmの正規分布をしているという.ある日の製品100個の平均が7.06mmであった.この日の製品は,平素と比べて異常であるといえるか.有意水準5%で検定せよ.
母平均と母標準偏差は,過去の資料の値と考えていいと思います.つまり,\(m=7, \sigma = 0.4\).
そして,標本値として\(n=100\)だけ製品を取り出して求めた平均が\(\overline{X}=7.06\)だったという解釈になります.
先ずは仮説として,「この日の製品は平素と変わらない」とする.
\(n\)個の標本値に対する正規分布の標準偏差は\(\sigma /\sqrt{n} = 0.4/\sqrt{100} = 0.04\).
さらに,有意水準5%なので,母平均\(m\)から\(1.96 \cdot \sigma / \sqrt{n}\)の値までの差であれば,平素と変わりない(仮説を採用)とし,これ以上の値であれば,平素と比べて異常(仮説を棄却)とします.
\[
1.96\frac{\sigma }{\sqrt{n}} = 1.96\times 0.04 = 0.0784
\]
であるから,\(7\pm 0.0784\)の範囲に収まるのであれば仮説を採用となる.
問題より,7.06mmなのでこの範囲に収まる.したがって,平素と変わりがない.
つまり,式で書くと,有意水準5%の場合,
\[
|\overline{X}-m| \le 1.96\frac{\sigma }{\sqrt{n}} \hspace{0.5cm} \cdots (1)
\]
であれば,「平素と変わりない」という判断ができる.
ここで悩ましいのは,以下のような場合だ.
問題2(佐藤の確率統計 p.243)
ある地方で,ある年の出生児500人のうち,275人が男子であった.このことから,男子の出生率は女子の出生率より高いと判断してよいか.有意水準5%で検定せよ.
仮説:男子の出生率は1/2である(男子の出生率が女子より高いと言えない)
として,この仮説が棄却されるか否かを検定する.ポイントは,全数検査ではなく抽出した500人のみ割合を見ているので,たまたま1/2を超えた可能性があるかもしれない.
なので,この275人という数字が偶然起こり得ないくらい大きい値であれば,仮説は棄却されるというわけだ.
500人を抽出したとき,その中の男子が\(X\)人である確率は二項分布\(B(500, 1/2)\)で表される.二項分布の平均と標準偏差は,
\[m = np = 250\] \[\sigma = \sqrt{np(1-p)} = \sqrt{125} = 5\sqrt{5} = 11.18\]
\(n\)が大きいので二項分布は正規分布として近似できるので,有意水準5%となる範囲は,
\[
|\hat{X} – np| \le 1.96 \sqrt{n p(1-p)} \hspace{0.5cm} \cdots (2)
\]
ここで,\(\hat{X}=275\)を示す.
\[1.96 \sqrt{n p(1-p)} = 21.9\]
つまり,\(250\pm 21.9\)なので,問題の275人はこの範囲を超えるので,仮説は棄却される.
すなわち,男子の出生率は女子より高いと言える.
ここで疑問…
問題2で,\(1.96 \sqrt{n p(1-p)}= 21.9\)を計算したけど,ここでなぜ(1)式のように\(1.96\cdot \sqrt{n p(1-p)}/\sqrt{n}\)で計算しなかったのかという疑問が生じた.
きちんと基礎から勉強すればそんな疑問は生まれないのかもしれないけど,限られた時間の中で即席に勉強している身としては,ここでそんな疑問が生まれた.
結局自分の中で解決したけど,その解釈を述べてみたいと思う.
まず,問題1の場合.これは,ボルトの長さ\(X\)に対する正規分布.そこから\(n=100\)個ランダムサンプリングしたということなので,サンプルして測ったときの長さを*,標本平均を↑とすると,以下の図のようになる.
この*の値を元に標本正規分布を考えると,標準偏差は\(\sigma / \sqrt{n}\)になるというのが理論だ.
一方,問題2の場合はどうだろう.\(n=500\)人をランダムサンプリングして男女を調べたということだが,そのとき男子の数を\(X\)として二項分布を書くと,\(n\)が十分大きいので正規分布で近似できるので,おそらく以下の図のようになるだろう.
ここで,男子の人数が\(X\)であり,\(X=275\)人だったわけだから,問題1のようにサンプル点を*で書くと1ヶ所にしかならない.
あれ?変だぞ?
と思って,よくよく考えて問題1のケースと比べてみると,違いがわかった.
問題2の場合は,1回のサンプルで判明する値は男子か女子かのどちらか.つまり,1か0かのどちらかになるだから,問題1の場合と同じように考えるのであれば,二項分布ではなく,以下のように考えないといけない.
つまり,500人中275人が1のところに*があり,225人が0のところに*があるというわけだ.この横軸が\(X\)になるので,平均は
\[\overline{X} = \frac{0+1+1+0+1+0+0+\cdots +1}{500} = \frac{275}{500} = 0.55\]
となるわけで(ちなみに1と0の順番は適当に書いてます),1の数が275になるから結局は275/500 = 0.55というわけ.同様に分散は,
\[\overline{\sigma}^2 = \frac{0^2+1^2+1^2+0^2+1^2+0^2+0^2+\cdots +1^2}{500} – 0.55^2\] \[ = 0.55 – 0.55^2 \]
なので,結局以下のようなことが言えます.
\[\overline{X} = p\] \[\sigma^2 = p(1-p)\]
で,仮説では\(p=0.5\)としているので,この場合は
\[
|\hat{p} – p| \le 1.96\frac{\sqrt{p(1-p)} }{\sqrt{n}} \hspace{0.5cm}\cdots (3)
\]
が成立すれば仮説を採用するという話になる.ここで,\(\hat{p}=0.55,p=0.5\)ですから,
\[
1.96\frac{\sqrt{p(1-p)} }{\sqrt{n}} = 0.0438
\]
一方,\(\hat{p} – p = 0.05\)なので,これは0.0438より高いので,仮説は棄却される.これだと問題なく\(1.96\cdot \sigma /\sqrt{n}\)を使用している.
ここで,式変形
さて,ここからだが,(3)式
\[
|\hat{p} – p| \le 1.96\frac{\sqrt{p(1-p)} }{\sqrt{n}}
\]
を変形してみる.両辺に\(n\)をかけてみると
\[
|n \hat{p} – np| \le 1.96\frac{\sqrt{n^2p(1-p)} }{\sqrt{n}}
\]
\(n\hat{p} = 275 = \hat{X}\)とおくと
\[
|\hat{X} – np| \le 1.96 \sqrt{n p(1-p)}
\]
となり,なんと!最初に問題2を二項分布に当てはめて解いた(2)式と同じになる.つまり,実質的に同じことをしていたに過ぎない.
これで,二項分布で考えた時,なぜ\(1.96\cdot \sigma/\sqrt{n} \)ではなく,\(1.96\cdot \sigma \)を用いるのか分かった.
結局,母比率の問題に帰着するという結論になった.まぁ,確かに二項分布上では,サンプル数は1になるからね.
これで覚えるべき式が一つ減ったと言ってもいい.