具体例

・・・母平均の区間推定

 データ全ての平均値を計算したいのに、時間とお金がかかる以上どうしてもサンプルを選んで行うことになる。サンプルは無作為に選ばれる必要があるが、サンプルで計算したものがどれほど信頼できるのだろうか?
 次の例題を考える。

(問)
20代のサラリーマンの平均月収を調べるために無作為に選んだ5人、10人、100人、1000人のサンプルの平均と分散を計算すると次のようになった。20代の平均月収はおおよそいくらぐらいか?

標本数 標本平均 標本分散
5 35.4 49.8
10 30.4 24.3
100 29.5 21.4
1000 28.3 19.9

 標本数が小さいときの方が標本平均の値が、本当に調べたい平均(母平均とよばれギリシャ文字μ(みゅー)で表す)とズレが生じている可能性が高いと思われる。逆に標本数が大きいほど標本平均の値は母平均に近いと思われる。このような場合ピンポイントで真の平均を調べることは難しく、どうしても誤差が入った区間を調べることになる。
 
 その誤差が入った区間を推定することを「区間推定」と呼び、この場合特に「母平均の区間推定」と呼ばれる。次の式で計算することが出来る。

母平均の区間推定の式

区間の最小値  標本平均-t値×(標本分散/標本数)1/2

区間の最大値  標本平均+t値×(標本分散/標本数)1/2

ここでt値は自由度が(データ数−1)のt分布の両側5%点である。(5%以外にも10%や1%が利用される。)
10%、5%、1%について(正規分布)
t分布について

(解)
区間推定の式を利用して、まず標本数が5の場合を計算してみると。
自由度5−1=4のt分布の両側5%点は2.78なので計算すると、

区間最小=35.4-2.78×(49.8/5)1/2=26.64
区間最小=35.4+2.78×(49.8/5)1/2=44.16

同様に全ての場合を計算すると次のような結果になる。

標本数 区間最小 区間最大
5 26.64 44.16
10 26.87 33.93
100 28.58 30.42
1000 28.02 28.58

標本が小さいときにはあまりにも範囲が広すぎて意味が無いが、標本数が1000ぐらい集まるとだいたい28万円という範囲の狭い区間で推定できている。このことから標本を集める場合にはなるべく多くの標本を集める方が良いとわかる。


                                戻る