分散を(n-1)で割る理由

統計の本には分散について、不偏分散と偏分散という2つの分散が紹介されている。基本的にはデータ分析は不偏分散を用いる。その不偏分散は (データ数−平均)の2乗の和を(データ数−1)で割っている。平均の計算はデータ数で割るのに、なぜ分散は(データ数−1)で割るのか?
実際にサイコロの目の平均と分散は次のようにデータ数で割ることになる。

サイコロの目の平均:=(1+2+3+4+5+6)÷6=3.5
サイコロの目の分散:={(1-3.5)2+(2-3.5)2+(3-3.5)2+(4-3.5)2+(5-3.5)2+(6-3.5)2}÷6=2.92

この場合1から6の目の目が出る確率は1/6と知られている。その様な場合はきちんとした平均が計算できて、それに伴い分散もデータ数で割ることできちんと計算できる。
しかし、実際のデータで行う場合に明日株価が上がる確率と下がる確率はそれぞれ1/2とわかっていたり、商品が売れる個数が10個が1/2で20個と30個が1/4とわかっているわけではない。そのため平均の値が本当の平均とは異なってしまい、分散の計算は(データ数−1)で割ることにが好ましいとされている。それはなぜだろうか? 次の方法で説明する。


例題
サイコロを4回振り、その作業を20回繰り返す。そうすると次のような結果が得られた。

回数 1 2 3 4 5 6 7 8 9 10
3 2 2 3 1 1 3 1 3 3
2 5 3 2 2 2 6 2 4 5
3 4 5 5 6 1 3 6 3 1
4 3 1 2 1 4 5 1 3 2
回数 11 12 13 14 15 16 17 18 19 20
5 4 5 6 3 4 5 4 5 5
5 1 1 1 6 1 2 5 1 3
4 6 5 3 3 2 5 4 2 1
3 3 3 1 1 5 6 4 1 3


それぞれの回のデータ数で割った分散と、(データ数-1)で割った分散を比較する。


それぞれの回の平均を計算し2種類の分散を計算すると次のようになる。
データ数で割った分散

回数 1 2 3 4 5 6 7 8 9 10
0.50 1.25 2.19 1.50 4.25 1.50 1.69 4.25 0.19 2.19
回数 11 12 13 14 15 16 17 18 19 20
0.69 3.25 2.75 4.19 3.19 2.50 2.25 0.19 2.69 2.00


(データ数−1)で割った分散

回数 1 2 3 4 5 6 7 8 9 10
0.67 1.67 2.92 2.00 5.67 2.00 2.25 5.67 0.25 2.92
回数 11 12 13 14 15 16 17 18 19 20
0.92 4.33 3.67 5.58 4.25 3.33 3.00 0.25 3.58 2.67

それぞれ20回分の分散を計算したものの平均を計算すると次のようになる。

    データ数で割った分散の平均:=2.16
(データ数−1)で割った分散の平均:=2.88

この結果を見て先ほど計算したサイコロの本当の分散である2.92と比較すると、(データ数-1)で割った分散の方がほぼ等しい値をとっている。それゆえに実際に得られたデータなどは(データ−1)で割った分散である不偏分散(偏りが無い分散という意味)が好ましいといえる。