分散と標準偏差は、どちらもデータのばらつきを表す値です。
ちなみに、ばらつき度合いは、統計学的に「散布度」と呼ばれます。
分散と標準偏差は、兄弟のような関係なのでセットで覚えるとよいです。
ばらつきってどういうこと?
それぞれのデータが、平均値から離れているか、平均値の近くに集まっているかを「ばらつき」と呼ぶよ。
分散とは
分散とは、平均値からのデータの散らばり具合を表す値です。
分散の公式は、(値-平均値)2 を足し合わせたもの÷ データ数で求めます。
平均値からの散らばりが小さいほど、(値-平均値)の結果が小さくなるため、分散は0に近づきます。
分散が大きいほど、データが散らばっているという意味だね
求め方は簡単です。一緒にやってみましょう。
例えば、Aクラス・Bクラスの生徒5人分の身長のデータがあるとします。
Aクラス | Bクラス | |
1 | 140 | 150 |
2 | 155 | 150 |
3 | 160 | 150 |
4 | 130 | 185 |
5 | 170 | 120 |
平均値(cm) | 151 | 151 |
分散を使って、考えてみましょう。
このデータを使い、AクラスとBクラスとでどちらのクラスの方が身長にばらつきがあるでしょうか?
値から平均値を引いた値(偏差)は、それぞれ下記になります。
Aクラス | Bクラス | |
1 | -11 | -1 |
2 | 4 | -1 |
3 | 9 | -1 |
4 | -19 | 34 |
5 | 19 | 31 |
ちなみに、値から平均値をひいた値を、偏差と呼びます。
この偏差を二乗し、足し合わせます。
Aクラス | Bクラス | |
1 | 121 | 1 |
2 | 16 | 1 |
3 | 81 | 1 |
4 | 361 | 1156 |
5 | 361 | 961 |
偏差の2乗の合計(分散) | 941 | 2120 |
出てきた答えが分散です。
分散は、値が大きいほど散らばりが大きいことを示します。
今回の例では、Bクラスの方がAクラスよりも平均値からのばらつきが大きいということですね。
偏差だけでも平均値からのばらつきはわかりそうなのに、なぜ二乗する必要があるの?
二乗する理由は、平均値よりも値が小さいデータは偏差がマイナスになってしまうからです。
マイナスの値があると数学上面倒なので、二乗することでマイナス値になる可能性をなくすのです。
また、二乗すると、平均値から距離が遠い値ほど影響を大きくすることができます。
距離が10離れている場合、二乗しない場合は10ですが、
差分を二乗することで、100とすることができますね。
x | x2 |
1 | 1 |
3 | 9 |
10 | 100 |
確かに、10離れているより、100離れている方がわかりやすいね
分散を出すと、何が便利なんだろう?
分散はデータセット(データ群のまとまり)全体のばらつきを示します。
また、二乗しているため計算がしやすいのです。
ただし、単位が二乗になってしまうないため、人に説明したり、ばらつきを理解するには不向きです。
例えば、身長のデータ(cm)で分散を出す時、分散の単位はcm2になります。
標準偏差について
標準偏差とは、分散の平方根で求めます。
平方根ということは、必ず0以上になるんだね
標準偏差の単位は、平均値や各値と同じになります。
例えば、身長のデータ(cm)であれば、標準偏差の単位もcmです。
標準偏差は、平均値と合わせて確認することで、データのばらつきを理解できます。
ばらつきの範囲は「(平均値 – 標準偏差)〜(平均値 + 標準偏差)」になります。
単位が揃っているから、ばらつきが大きいのかわかりやすい!