平均、偏差平方和、分散、標準偏差、変動係数
データの特徴を表すには、データの大きさとバラツキの程度を示すのが一般的です。そのための概念を列挙します。
例えば、10、20、30、40、50の5個(n=5)のデータがあるものとします。単位はm(メートル)です。
| 記号と計算式 | 計算値と[単位] | 意味 | |
| 平均 | ![]() | 30[m] | データの大きさを示す尺度です。 |
| 偏差平方和 | ![]() | 1000[m2] | (xi-x)を偏差といいます。偏差の大きさを示すのに、偏差を単純に合計したのでは0になるし、絶対値での処理は面倒なので、偏差2の合計で示すのです(*注1) |
| 分散 | ![]() | 250[m2] | バラツキの尺度です。データ数が大ならば偏差平方和も大きくなるので、その平均をとることにより、データ数の影響をなくします。ところが、推計統計論では、個数(n)ではなく、自由度(n-1)を用います(その理由はここでの範囲を超えるので省略)。 |
| 標準偏差 | ![]() | √250 =14.1[m] |
分散では単位がm2になっているので、√分散とすることで、元のデータと同じ単位にします。 |
| 変動係数 | ![]() | 0.471[-] | 標準偏差÷平均値とすることにより、データの単位や大きさの影響をなくすことができます。これで、一般的なバラツキの尺度とすることができます。 |
x xi-x (xi-x)2
10 -20 400
20 -10 100
30 0 0
40 10 100
50 20 400
1000 ←偏差平方和
なお、Σ(xi-x)2 は、次のように変形することができます。
Σ(xi-x)2
(↓ (a-b)2=a2-2ab+b2)
=Σxi2-2xΣxi+x2Σ1 (↓ Σxi=nx)
=Σxi2-2nx2+nx2
=Σxi2-nx2
=102+202+・・・+502-5×302
=100+400+・・・+2500-4500=1000 (上表と一致)
元のデータxをy=2x+6にしたとき、すなわち、26、46、66、86、106としたとき、上の諸元がどのように変わるかを考えます。
例えばMが2で、10、20、30、40、50、10、20、30、40、50の10個のデータの場合はどうなるかを考えます。
例えば、1日目の出荷が5回あり、それぞれ10,20,30,40,50個でした。2日目の出荷も同じでした。そのとき2日間の平均や標準偏差はどうなるかというように、L組の合計を考えます。
以上をまとめると、次表になります
| Ax+B | データ個数M倍 | L組の合計 | |
|---|---|---|---|
| 平均 | Ax+B | 元と同じ | L倍 |
| 偏差平方和 | A2倍 | M倍 | L倍 |
| 分散 | A2倍 | 元と同じ(注2) | L倍 |
| 標準偏差 | A倍 | 元と同じ(注2) | √L倍 |
| 変動係数 | 元と同じ (注3) | 元と同じ(注2) | 1/√L倍 |
注2:nが十分に大きいとき
注3:B=0のとき