| ■ 標準偏差 ■ |
【2】式の由来のながすぎる説明
まず、式を説明する前に、標準偏差ということばから、
イメージをふくらませましょう。
そうですね、、
標準 + 偏差
標準と偏差に分けたところからはじめましょうか。
標準はおいておいて、ここでは、偏差が大切なのです。
偏差(deviation)、ことばは難しいですが、ようは
『差』、あるいは、『ずれ』
なのです。なにからのずれかというと、平均です。
平均からの『ずれ』
たとえば、1、2、3という数では、平均は2ですが、
これから、
1はマイナス1、ずれている
2はずれていない
3はプラス1ずれている
とこうなりますが、この、平均との差(平均からの距離)を1つ1つの
サンプルで求める作業、「個別サンプル−平均」、これがスタート(基
本)であり、ゴールです。ゴールというのは、難問では平均との差に戻
れるかが決め手になります(ここはいまは聞き流してください)。とて
も大切なのです。
ここまでの話でいいたかったのは、標準偏差ということばのテーマは、
平均との差(平均からの距離)を考える、ということです。
標準偏差のテーマは、平均との差(平均からの距離)
で、
標準 + 偏差
にもどりますが、
「偏差」が平均からのずれをあらわしているということでしたが、
こんどは「標準」とは何でしょうか? ほんとうは「標準」では
なくて「平均」ということばがイメージにしっくりきます。
標準偏差 = 標準(平均)+偏差(ずれ) = 「ずれの平均」
です。(ここは数学的に正確ではありませんがイメージをつくるため
このままご理解ください)
標準偏差 = 「ずれの平均」
簡単な例で説明させてください。
1 3 5 7 9
この5つの数字はえんぴつの長さ(cm)だと思ってください。
平均は一目で5です。(連続する奇数個の平均は真ん中の数になります)
その平均の5を中心として、それぞれの数がプラスかマイナスに
いくらかずれています。書き出してみましょう
えんぴつの長さ: 1 3 5 7 9
平均からの差 : −4 −2 0 2 4
いま、−4 −2 0 2 4 というずれが計算できました。これを
ずれが大きいとか小さいとか評価する方法を考えてみましょう。
ずれをどう評価するか?
たとえば、まず思いつくところで、全部足してみましょうか、そして、
個数の影響をなくすために平均してみましょう(えんぴつが多くなると
ずれの単純合計が大きくなるのはあたりまえですから)。
それでは、
■【ずれの評価その1、単純に平均する】
(−4+(−2)+0+2+4)/5=0/5=0
ずれの和を求めた時点で0になってしまいました、この平均も当然、0
になります。なにか変です。
もともと、平均というのは、ある数を中心にして、上方、下方がつり
あっているという意味をもっていました。上方と下方のずれが打ち消さ
れる点として平均があるので、単純にずれを平均するとすべての場合で
0になってしまいます(ここでは示しませんが数式的に完全にそうなり
ます)。これではずれの大きさを評価できません。
ずれの単純平均は常に0になる
ここでは、プラスとマイナスが打ち消し合ったので失敗しました。それ
では、マイナスのずれを絶対値を使ってプラスにするのはどうでしょう
か。次の方法です。
■【ずれの評価その2、絶対値を平均する】
ずれは、−4 −2 0 2 4 でした。これを絶対値であらわす
と、4 2 0 2 4 になります。これを平均してみましょう。
(4+2+0+2+4)/5=12/5=2.4
今度は成功です。ずれの大きさをあらわす数値になりました。今、おこ
なった、ずれの絶対値を平均する、という方法でもずれを評価できま
す。この方法は、平均偏差(mean deviation)と呼ばれ、統計の中に
存在しています。でも、この計算方法には絶対値記号があり、この記号
が数式にあると、いっきに数学的にあつかいにくくなるので、一般には
使われていません(ここは読み流してください)。絶対値記号がきらわ
れて、標準偏差の定義式にはならなかったのです(他にも理由がありま
すがやはり気にしないでください)。
ずれの絶対値の平均は数式的にあつかいにくい
この例では、もともと、マイナスのずれをプラスにするために絶対値を
使いました。マイナスをプラスにする方法は他にないでしょうか?
2乗するという方法があります。次へいきましょう。
■【ずれの評価その3、2乗してから平均する】
ずれは、−4 −2 0 2 4 でした。
これをそれぞれ2乗してみます。
16 4 0 4 16
そしてこれを平均してみましょう(サンプルの個数の影響をなくすため
平均は欠かせません)。
(16+4+0+4+16)/5=40/5=8
式は面倒くさくなりましたが成功は成功です。でもこの式は標準偏差の
式ではありません。もっと大切な(意味のある)式があって、それが標
準偏差の式になるからです。
それは今の式の全体をルートでくくったものです。
なんでこの式でだめなのかということも含めて次へ進ませてください。
(注:この式の結果は分散(variance)と呼ばれ統計のなかでは標準偏差
とならんで重要なポジションにあります。この分散をルートにしたのが
標準偏差、標準偏差を2乗したのが分散です。でもまぎらわしくなるの
で分散ということばはだしたくはありませんでした。ここでだしたの
は、本試験でvarianceがでる可能性がよくわからなかったからです)
■【ずれの評価その4(ようやく最終回)、2乗してから平均して、その
分数をまるごとルートでくくる … これが標準偏差】
上ではずれをそれぞれ2乗してから平均して、8という数値を得まし
た。これは、もとがえんぴつの長さ(cm)ですが、センチという単位を
意識しながら上の計算を振り返ると、途中で2乗というプロセスがあっ
たので、ずれを評価する単位は、平方センチ(面積)になってしまいま
す(平均して5で割っているところがすこしまぎらわしいですが、す
くなくとも2乗したものを元にもどしてはいません)。
長さ(センチ)のばらつきを考えていたら、その評価をする数値が平方
センチ、面積の単位になってしまったわけです。一番初めの小話で
ちょっとでてきましたが、ずれを評価する数値は、平均と足しあわせた
りして、統計的に深い意味をもっていきます。ずれ(ばらつき)の単位
が、元の単位の2乗になるのは都合が悪いのです。
ここで、標準偏差の登場です。上の、『ずれをそれぞれ2乗してから平
均したもの』の全体を、ルートでくくります。これで単位が元と同じに
なります。この計算方法が標準偏差です。
ちょっとはなしがややこしくなってきましたがこの辺はあまり気にしな
いでください。オフィシャルガイドにもありますが、複雑な標準偏差の
定義式がそれなりに根拠がある、ということを印象づけていただけたら
ここでは十分です。2乗したり、ルートでくくったり、分母に個数を
もってきたりしましたが、なにかしら意味のあることだったと、ぼんや
り感じていただければ公式の覚え方も違うと思います。
また、標準偏差の『標準』という部分の意味にもどりますが、これは、
ずれの評価方法はいろいろあるけれど、まあ、このやりかたでやりま
しょうか、という意味で、『標準=standard』が使われています。
ちょっと式を見てみましょうか
【標準偏差の定義式】
標準偏差=
実際の計算はいきなりルートの中にすべてを代入するよりは、何段階
かに分けて数値を固定していくのがいいと思います。それは、
1)平均を決める
2)平均からの差を1つ1つ計算する
3)その差を1つ1つ2乗する
4)2乗したものを全部足して、
5)その和を個数で割る(2乗和の平均)
6)そこまでやって、全体(分母も含めて)をルートでくくる
何回か紙とえんぴつで計算してみないと式の実感がわかないかもしれま
せん。もう一度作業を振り返りますが、
平均求めて、差をとって、それぞれ2乗、
ぜんぶたして、
個数でわるのを忘れずに、
分数まるごと(分母も)ルートに入れる
この式はかならずおぼえてください。