2018年11月22日木曜日

標準偏差と標準誤差を直感的に理解する

この記事は,研究室のゼミでせっかくグラフをエラーバー付きで示してプレゼンしたのに, もしくは104.3±4.5のように誤差つきで計測値を論文に書いたのに, それって標準偏差それとも標準誤差?などと聞かれた人向け(それ以外にも誤差の示し方は半値幅とか2σとかいくらでもある). 標準偏差の意味は,なんとなくデータのばらつき具合で, 精度(もしくは誤差)を表すのに都合が良い,というところまでは理解しているけど, よく似た名前でよく似た数式の標準誤差とどうちがうのか,いまいち教科書を読んでも良くわからない,という人向け. 「三角形は,コンビニのおにぎりの形」くらいのざっくりした説明をする.

標準偏差と標準誤差の違い

まず名前が違う

当たり前だけど名前が違う. 名前が物事を分かりにくくするということが多々あって, 私もこの名前のせいで理解しようとする気持ちが長年失せ続けた人間の一人. まず,共通部分の「標準」だけど,はっきり言って「標準」ということに殆ど意味はないので無視した方がいいい. 「統一規格の」というくらいの意味なのだろうか?命名された経緯は良くわからない.

次に「偏差」と「誤差」という部分が違いだけど, これも2種類の統計量の違いを的確にあらわしている訳ではないので,無視して丸暗記するしかない. しいて自分で名前をつけるなら,標準偏差は「ばらつき幅」,標準誤差は「平均値精度」が良いと思っている. そう,わざわざ全然違う名前にするということは,意味が違うということ. この記事では名前の分かりにくさが理解を妨げてるという立場をとってるので,「標準偏差(ばらつき幅)」のように常にセットで用いる.

数式が違う

それぞれの定義式を説明しはじめると,ややこしくなるので両者の関係式から. 教科書を読むとごちゃごちゃ数式がでてきて嫌になってしまって, どうやって計算するのかが書かれている最後の部分だけ見るとこんな感じになっている.

\[ 標準誤差(平均値精度)=\frac{標準偏差(ばらつき幅)}{\sqrt{データ数}} \]

要するに標準偏差が計算できれば標準誤差は簡単に計算できるということ. 「というか,ほとんど同じやん」と思ったのでは? 全然違う名前をつけた割りには,標準誤差(平均値精度)は単に標準偏差(ばらつき幅)をデータ数のルートで割っただけのもの. 要するに標準偏差(ばらつき幅)が大きなときは標準誤差(平均値精度)も大きくなる,という意味では同じようなもの.

こう考えると全然意味が分からなくなる. この結果は,もともと異なる統計量を計算した偶然の結果であってこの関係詞期から両統計量の違いを理解しようとすると理解できなくなる. 実際教科書では,標準偏差は直感的なイメージとともになぜそういう定義がされたか説明されるが,標準誤差は中心極限定理を持ち出して説明される.

使い方が違う

標準偏差
データのばらつきを表すのに用いる.データ単体を示して云々語るときはこちら.
標準誤差
データから得られた平均値の精度を表すのに用いる.2つ以上のデータセットの平均値の差を比較する場合はこちら.

以上です.詳しくは教科書を読んで勉強して欲しい.

参考