ブログ

除外される“外れ値”

━━━━━━━━━━━━━━━━━━━━
数学月間SGK通信 [2016.10.04] No.135
<<数学と社会の架け橋=数学月間>>
━━━━━━━━━━━━━━━━━━━━
皆様,早いもので10月になりました.昨夜はノーベル賞のニュースが入りました.
大隅さんは,東大,基礎科学科の2期生ということ(私は3期生)で,
消滅した基礎科学科ですが,開拓時の良さに思いが巡ります.

さて,世論調査で無作為で1,000人のデータを得たとして
そのうち有効なサンプル集合に入れられるのはどのくらいでしょうか?
統計処理では都合の悪い点を除外することがよくやられる.
実験測定などでは,明らかな間違いで除外する正当な理由がある場合もあるが,
“外れ値”と称して除外する処理手順の乱発は曲者である.

都合の悪いデータを除外することで,意図的な結論を得ることもできる.
“外れ値”とは正規分布から外れた点で,正規分布から外れた点だから除外してよいとする.
標本(サンプル集合)の平均から,標準偏差の2~3倍離れた点を“外れ値”として除外する.
この点を取り除いたサンプル集合で,さらに“外れ値”があればまたこれを除外する.
こうして続けて行くと都合の悪いものが除外され,
“外れ値”はなくなり正規分布はますます確かになっていく,
大変都合よくもあり恐ろしくもある処理手順である.

サンプル集合の分布は,平均を中心にして釣り鐘型の正規分布とは限りません.
我々は,どうして正規分布の1点でなければいけないのか?
正規分布から外れた点は“外れ値”として除外されねばならないのか?
私はどうしても納得できない.
“外れ値”を除外することを乱発され,正規分布に入っていないと生きていけない.
恐ろしい社会になってしまったものだ.
なにがなんでも正規分布にして済ますのはいやですねぇ.