Data Analysis

データ分析について語ります。

68–95–99.7則の罠、ビッグデータ分析には思わぬ落とし穴が…

68–95–99.7則、知ってないといけない大原則

68–95–99.7則(En: 68–95–99.7 rule)ご存じですよね。おさらいですが、

±1σの範囲に68%
±2σの範囲に95%
±3σの範囲に99.7%

のデータが存在している、という経験則です。σ:標準偏差
(正規分布の、例えば平均から両側σまでの面積を積分すると全面積の68%になるという事実から導出されてます。面積比から確率的にここに入るよってことですね)

ほぼ全ての値が平均の3σ以内にある

と言い換えることもできますね。外にあるデータは100%-99.7%=0.3%。1000個測って3つしか外に出ない、確かにほとんど内側にあるといえそうです。眠ってても言えないといけない!?、ルールです。

Big Dataではその先を

ところが、これ、Big Dataでは盲目的に使ってはいけません。

なぜならば、Big Dataの場合、正規分布でないデータを扱うことが多いからです。「ほぼ全ての値が平均の3σ以内にある」は従来のヒューリスティック(経験則)と考えていただいた方がよいかと思います。

(なお、チェビシェフの不等式という関係があって、これによるとkσの外側にはたかだか1/k^2の値しか存在しないということになります。1-1/3^2=88.9%なので、μ±3σ内にある程度のデータが集まる、という現象には程度の差はあれ変わりはありません。ただし、この時のσは分布によって異常に大きな値をとったりします。ちなみに、こちらで求めてみると

±2σの範囲に75%
±3σの範囲に88.9%
±4σの範囲に93.8%
±5σの範囲に96%
±6σの範囲に97.2%

どんな分布でも全てのデータが含まれるのはかなり広い範囲になりそうですね)

分布が非正規分布、Big Dataでは基本、68–95–99.7則は忘れるべし

もちろん、正規分布状のデータに対しては、これ使って大丈夫です。古典的な手法とデータサイエンス・Big Dataでは使い分けるようにしましょう。