Data Analysis

データ分析について語ります。

ビッグデータ分析ではヒストグラムより密度曲線のほうがオススメ

ヒストグラム(En: histogram)は度数分布図ともいわれ、データ分析にはなくてはならないツールの一つですね。一目でデータの分布が分かります。
朗報としては、Big Dataでも破綻しにくい特性を持っています、が…。

ヒストグラムは要注意 Big Dataでは使わない方がいい?

Big Dataでは使うのは止めときましょう。理由は恣意性を否定できないからです。ヒストグラムは人によって、データによって、見た目が変わってしまいます。

ヒストグラム七変化

この4つのグラフ、同じデータの分布を見ています。黒い線は密度曲線(後述)です。一番右がホントのデータの分布に近いです。あなたは、ヒストグラム(青い部分)で、4つが同じデータだと見抜けますか?

もしそうでないとすると、ヒストグラムは見た目に関するリスクがあるということになりますね。

(詳しいことは、
 ヒストグラムは怖い
 ヒストグラムの使用をやめるべき6つの理由
 ホントは怖いヒストグラム
あたりを見ていただけると参考になると思います)

Big Data時代のデータ分布把握はこれ

データの分布を客観的に把握したいとき、誰が書いても同じ結果が得られる手法を使うのが理想的です。恣意性は極力ない方がいいですよね。
ではどうするか、が「密度曲線」になります。我々はカーネル密度推定(En: Kernel Density Estimation; KDE)という手法を使えます。
 古典的手法:ヒストグラム
 データサイエンス的手法:密度曲線 (カーネル密度推定)
な感じで、"どの値にどのくらいデータがあるか"、やろうとしていることは同じです。
前の事例であったように、ヒストグラムのbinを細かくしていくと(前出の一番右のヒストグラム)、概形は密度曲線に近付いていくので、密度曲線は直感的に理解しやすいかと思います。現場での移行も容易かと…。

(密度推定を分かり易く説明しているサイト、あまりないですね…
 カーネル密度推定とは
ここは、まあ、ありかな…。よく使われるカーネルガウス関数です)

Big Dataにはカーネル密度推定がよろしいようで

ということで、ビッグデータにおけるデータ分布の確認には、密度曲線を使いましょう。