Data Analysis

データ分析について語ります。

ビッグデータ分析で陥りがちな海苔みたいな残念なグラフ

Big Dataでこういう海苔グラフはNG

Big Dataを扱っていると、従来の手法ではいろいろうまくいかないことがあります。

例えば、こういうグラフ。

海苔なグラフ

これ、とあるデータ(10万点の正規乱数)を単純に表示する数だけ変えてプロットしたものです。x軸でどのくらいのデータ数をプロット(それぞれ百, 千, 万, 10万点)したか分かります。"海苔みたいなグラフ"とは何か、イメージしていただけたかと思います。海苔見せられても…ですね。
10万点を超え、100万点とか1億点となってくると、描画速度の問題も出てきます。海苔の上に海苔を重ねるようなもので、重たくて画面がいつまでたっても砂時計、ってなことになりかねないです。

ビッグデータ解析でも散布図は有効、とか書かれていることも多いです。確かにそうなんですが、ちょっと気を付けないといけませんね。

Big Dataでのグラフの在り方

オールマイティにいい、ということではないですが、例えば密度プロットを使うとデータ量が大きくてもそれなりの傾向はつかめるようになります。

海苔グラフを密度グラフに

少なくとも、海苔よりは情報が増えますね。1000点を超えてくると、傾向が変わっていないことが読み取れると思います。これなら、元は同じデータ、と言われても違和感ないですね(100点の場合は密度プロットを使うにはデータ数が少なすぎかと)。

ちなみに、こんな時はランダムサンプリングでデータ量を減らす、というのが常套手段ですが、例えばデータレンジを長い期間で見たいというような場合、ランダムサンプリングではうまくないことが多いです。最初のデータだけを見る、もなくはないですが危ないですね。単純にデータ数を下げる、は少しリスクがあります。

従来手法では失敗し得るBig Data活用、適材適所で

散布図など、従来手法の中にはビッグデータで破綻しやすいものがあります。全てを網羅するのは正直難しいです。データの何に着目したいかによって、いくつかの手法を適切に選択することが重要になると思います。