Data Analysis

データ分析について語ります。

2022-10-02から1日間の記事一覧

ビッグデータ分析ではヒストグラムより密度曲線のほうがオススメ

ヒストグラム(En: histogram)は度数分布図ともいわれ、データ分析にはなくてはならないツールの一つですね。一目でデータの分布が分かります。朗報としては、Big Dataでも破綻しにくい特性を持っています、が…。 ヒストグラムは要注意 Big Dataでは使わない…

ビッグデータ分析で陥りがちな海苔みたいな残念なグラフ

Big Dataでこういう海苔グラフはNG Big Dataを扱っていると、従来の手法ではいろいろうまくいかないことがあります。 例えば、こういうグラフ。 これ、とあるデータ(10万点の正規乱数)を単純に表示する数だけ変えてプロットしたものです。x軸でどのくらいの…

68–95–99.7則の罠、ビッグデータ分析には思わぬ落とし穴が…

68–95–99.7則、知ってないといけない大原則 68–95–99.7則(En: 68–95–99.7 rule)ご存じですよね。おさらいですが、 ±1σの範囲に68%±2σの範囲に95%±3σの範囲に99.7% のデータが存在している、という経験則です。σ:標準偏差(正規分布の、例えば平均から両側σま…

ビックデータ分析はロバストで行こう、平均さえ気を付けないと危ないかも

ロバストとは ロバスト(En: robust)は、堅牢な、頑強な、強靭な、みたいな意味の言葉です。 古典統計(というと怒られるかもしれませんが、データサイエンスに比べた従来の統計学、と取ってください)では、サンプリングが基本です。なので、外れ値みたいなも…