2022-10-02から1日間の記事一覧
ヒストグラム(En: histogram)は度数分布図ともいわれ、データ分析にはなくてはならないツールの一つですね。一目でデータの分布が分かります。朗報としては、Big Dataでも破綻しにくい特性を持っています、が…。 ヒストグラムは要注意 Big Dataでは使わない…
Big Dataでこういう海苔グラフはNG Big Dataを扱っていると、従来の手法ではいろいろうまくいかないことがあります。 例えば、こういうグラフ。 これ、とあるデータ(10万点の正規乱数)を単純に表示する数だけ変えてプロットしたものです。x軸でどのくらいの…
68–95–99.7則、知ってないといけない大原則 68–95–99.7則(En: 68–95–99.7 rule)ご存じですよね。おさらいですが、 ±1σの範囲に68%±2σの範囲に95%±3σの範囲に99.7% のデータが存在している、という経験則です。σ:標準偏差(正規分布の、例えば平均から両側σま…
ロバストとは ロバスト(En: robust)は、堅牢な、頑強な、強靭な、みたいな意味の言葉です。 古典統計(というと怒られるかもしれませんが、データサイエンスに比べた従来の統計学、と取ってください)では、サンプリングが基本です。なので、外れ値みたいなも…