Data Analysis

データ分析について語ります。

クラウドファースト、という言葉に潜むダブルスタンダード性

自分をよく知っている人、と思っていた人から、クラウド否定派なんですか?と聞かれました。その人に比べたらだいぶクラウド利用しているんですが…知ってるやろ、と思わず突っ込みたくなりました。クラウドは基本肯定派ですし、普通の人よりは活用してる方だと思います。が、確かに、クラウドの利用を否定しているところはないことはない。クラウドと一言で片づけているところに問題がありますね。

クラウド活用の種類

クラウドといってもいろいろあります。パブリッククラウドプライベートクラウド、ハイブリッドクラウド

パブリッククラウドは、ユーザーを問わず提供されている一般的なインターネット上のサービスの基盤と考えていいでしょう。一方、プライベートクラウドは、特定のユーザーが占有しているクラウド環境で、ユーザーが独自に構築したクラウドか、クラウドプロバイダーが提供した隔離されたクラウド環境を利用する形態などがあります。ハイブリッドクラウドはそれらの折衷版ですね。

さらに、今はクラウドファーストからクラウドネイティブにシフトし始めています。クラウドの利用を"優先"して考えようね、から、クラウドを”前提”として、クラウド環境に最適化されたシステムやアプリケーションを設計・開発することにメインストリームが移りつつあります。まあ、これはいいですよね。

クラウドはなぜ早く使えて、安いのか

クラウドファーストでよく語られる理由は、クラウドはオンプレミスに比べて、"低コスト"で”早期の導入・運用が可能”という点です。嘘じゃありませんし、私もこの理由で多くのサービスを理由しています。が、皆さんがこれを考えるときに気を付けないといけないのは、この前提にある過程です。

この話、多くはパブリッククラウドが前提なんです。多くのパブリッククラウドは、安いか、無料だったりします。なんでそういうビジネスが成り立つのか、その答えがタイムシェアリングです。

さて、クラウドの基盤であるデータセンタは高額です。例えばAWSの日本での2022年単年データセンタインフラ投資は3480億円で、こんなデータセンタをAWS単独で使い切る訳がないですね。様々な企業、ユーザがこのデータセンタを共同利用します。例えば1万社で使っているとします。1社あたりの投資額は1000万円/年となって、大した額じゃなくなります。もちろん大規模投資によるボリュームディスカウントはありますが、複数の企業で共同で使うことによって、データセンタの稼働率を上げると共に、如何にも大量の人が同時にリソースを利用しているように見せかけているとも言えます。分かり易い例で考えてみます。1日は60[s/min]x60[min/h]x24[h/day]=86,400秒です。1万社の社員が8.64万人いたとして、1人が1日1秒しかPCを使わなかったとすると、全員がばらばらに使ってくれれば、データセンタはPC1台あれば事足りることになります。これは極端な例ですが、ユーザ全てが100%負荷でCPUやメモリを同時に使うことはなく、使ってもちょっとずつずれているので、実は全員分のPCを集めた能力はデータセンタには要らない、ということになるんです。これがクラウドのメリットで安くなる理由です。

パブリッククラウドが安くならない条件

パブリッククラウドは、システムのメンテナンス料とかも入っているので中小規模でシステム管理者などを雇うのが厳しい場合は活用を考えてもいいと思います。

ただし、システムを100%負荷で使い続ける場合はどうなるか。極論でデータセンタを丸ごと占有しているような負荷を考えてみます。この場合、データセンタを建設した金額を丸ごと払わないといけません。それにシステムメンテナなどの労務費、電気代とクラウドベンダの利益が載ってきます。はい、この場合は自分でデータセンタを用意した方が安くなりますね。これがプライベートクラウド(ユーザ構築の場合)とか、オンプレミスになります。

これは言い過ぎですが、負荷が高くて、ある程度データ規模がある場合(規模が少なすぎるとメンテナの労務費などが無視できなくなる)は、パブリッククラウドを主に選択するのはよく考えなければなりません。プライベートクラウドをメインとして、利便性やアクセス容易性などの利点を鑑みパブリッククラウドを適宜融合して使うハイブリッド構成が多くの場合妥当な構成になります。もちろん負荷が高くてもランニングを常に上回るような利益が出る事業であればパブリッククラウドもOKです。

パブリッククラウドは、利用料金は全てクラウドベンダに行きます。で、サブスクリプションランニングコストがかかり続け(初期投資が必要なく、経費で済む、というのは利点でもありますが欠点でもあります)、どこかで損益分岐点を迎えます。すなわち、同じ規模の設備を初期投資した金額と、払い続けるランニングの累計金額がどこかで逆転してしまうんですね(本来の損益分岐点とは少し意味合いが違いますがイメージしやすいと思いますのでこう表現しています)。で、負荷が高い工場のデータでは、この分岐点が2~5年できてしまうことが多いんです。年間の経費がすごいことになって、どうしようもなくなる、という事例が後を絶たないです。気を付けましょうね。