企業がDX(デジタルトランスフォーメーション)に取り組むにあたって重要になるのが、データをいかに活用しそれをビジネスへ展開していくのか、ということである。従来であればデータはデータサイエンティストが分析し、その結果を共有するようなスタイルが一般的だった。しかし求められるのは最新のデータであり、それを遅延なく共有するにはかなりのコストが必要である。「Snowflake」はそういった課題を解決するデータクラウドを実現するプラットフォームとして、いま多くの企業で活用されている。Snowflakeはいかにしてデータクラウドの課題を解決しているのだろうか。
後発のSnowflakeが多くの企業で活用されている背景
Snowflakeは、世界中で6,000社近くの企業に活用されているデータクラウドプラットフォームだ。これだけ多くの企業に活用されている背景には、これまでのサービスにあった課題をSnowflakeが解決できるという点がある。Snowflakeがこれまでのサービスの課題を解決できていることについて、同社のシニアセールスエンジニアである髙山博史氏は「後発でパブリッククラウドをインフラとして活用して、新しいアーキテクチャで組んでいることが大きい」と話す。
Snowflakeは、コンピュータとストレージが完全に分離したアーキテクチャを持つ。これによって、必要なときに必要なだけ必要なスペックのリソースを使って分析することが可能になっている。柔軟に拡張・縮退できるクラウドのメリットを分析基盤に持ち込んだのがSnowflakeなのだ。髙山氏は「Snowflakeによって機会損失も防げますし、データ活用によるビジネス貢献にもつながると思います」と述べた。
拡大画像表示
事実、Snowflakeを導入した企業では高速で多角的なデータ分析が可能になり、パネルデータをより高度に活用できるようになった。検討していたデータウェアハウス(DWH)のサービスと比較すると、パフォーマンスが2~5倍も向上し、コストは3分2に削減した例もある。特に高く評価されたのが、データベース管理者が必要とするスキルの多くが不要となり、クエリや分析といったデータ分析者本来の業務に集中できるようになったことだ。
パフォーマンス向上とコスト削減のカラクリ
Snowflakeを利用することでパフォーマンスの向上とコスト削減につながるカラクリについて解説していく。Snowflakeではストレージ上にあるテーブルに対して、利用部門ごとにコンピュートリソースが割り当てられているため、リソースが競合する問題が起こらない。
拡大画像表示
従来のように分析のためのコンピュートリソースを共有する場合はテーブルへのリソースが競合するため、たとえば、データサイエンティストの部門が時間のかかる分析処理をしていると、セールス部門が利用するTableauなどのBIツールに影響が出てクレームが発生することがあった。そのため、セールス部門が利用しない夜間に時間のかかる処理を行う、といった対応が必要になっていた。しかしSnowflakeであれば、そういったことを気にする必要はない。セールス部門やデータサイエンティストなどが昼にデータをロードしたり変換したりしても、それぞれが独立したコンピュートリソースを使用するため、お互いに影響を与えないのである。
またSnowflakeのコンピュートリソースは、S、M、L、XLなどとスペックが決められている。このスペックをSからMにすると、処理性能が倍になるイメージである。例えばデータサイエンティストがLで4時間もかかるような時間のかかる処理をしていたとする。この処理をするときのスペックを1つ上げてXLにすると、処理性能が2倍になって、半分の時間で結果を出せる。
Snowflakeでは、データをどれだけ保存しているかのストレージ費用(非常に安価)に加え、各コンピュートリソースの時間単価に実際の稼働時間をかけ金額が課金される。前述の例では、スペックを1段階上げると時間単価は倍になるが、処理時間(=稼働時間)は1/2となるため、同じ分析処理にかかるコストは変わらない。「同じ費用で結果が半分の時間でわかりますので、ぜひ重い処理に対しては積極的にスペックを上げていただければなと思います」(髙山氏)。
重い処理や複雑な処理をする場合はスペックを上げる(いわゆる「スケールアップ」)のが有効だが、同時に接続する数が増える場合は台数を増やす「スケールアウト」が有効である。Snowflakeは、接続数に応じて自動的にスケールアウトするオートスケーリングのしくみも持っている。そのため、午前中に行われる会議のためにセールス部門のスタッフが一斉にダッシュボードに接続するような場合でも、問題なくデータを閲覧することができる。
拡大画像表示
そしてSnowflakeは使った分だけ課金される従量課金になっているので、ふだんは停止しておき、分析処理をするときだけ使うことも可能だ。そしてクエリを打つなどの行動をすると、瞬時に自動的に立ち上がるしくみになっている。これも分析処理が終わって結果を返したらアイドル状態になり、設定した時間が経つと自動的にコンピュートリソースが停止する。余計なコストがかからないしくみになっているのだ。
効率的なデータ共有とデータマーケットプレイスの可能性
データクラウドとはデータのやりとりをセキュアで簡単にして、データ活用によってデータの価値を向上させるという考え方のことを指す。データを活用するうえで重要なのが、データの共有である。
他社とデータを共有する場合、データをサーバーに格納してダウンロードしてもらったりAPIを用意していたりするケースもあるだろう。もっともよく使われているのはメール添付かもしれない。こういったデータ共有の方法は、データを渡したあとのことをコントロールできないという問題がある。またデータを受け取った側も、データが最新のものかどうかわからない。最新データが必要な場合は、あとから差分を受け取る必要が生じることもある。また、大きなデータの場合は、そもそもデータの転送に時間とコストがかかってしまうこともある。
Snowflakeでは、データのコピーを相手に渡すのではなく、データベースのテーブルにデータ分析を許可する権限を付けられるようになっている。つまり最新のデータに更新するたびに相手へ送る必要はなく、データを最新のものに更新すれば、共有されている相手は最新データを活用した分析ができるのである。もちろん、データのテーブルに対しては、細かくセキュリティを設定することが可能だ。他社から共有されたデータに対して、自社のデータと同じようにクエリを投げることもできる。また、自社のデータと他社のデータを結合した分析をすることも可能だ。
Snowflakeにおけるデータの共有方法は3つあり、特定の相手と共有する1対1の“ダイレクトシェア”、複数の人や組織と共有する1対nの“データエキスチェンジ”、そしていま注目を集めているのが欲しいデータを探索し購入することができる“Snowflakeデータマーケットプレイス”である。
拡大画像表示
Snowflakeデータマーケットプレイスは特定の組織とデータを共有するのではなく、サードパーティのデータを利用できるサービスである。「いま200社以上から提供されている1,100種類以上のデータセットが公開されています」(髙山氏)。
有償や無償でさまざまな分野のデータセットが用意されており、日本での例としては、気象調査会社であるウェザーニューズ社が提供する、1キロメッシュの非常に細かい粒度の過去の天気データが共有されている。このデータを利用することで自社の店舗データと天気のデータをジョインして、来店者数や売上が天気と相関があるかどうかを分析することが可能になる。
ただ提供されているデータを活用するだけではない。髙山氏は、「自社のデータをマネタイズするようなことも可能です。御社がデータを売るということもできます」と、組織が生み出すデータが新しい利益を生む可能性についても言及した。データ活用はただデータ分析を行うだけではなく、データに新しい価値を見出しマネタイズしていく可能性も秘めているのだ。
●お問い合わせ先
Snowflake株式会社
URL: https://www.snowflake.com/?lang=ja
製品URL:https://www.snowflake.com/snowflake-cloud-data-platform/?lang=ja
- ダイナミック・ケイパビリティを高める経営観点でのデータ活用のグランドデザイン(2022/07/01)
- カギは一元管理とモビリティにあり! マルチクラウド環境のデータ保護の最善策とは(2022/05/18)
- 企業に真のデジタル変革をもたらすロードマップの描き方とは?(2022/05/17)
- マスターデータマネジメント(MDM)導入を成功に導く“顧客主導型”アプローチ(2022/05/16)
- DX時代のストレージに求められる要件を“攻め”と“守り”の両面から満たすピュア・ストレージ(2022/05/13)