データの高度な利活用はどの企業にとっても喫緊のテーマだが、サイロ化といった典型的な問題を抱えて思うように歩が進まないケースが後をたたない。ここに「データクラウド」という新しいアプローチを持ち込んで抜本的解決を図ろうとしているのがSnowflakeだ。その具体像とユーザー価値とはどのようなものなのか。同社のキーパーソンに話を伺った。
部署や業務ごとにデータがとりとめもなく散在している状態、すなわち「データのサイロ化」は、多くの企業にとって悩ましい問題として立ちはだかっている。ビジネスの前線の動きを捉えて最適かつ迅速な意思決定を下したいとの想いとは裏腹に、データはあちこちに様々な形で分散しており、分析しようにも思い通りに進まない。一カ所に集めたり、形式や意味を揃えたりするのに、いたずらに時間がかかりコストも膨れ上がる。ガバナンスを効かせきれておらず、漏洩などのセキュリティ上の懸念も拭いきれない。
この領域において、「データクラウド」を主軸とするアプローチで解決を図ろうとしているのがSnowflakeだ(図1)。「データやユーザーがどこに存在するかに関係なく、複数のパブリッククラウドにまたがって単一の“エクスペリエンス”を提供するのがデータクラウドです。具体的には、データを統合し、ガバナンスの効いた状態で安全に共有し、多様な分析ワークロードを実行するプラットフォームのことを指し示します」──。こう話すのは、Snowflakeの松下正之氏(第一セールスエンジニアリング本部長)だ。
拡大画像表示
データクラウドを実現するのが「Snowflake」だ。AWS/Azure/Google Cloudの各クラウドプラットフォーム上で実行されるSaaSとして提供され、マルチクラウド・マルチリージョン環境で動作させることも可能となっており、国内にもサービスを提供しているクラウドリージョン(AWS東京リージョンとAzure東日本リージョン)がある。
データを物理的にコピーすることなくライブデータを共有して活用できる
データクラウドを実現する上での技術面でのポイントは、大きく2つある。1つは、性能や容量を事実上無制限に拡張できる仕掛けである(図2)。もう1つは、物理的に組織間・システム間でデータをコピーすることなく、複数の組織がそれぞれのライブデータを瞬時に共有し合える仕組みである。
拡大画像表示
性能や容量を事実上無制限に拡張させるために、データを格納するストレージと、クエリーを実行するコンピュートリソース(仮想ウェアハウス)を独立したリソースとして分離。負荷の状況に合わせてそれぞれを自在に拡張できるようになっている。データをストレージで一元管理しながら、アプリケーション単位でサーバーを作成するという使い方ができるのだ。「例えば、ETL(抽出/変換/登録)処理用のコンピュートリソースやBI(ビジネスインテリジェンス)用のコンピュートリソースなどを自由に立てられ、負荷に合わせて自動で増やしたり減らしたりできる柔軟性や弾力性が評価されています」と松下氏は話す。
物理的にデータをコピーすることなく、それぞれの組織が持つライブデータを瞬時に共有できる点は、Snowflakeの大きな特徴であり、その中核をなすのが「SNOWGRID」だ(図3)。データは常に1カ所にあり、複製は存在しない。このデータに対して直接クエリーを投げて利用できる。オリジナルのデータに更新がかかった場合も、データを共有しているユーザーは、更新後のデータにそのままアクセスできる。
拡大画像表示
従来、部門間やグループ会社間でデータを共有するためには、データのコピーを作成し、CSV(カンマ区切り形式)ファイル形式でFTPで転送したりしていた。このため、データを生成してから活用するまでに遅れが生じていたほか、データの管理と維持にコストがかかっていた。また、データの移動後に安全性が確保されないといった問題も抱えていた。これらを、すべて解消するものとしてSnowflakeに期待と注目が集まっているわけだ。
データの共有を促進、第三者データのマーケットプレイスも
最近では、Snowflakeを介した「データコラボレーション」の促進にも力を注いでいる。部門間やグループ企業間、さらには取引先、ゆくゆくは第三者との間でデータを共有し、そこから新たな価値を創出していこうという発想であり、その場としてSnowflakeが十分に機能するように強化や拡充を図っている。「組織を超えたデータ接続がもたらす年間利益の予測値は約300兆円に達するとの調査結果もあり、データコラボレーションの可能性は今後ますます高まることが見込まれます」(松下氏)。
データを中心とした新たなビジネスエコシステムの形成──。それを例えば製造業で考えるなら、まずは自社グループ内で、ERPやCRMのデータ、工場オペレーションやIoTなどのデータを共有する。次に、部品のサプライヤーや製造パートナー、物流業者、製品の納品先(顧客)とのデータ共有へと範囲を広げる。さらに進めて、電力をはじめとするエネルギー市場や気象情報、COVID-19関連情報など、マーケットから入手し得るサードパーティーのデータを積極的に活用することが考えられる。こうして、社内外のデータを縦横無尽に掛け合わせることによって、洞察や知見、つまりは新たなビジネス価値へとつなげようとの試みである。
そのコラボレーションのプラットフォームとして機能するのがSnowflakeだ(図4)。AWS/Azure/Google Cloudの各クラウドプラットフォームやリージョンをまたがったデータ基盤を構築可能であることは先に述べた通り。Snowflakeのユーザー同士であればデータの共有は容易だし、相手がSnowflakeのユーザーではない場合には、読み出し専用のアカウントを払い出して当該データにアクセスしてもらう仕組みを用意している。
拡大画像表示
第三者のデータを入手したり、あるいは自社のデータを公開したりするためにあるのがSnowflakeマーケットプレイスである(図5)。目下のところ、18種類のカテゴリ、200社以上のデータプロバイダが1,200種類以上のデータを公開(https://www.snowflake.com/data-marketplace/?lang=ja)。ユーザーは、有償/無償のデータに直接クエリーを投げて利用できる。データに更新があった場合もリアルタイムに最新のものが利用可能だ。日本では、気象情報関連ビジネスを手掛けるウェザーニューズ(千葉県千葉市)が、Snowflakeマーケットプレイスにデータを提供している。
拡大画像表示
今後はSQLだけでなくJavaやPythonでもデータを活用可能に
Snowflakeの機能強化の方向性として「データ管理者やアプリケーション開発者など利用者の垣根を取り払っていくのが一つのトピック」と松下氏は話す。具体的には、SQLだけではなくPythonなどのプログラミング言語でSnowflake上のデータを活用するための仕組み「Snowpark」を用意しており、現在はプレビュー版という位置づけにある。
Snowflake上で動作するアプリケーションを、使い慣れた開発言語で開発できる環境であり、現時点では、Java、Scala、Pythonの3つの言語に対応。利用言語が異なる複数のユーザーが、同じデータを対象に共同作業しやすくなり、データを処理するにあたっては、Snowflake上のデータをわざわざ外部にコピーしたり移動したりする必要がなくなるのが利点だ。
ほかにもデータの高度な利活用に向けて、機能の強化や拡張を続けていく。「ウェザーニューズに続いて、自社データを積極的に世の中に流通させていこうという動きが国内でも広がってくることが見込まれます。これからは、データの潜在的な価値に気づいて様々なアクションを起こしていく企業と、いつまでも静観を決め込む企業との差が益々広がっていくことでしょう。Snowflakeは、先駆者のチャレンジをさらに加速させられるように進化と深化を図っていきます」(松下氏)と力強く語り、取材を締めくくった。
●お問い合わせ先
Snowflake株式会社
メールアドレス:event-japan@snowflake.com
WEB:https://www.snowflake.com/?lang=ja