データマネジメント データマネジメント記事一覧へ

[データマネジメント2022]

データウェアハウスとデータレイクの利点を組み合わせた次世代のデータ基盤「レイクハウス」の実力

2022年4月18日(月)

経営環境の変化が激しさを増す中、競争力の強化やイノベーションの加速を実現するため、AIを活用した未来志向のデータ分析の重要性が高まっている。データやAIの潜在能力を引き出すためには、社内外のあらゆるタイプのデータを活用することが必須である。しかし、これまでのデータ基盤で、これを実現しようとすると、アーキテクチャが複雑化し、コストの増大、生産性の低下、セキュリティやガバナンスの低下などの課題に直面していた。「データマネジメント2022」のセッションに、データブリックス・ジャパンの岡本智史氏が登壇。打開に向けたアプローチを提示した。

AIで広がるデータの構造/非構造を問わない解析活動

 これまで、企業におけるデータ基盤といえば、「DWH(データウェアハウス)」が主流であり、営業/マーケティングやCRMなどの構造データを管理していた。一方で、ビッグデータの到来により、大規模、かつ非構造データ(テキスト、画像、動画、音声、XML/JASON等)の活用が注目され、比較的安価で柔軟性の高いデータレイクの構築が進み、DWHとデータレイクはそれぞれ独自に発展していった。

 市場の不確実性の高まりとデータによるボーダレスな企業間競争の激化により、今日では、あらゆる企業や組織において、データとAIの活用は最重要事項の1つとなっている。このような背景をうけて、DWHによって行ってきた過去事象の分析に加え、データレイクの活用に行ってきた未来の予測、双方を効率的、効果的に行うことが求められ、これを実現する次世代のデータ基盤アーキテクチャが「レイクハウス」である。

 データブリックス・ジャパンのマーケティング本部で本部長を務める岡本智史氏は、「DWHでの従来からの分析は、データで過去を振り返って得られる、いわば“後知恵”を得るためのものです。しかし、世界的なパンデミックや米中貿易摩擦など、過去に類例のない状況に直面する中にあって、未来を予測し、最善の対応につなげる “先見の明”を獲得する動きがいよいよ現実のものとなりつつあります。その原動力こそAIによる画像やセンサーデータなどの非構造データやリアルタイムデータの活用にほかなりません」と強調する。

データブリックス・ジャパン マーケティング本部 本部長 岡本智史氏

“データ”と“プロセス”のサイロ化がAI活用のネックに

 岡本氏が一例として挙げたのが、スターバックス社の需要予測の取り組みだ。同社では、データ活用に必要なデータの準備を行うデータエンジニアと、AIモデルの設計を担うデータサイエンティスト、モデルの効果測定を行うデータアナリストがタッグを組み、AIによる予測モデルの継続的な開発と見直しに現在進行形で取り組んでいる。そこでは、店舗や商品、日次レベルでの需要予測の精度向上のために、CRM/マーケティングデータや取引履歴、パートナーデータのほか、ソーシャルや店舗内の画像など、DWHが不得意なデータ利用が進められているという。

 こうした中、一躍脚光を浴びているのが次世代のデータ基盤アーキテクチャであるレイクハウスである。具体的には、データレイクの強み(幅広いデータ種別に対応、幅広い言語に対応、高い拡張性)を維持しつつ、データウェアハウスの強み(高い信頼性、高い性能)を提供する。レイクハウスは、いわば両者の良いとこ取りをしたものと言える。

 レイクハウスの登場の背景にあるのは、AI活用の本格化に伴い浮上することになった各種課題だ。データ形式などが異なることで保存先が分散していることによる「データのサイロ化」や、データエンジニアリングやデータサイエンス、BIなど、業務ごとに扱うツールが異なることでの「プロセスのサイロ化」などが代表だ。

 「AIによるデータ分析の機運が盛り上がる一方で、データのサイロ化が一元的なデータ管理/分析を困難にさせています。加えて、業務ごとにシステム構成やツール、さらに使用言語の違いから業務が完全に分断され、そのことも作業から効率性を削いでいます」(岡本氏)。

データとプロセスのサイロ化がAI分析の効率性を削ぐ
拡大画像表示

レイクハウスでサイロ化を打破する新時代のデータ基盤

 AIによるデータ分析が広がる中、いずれの企業もこの状況に程度の差はあれ直面しつつあるが、「データに多大な投資を続け、大量のエンジニアを抱え、相応のノウハウを蓄えた企業でなければその対応は難しいと言わざるを得ません」と岡本氏。それらの条件を満たす企業は全体の1%未満だという。

 こうした状況下、クラウド型の統合データ分析基盤である「レイクハウス・プラットフォーム」を武器に、残る99%以上の企業での対応支援にいち早く取り組んできたのが、カリフォルニア大学バークレー校の研究者によって立ち上げられたデータブリックスだ。すでに同製品の採用企業は数多く、国内でも日本経済新聞社、オムロン ヘルスケア、ソフトバンク、田辺三菱製薬、CCCマーケティングなどのユーザーが名を連ねる。

 データブリックスのレイクハウス・プラットフォームの一番の特徴が、レイクハウスの特徴である構造化/非構造の両データを格納でき、併せてSQL分析やデータサイエンス、機械学習などのあらゆるデータアプリケーションの利用が、SaaSライクに実現できる点だ。また、プラットフォーム自体は、オープンかつマルチクラウド対応であるため、ベンダーロックインや、特定のクラウドベンダーへの依存を避けることも可能だ。データとプロセスのサイロの解消に大いに活用を見込めたうえで、データとAIのポテンシャルを最大限に引き出すことができるのだ。

 それを支えるのが、レイクハウス・プラットフォームの4層の論理構成だ。ここでは便宜的に最下層とするが、そこにはMicrosoft AzureやAmazon Web Service、Google Cloud Platformなどによる「Cloud Data Lake」を配備。その上には高い信頼性とパフォーマンスを確保するための「Delta Lake」が乗り、「Unity Catalog」がAI分析での粒度の細かなガバナンスを実現する。これらでウェアハウスからエンジニアリング、ストリーミング、サイエンス/機械学習などのあらゆるデータアプリケーションに対応したパイプラインの迅速整備を可能にしているのだ。

 「レイクハウス・プラットフォームの特徴は、『シンプル』『オープン』『マルチクラウド』の3つです。AIプロジェクトの成功には、多種多様なデータ、言語、プロセスを組み合わせる必要がありますが、その全ての要件をシングルプラットフォームで対応できます。また、変化の激しいデータ&AIの分野において、基盤はオープンであることは非常に重要です。これからの時代は、いかにベンダーロックインを避け、そのときどきに必要なbest of breeds(各分野におけるベストな選択)を採用可能な柔軟性が鍵となります。その上では、マルチクラウド対応であることは、次世代データ基盤の必須要件と考えています」(岡本氏)。

レイクハウス・プラットフォームはCloud Data Lake、Delta Lake、Unity Catalog、AIによる統合分析環境の4層から成る

ユースケースのサンプルや機械学習モデルを無償提供

 もっとも、AIでのデータ活用にはシステム面以外にも課題は残されている。中でも多くの企業を悩ませているのがデータ/AI人材の不足だ。その解消に向けた取り組みにもデータブリックスはすでに着手している。その1つが世界中のAIプロジェクトのベストプラクティスを濃縮した「Databricks ソリューション・アクセラレータ」だ。ソリューション・アクセラレータではプログラムの1つとして、各ユースケースのサンプルデータと機械学習モデルを無償提供。スターバックスは需要予測に加え、商品のレコメンド、在庫管理、動体検知などにもAI活用を進めており、これらのユースケースに加え、合計約30のソリューション・アクセラレータを、無償で入手が可能だ。

Databricks ソリューション・アクセラレータでは、AIの各種ユースケースのサンプルデータや機械学習モデルを無償提供し、スタッフの知見獲得を支援する
拡大画像表示

 人材育成を狙いとしたプログラムも用意されている。そこでは世界のユースケースを参考にどんな課題をAIとデータでどう解消したのかを学んだうえで、各種問題の解消方法を探っていく。

 「AIデータプロジェクトではビジネス側とテクノロジ側の混成チームにより、自社業務の知識をテクノロジに落とし込む活動が不可欠になります。そのための知識を広範に、しかも自分事として学べる点が高く評価されています」(岡本氏)。

 一方で、データやAIは新しい業務分野であるため、業務内容がイメージしにくいのは否めない。その点について、データブリックスでは各業務の内容や付随する課題を紹介する漫画形式の資料を用意。目を通すことで、データブリックスが各業務における課題をどう支援するのかも理解できるようになっているという。

 国内でも徐々に、しかし着実に本格化しつつあるデータ&AIの活用。活動を軌道に乗せるうえでデータブリックスは“技術”と“人”の両面で企業の右腕となるはずだ。


●お問い合わせ先

データブリックス・ジャパン株式会社
TEL:03-6821-1670
Email:marketing-jp@databricks.com
URL: https://databricks.com/jp/

バックナンバー
データマネジメント2022一覧へ
関連記事

Special

-PR-

データウェアハウスとデータレイクの利点を組み合わせた次世代のデータ基盤「レイクハウス」の実力経営環境の変化が激しさを増す中、競争力の強化やイノベーションの加速を実現するため、AIを活用した未来志向のデータ分析の重要性が高まっている。データやAIの潜在能力を引き出すためには、社内外のあらゆるタイプのデータを活用することが必須である。しかし、これまでのデータ基盤で、これを実現しようとすると、アーキテクチャが複雑化し、コストの増大、生産性の低下、セキュリティやガバナンスの低下などの課題に直面していた。「データマネジメント2022」のセッションに、データブリックス・ジャパンの岡本智史氏が登壇。打開に向けたアプローチを提示した。

PAGE TOP