DXの推進に向け、ビッグデータ分析におけるAI活用はもはや必須条件となっている。ただし、そこでの“壁”が、DWHとデータレイクによるデータの分断管理である。このままでは、データの扱いにくさに起因する活用コストの増大や生産性の低下などがAI利用の足枷となりかねない。3月9日に開催された「データマネジメント2023」のセッションでは、データブリックス・ジャパンの趙顕周氏が登壇し、打開に向けたアプローチを披露した。
ビッグデータの扱いにくさがAI活用の“足枷”に
1990年代からのERPの普及と、それに伴う各種業務データの整備により本格化した企業のデータ活用。その後のデータの種類と量の両面でのデータ急増を経て、現在、ビッグデータのAI活用はDXに必須の活動と位置づけられるまでになった。
ただし、AI活用で成果を挙げる日本企業は現段階でいまだ少数だ。データで何を実現するかが不明確な「戦略の欠如」や、人材育成やプロセス、文化の確立が困難なことに起因する「組織の未整備」などの問題が指摘されている。
その中にあって、「根本的な問題が、現状のデータ管理におけるビッグデータの扱いの厄介さです」と指摘するのは、データブリックス・ジャパン 営業本部 エンタープライズ営業部でチームリードを務める趙顕周氏だ。
根本的な原因はビッグデータの分断管理
現状、企業ではデータがいくつものデータの“器”で分断管理されている。データ活用を推進するなら、各種処理を容易に実施できるよう、そもそもデータを統合管理したほうが望ましい。そうなっていない原因の1つが、データ自体が意味を持つよう事前処理された「構造化データ」と、センサーデータや文書や音声などのデータ自体は意味を持たないローデータの「非構造化データ」に分類され、両者の特性の違いにより統合管理が困難なことだ。その中にあって、企業のデータ分析基盤は、業務システムなどが生成する構造化データの扱いを得意とするDWHの整備が先行し、大規模かつ非構造データであるビッグデータ活用のための、比較的安価で柔軟性の高いデータレイクの整備が後から進んできたという経緯がある。
この状況が、ビッグデータのAI活用に本来的にそぐわない。データレイクには構造化処理の手間がない分、鮮度の高いデータが蓄積されるため、AI分析での「未来予測」により力を発揮するとの考えがあるが、「過去に学ぶ」大切さも歴史が証明する。ビッグデータ活用では、多角的な社内データからの価値創出が本来的な腕の見せ所。すると、利用するデータは構造化/非構造化を問わないはずである。
しかし、DWHとデータレイクの分断により、データの探索難度は高くなり、分析前のELT処理の手間とコストも要す。とはいえ、機能や処理速度、コストなどを勘案すると、データのすべてを一方に寄せるのは現実的ではない(図1)。
拡大画像表示
データを問わない一元管理が可能な次世代基盤
組織の問題も厄介だという。
「AI活用が本格化する中、データエンジニアリングやデータサイエンス、BIなど、業務ごとの利用ツールの違いによりプロセスのサイロ化が進み、それが作業での効率低下を招いています」(趙氏)。
脚光を浴びる打開策が、データレイクの強み(幅広いデータ種別に対応、幅広い言語に対応、高い拡張性)を維持しつつ、DWHの強み(高い信頼性、高い性能)も提供する「レイクハウス」のコンセプトを具現化した、データブリックスの次世代データ基盤「レイクハウス・プラットフォーム」だ(図2)。
拡大画像表示
その一番の特徴は、データレイクとDWHの“良いとこどり”をしたデータ基盤により、構造化/非構造化を問わないデータの統合管理が実現することだ。保存先の分散による「データのサイロ化」に加え、業務ごとの「プロセスのサイロ化」といった問題も解消できる。
また、SQL分析やデータサイエンス、機械学習やELTなどの多様なデータアプリケーションをSaaS感覚で利用できる点もポイントだ。従来からのAI用データ基盤であるデータレイクには、すでに述べたデータの正規化や標準化などの処理の不足から、データの品質確保用に追加のソフトウェア調達が求められた。また、AIモデルの完成後にはアプリとしての実装や運用監視のために、別途の機能の作り込みが必要だったが、SaaS感覚での機能追加により、ソフトウェアや機能調達の手間とコストを大きく抑えられる。
DWHからのリプレースで総コストを5分の1に
趙氏によると、AIやBIなどのデータ活用環境も、リソース最適化のためのクラウドシフトが急速に進んでいるというが、それらへの対応も容易だという。レイクハウス・プラットフォームの論理構成をみると、Microsoft AzureやAmazon Web Service、Google Cloud Platformなどによる「Cloud Data Lake」を配備。「Delta Lake」で信頼性とパフォーマンスを確保するとともに、「Unity Catalog」がAI分析での粒度の細かなガバナンスを実現する。
「レイクハウス・プラットフォームは本質的に極めてクラウドライクです。AIプロジェクトでは多様な技術や機能が必要となりますが、提供するいずれもがオープン技術を用いており、ブロックを組み上げる感覚でシンプルに利用できます。さらに、ウェアハウスからエンジニアリング、ストリーミング、サイエンス/機械学習などのあらゆるデータアプリケーションに対応したパイプラインの迅速な整備とともに、ガバナンスの仕組みによってパイプライン管理業務も大きく省力化できます」(趙氏)。
レイクハウス・プラットフォームですでに成果を上げているのが、北米のとあるメディア企業だ(図3)。同社では、膨大な視聴ログデータや動画配信ログなどを使ったレコメンドエンジン用DWHをレイクハウス・プラットフォームにリプレースすることで、最もコストを要していたETL処理の大幅なコスト削減を実現。最終的には総コストを5分の1にまで圧縮した。
「TPC-DSベンチマークでもレイクハウス・プラットフォームは従来のDWと比較し9割以上のコスト削減を実現しています」(趙氏)。
拡大画像表示
成功事例に基づくひな型がAI活用を後押し
レイクハウス・プラットフォームの活用を支援すべく、データブリックスでは多様な業界ごとのベストプラクティスを48種類のソリューションテンプレートに取りまとめて提供している。データ分析やAI活用は、どう実施すべきかの見極めに時間を要するのが常だが、導入後、即座に利用に乗り出せる。
「レガシー環境よりも細かな粒度での大規模予測が可能なこともレイクハウス・プラットフォームの特徴です。需要予測の向上率は平均で10%以上も向上しています」(趙氏)。
データとAIの活用が広がる中での先行の策として、データブリックスのレイクハウス・プラットフォームの存在感は今後、急速に増していくはずだ。
●お問い合わせ先
データブリックス・ジャパン株式会社
TEL:03-6821-1670
Email:marketing-jp@databricks.com
URL: https://databricks.com/jp/
- データマネジメント変革で直面する3つの壁の正しい乗り越え方(2023/05/23)
- “攻め”と“守り”を両立―AIとBI分析の要件を満たすストレージとは(2023/05/10)
- データ統合基盤の課題を解決する「論理データファブリック」のメリットとは(2023/05/01)
- 変化の激しい時代を乗り越えるためにはトップアプローチが重要、経営層が適切なデータ活用を行うためのコツ(2023/04/25)
- 製造業のデータ活用に活路を見出す正しい処方箋、原点回帰の4つのポイント(2023/04/24)