データマネジメント データマネジメント記事一覧へ

[インタビュー]

「データファブリック」「データメッシュ」とは何か? データ統合の最前線を専門家に聞く

米ガートナー ディスティングイッシュトVP アナリスト マーク・ベイヤー氏

2023年4月24日(月)田口 潤(IT Leaders編集部)

「データファブリック」「データメッシュ」「データレイクハウス」…データマネジメントの分野でいくつか新しいキーワードが登場している。海外で普及し始めたこれらの概念・技術は、この分野でのユーザーの取り組みをどう変えていくのか。データファブリックを提唱した、米ガートナー(Gartner)ディスティングイッシュト バイス プレジデントでアナリストのマーク・ベイヤー(Mark Beyer)氏に聞いた。

 データ仮想化の技術やツールが一般的になる中、「データファブリック」「データメッシュ」のような新たな概念・技術が登場している。ほかに“データレイクハウス”もある。現時点では外資系のデータ関連ツールベンダーによる言葉が先行し、概念や意義、利点はそれほど知られているわけではない。はたしてこれらは単なるバズワードか、遅い早いは別にして取り組む必要があるものなのか。海外では、どの程度普及しているのか。

 なかでも気になっていたのが「データファブリック」だ。縦横の糸が織りなすファブリック(fabric)に比喩をとり、「企業内外に散在するさまざまなデータを所在や格納方法、形式などを抽象化して統合。利用者は形式などを意識せずに必要なデータにアクセスできるようにするもの」である。こう書くと分かりにくいが、米ガートナーの調査レポート「Understand the Role of Data Fabric」では、図1のイメージ図が示されている。

図1:データファブリックのイメージ(出典:ガートナー)
拡大画像表示

 この図で理屈は理解できても、どうやって実装されるのか。何らかのツールがあるのだろうか。そう思っていたところに、ガートナージャパンが2023年4月4~6日に開催した「ガートナー データ&アナリティクス サミット 2023」での講演のため、この分野の専門家である米ガートナー ディスティングイッシュト バイスプレジデント アナリストのマーク・ベイヤー(Mark Beyer)氏が来日した(写真1)。

 ガートナージャパンによると、ベイヤー氏はデータファブリックを提唱した人物だという。そこで同氏にインタビューし、あれこれ聞いてみた。以下、一問一答形式でお届けする。

写真1:米ガートナー ディスティングイッシュト バイスプレジデントのマーク・ベイヤー氏

データマネジメントの歴史から見る位置づけ

──データマネジメント分野では最近「データファブリック」「データメッシュ」といった言葉が聞こえるようになってきました。少し違いますが、「データレイクハウス」を標榜するソリューションもあります。しかし日本はデータ仮想化(バーチャライゼーション)への取り組みが増加している段階です。本日はデータファブリックやデータメッシュが登場してきた背景やニーズ、データ仮想化を含めた相互の位置づけ、技術要素や機能などについてお聞きします。

 歴史を辿りながらお話しましょう。1950年代は、すべてのトランザクションシステムは必要最小限のデータだけを生成して蓄積するという特徴がありました。コスト、それにパフォーマンスの問題があったからですね。これがずっと続いていて、現在もアプリケーションはなるべく小さく、最小限に抑えておく傾向があります。メンテナンスや改良を容易にする、コンポーザブルな形にシステムを再構成するためです。

 別の理由でも、過去も現在もトランザクションやオペレーションのシステムは、意図的に分散されてきました。しかし、それらは、より大きな1つのビジネスプロセスの一部であり、そのビジネスプロセスにデータはすべて入っているものということになります。これがデータ統合に対するニーズの根本にあります(図2)。データ統合のニーズは、ITの初期から現在に至るまでずっと存在しており、具体化する最初の試みが1990年代に広がったデータウェアハウス(DWH)やデータマートです。

図2:最高データ/アナリティクス責任者(CDAO)の優先課題(出典:ガートナー)
拡大画像表示

 2000年代半ばになるとCPUやメモリー、チャネルコネクション、ネットワーク、ストレージなどが高性能になり、コストも劇的に下がりました。統合したいデータ量や種類は増加し、データ仮想化や「セマンティック」といったアプローチも登場してきました。データを物理的に集めるのではなく、置いたままにして必要なときに参照するという考え方です。そこからデータメッシュ、データメッシュという考え方に発展していきます。

──今のお話に出てきたセマンティックなアプローチについてもう少し説明していただけますか。

 セマンティック(semantic:意味、語彙)は、データマネジメントやデータ統合ではとても重要な概念です。

 例えば英語で「ツリー(tree)」という言葉は1本の木を表します。では複数形の「ツリーズ(trees)」はどうでしょう。実はさまざまな解釈が可能です。3、4本の木が並んでいる様子、森、思考や考えが様々な形で枝分かれしている状態もツリーズです。言葉は同じでも複数の意味を持ちます。林業に携わる人なら、「ツリーズ=森」とすぐに理解します。理解するための文脈、背景、コンテキストがセマンティックです。

──ありがとうございます。本題に戻りましょう。

 データ仮想化とは、複数のデータスキーマを1つにまとめて、そしてタクソノミー(taxonomy:分類)化していくことです(図3)。つまり領域全体のデータを体系的に分類・秩序立てて整理するものです。例えば、自動車メーカーが製造するさまざまな車種に対し、エンジンや燃料タンクなどはそれぞれ別個に存在しますが、組み立ての工程のあるレイヤーで1つになるイメージです。

 データ仮想化も同様に、レイヤーで見たとき、1番下のレイヤーにデータソースがあって、その次にコンセプト、その上にプロセスが載る考え方になります。つまり、異なるデータソースへの直接的なコネクション、ゲートウェイがデータ仮想化です。

図3:データ仮想化の役割(出典:ガートナー)
拡大画像表示

 仮想化ツールの利用が広まり、企業はスタティスティックス(statistics:統計)を取得するようになりました。どのデータが利用されているか、あるデータと別のデータが組み合わされた頻度はどのくらいか、といった情報です。そこからフィジカルなパターンが見えてきます。見えてきたパターンのコピーをとっておけば効率的ですよね。

 もちろん同じ仮想化の中で、だれも同じ使い方をせず、パターンが存在しないデータもあります。データレイクにデータがあり、DWHにサマリーがあり、データ仮想化を通じてこれらのデータにアクセスします。こうした状況をより高度にするために、データファブリックやデータメッシュといった考え方が生まれてきます。

●Next:データファブリックやデータメッシュの海外での広がり、データレイクハウスの可能性

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
関連キーワード

Gartner / データ統合 / データファブリック / データレイクハウス / データメッシュ / DWH / データマート

関連記事

トピックス

[Sponsored]

「データファブリック」「データメッシュ」とは何か? データ統合の最前線を専門家に聞く「データファブリック」「データメッシュ」「データレイクハウス」…データマネジメントの分野でいくつか新しいキーワードが登場している。海外で普及し始めたこれらの概念・技術は、この分野でのユーザーの取り組みをどう変えていくのか。データファブリックを提唱した、米ガートナー(Gartner)ディスティングイッシュト バイス プレジデントでアナリストのマーク・ベイヤー(Mark Beyer)氏に聞いた。

PAGE TOP