IoT時代のビッグデータ活用に求められるIT基盤像～「データを動かさない」ことが必須条件に

2018年10月26日(金)板垣輝広（マップアール・テクノロジーズ株式会社）

リスト

IoTの本格化やビジネスニーズの変化などにより、ビッグデータ活用は次の段階へと進んでいる。バッチ処理中心のみならずリアルタイム分析を求める声の高まりから構成技術もまた変化しつつあり、その文脈で注目を集めているのがデータレイクだ。製造業での事例を交えながら、構築上のポイントを解説する。

　「ビッグデータ」という言葉が登場してしばらく経ちました。データ活用高度化という観点では、キーワードがIoTやAIへと移りつつある今、ビッグデータが持つ意味や背景も次の段階へと進んでいます。現状を把握する前に、あらためてビッグデータとは何だったかを振り返ってみましょう。

　ビッグデータとは単にデータ容量が多いだけではなく、容量はさほど多くなくても件数（レコード数やメッセージ数）が膨大なケース、種類が多岐にわたるケースなどを含みます。既存のデータ基盤では対応しきれなくなった上に、データを処理・活用するコストも肥大化傾向にあります。そうした意味では、データを巡る状況が「多面的に様変わりし続けている状態」がビッグデータの本質であると捉えることもできます。

　例えばデータ件数。データ総量はさほど多くないとしても、件数（レコード数）が多いと従来のリレーショナルデータベース（RDB）では検索はおろか集計処理すら困難となる場面が出てきました。

　IoTの取り組みを本格化させようとしたある製造工場では、年間に発生するデータ件数が最大で約1600億件にも達することが判明。通常のRDBでの処理が非現実的なことから、RDBを内包し専用ハードウェアで高速化したデータウェアハウス（DWH）アプライアンスで対応することを検討したものの、その年間コストが3億5000万円に膨らむとの算定から二の足を踏むこととなりました。新システムでデータ活用が進み、歩留まりを高めてコストを削減できたとしても、この金額ではおいそれと投資に踏み切ることができないのです。

ビッグデータからデータレイクへの流れ

　ビッグデータ活用の黎明期には、分析用のデータベースにデータを集約して分析する方法が採られました。業務のトランザクションはRDBで担い、分析に使うデータは変換処理などを経てDWH（基本テクノロジはRDB）に蓄積。各種分析用アプリケーションからアクセスして、レポート作成などをしていたのです。ETL（Extract/ Transformation/Load）やデータ移動など多くのバッチ処理も行われていました。

　しかしながら、このデータ移動はビッグデータでは禁じ手と言われ始めたのです。テラバイト (TB）やペタバイト (PB）といった単位のデータを扱うとなれば、ネットワークで転送するのは実質的に不可能。できる限りデータは移動させないことが、ビッグデータを処理する上での重要なポイントとして認識されるようになりました。

　従来型の分析システムでは、データ量の増大に対してディスク容量増加などスケールアップ型のアプローチが一般的。もっとも、ディスクI/Oのパフォーマンスには限界があり、CPUを使い切れません。そこでI/Oの高速化にSSDを利用しますが、今度は「分散化したデータをいかに統合的に扱うか」「CPUやメモリーなどをどう同時にスケールさせるか」といった別の課題が生じてきます。スケールアップ型の考え方ではどうしてもリソースにハードウェアの上限が出てしまい、そしてビッグデータはその上限を遙かに超える容量や数となってしまう時代を迎えたのです。

　こうした背景から、データ基盤として新たに注目を集めるようになったのが「データレイク」であり、核となるテクノロジはHadoopを利用した並列分散の環境です。x86サーバー上で動作するためCPUもメモリーも備わり、ノードを増やせばディスクもCPU、メモリーも増えるスケールアウト型。ディスクI/Oの分散によるパフォーマンス向上も期待できます。

　さらに、前述の「データを動かさない」という点においても、データがあるところで処理も行われるため、従来型のETLではなく、データ移動を極力伴わない「ELT（Extract/Load/Transformation）型となっているのがポイントです。