IoT時代のビッグデータ活用に求められるIT基盤像～「データを動かさない」ことが必須条件に

2018年10月26日(金)板垣輝広（マップアール・テクノロジーズ株式会社）

リスト

IoTの本格化やビジネスニーズの変化などにより、ビッグデータ活用は次の段階へと進んでいる。バッチ処理中心のみならずリアルタイム分析を求める声の高まりから構成技術もまた変化しつつあり、その文脈で注目を集めているのがデータレイクだ。製造業での事例を交えながら、構築上のポイントを解説する。

　「ビッグデータ」という言葉が登場してしばらく経ちました。データ活用高度化という観点では、キーワードがIoTやAIへと移りつつある今、ビッグデータが持つ意味や背景も次の段階へと進んでいます。現状を把握する前に、あらためてビッグデータとは何だったかを振り返ってみましょう。

　ビッグデータとは単にデータ容量が多いだけではなく、容量はさほど多くなくても件数（レコード数やメッセージ数）が膨大なケース、種類が多岐にわたるケースなどを含みます。既存のデータ基盤では対応しきれなくなった上に、データを処理・活用するコストも肥大化傾向にあります。そうした意味では、データを巡る状況が「多面的に様変わりし続けている状態」がビッグデータの本質であると捉えることもできます。

　例えばデータ件数。データ総量はさほど多くないとしても、件数（レコード数）が多いと従来のリレーショナルデータベース（RDB）では検索はおろか集計処理すら困難となる場面が出てきました。

　IoTの取り組みを本格化させようとしたある製造工場では、年間に発生するデータ件数が最大で約1600億件にも達することが判明。通常のRDBでの処理が非現実的なことから、RDBを内包し専用ハードウェアで高速化したデータウェアハウス（DWH）アプライアンスで対応することを検討したものの、その年間コストが3億5000万円に膨らむとの算定から二の足を踏むこととなりました。新システムでデータ活用が進み、歩留まりを高めてコストを削減できたとしても、この金額ではおいそれと投資に踏み切ることができないのです。

ビッグデータからデータレイクへの流れ

　ビッグデータ活用の黎明期には、分析用のデータベースにデータを集約して分析する方法が採られました。業務のトランザクションはRDBで担い、分析に使うデータは変換処理などを経てDWH（基本テクノロジはRDB）に蓄積。各種分析用アプリケーションからアクセスして、レポート作成などをしていたのです。ETL（Extract/ Transformation/Load）やデータ移動など多くのバッチ処理も行われていました。

　しかしながら、このデータ移動はビッグデータでは禁じ手と言われ始めたのです。テラバイト (TB）やペタバイト (PB）といった単位のデータを扱うとなれば、ネットワークで転送するのは実質的に不可能。できる限りデータは移動させないことが、ビッグデータを処理する上での重要なポイントとして認識されるようになりました。

　従来型の分析システムでは、データ量の増大に対してディスク容量増加などスケールアップ型のアプローチが一般的。もっとも、ディスクI/Oのパフォーマンスには限界があり、CPUを使い切れません。そこでI/Oの高速化にSSDを利用しますが、今度は「分散化したデータをいかに統合的に扱うか」「CPUやメモリーなどをどう同時にスケールさせるか」といった別の課題が生じてきます。スケールアップ型の考え方ではどうしてもリソースにハードウェアの上限が出てしまい、そしてビッグデータはその上限を遙かに超える容量や数となってしまう時代を迎えたのです。

　こうした背景から、データ基盤として新たに注目を集めるようになったのが「データレイク」であり、核となるテクノロジはHadoopを利用した並列分散の環境です。x86サーバー上で動作するためCPUもメモリーも備わり、ノードを増やせばディスクもCPU、メモリーも増えるスケールアウト型。ディスクI/Oの分散によるパフォーマンス向上も期待できます。

　さらに、前述の「データを動かさない」という点においても、データがあるところで処理も行われるため、従来型のETLではなく、データ移動を極力伴わない「ELT（Extract/Load/Transformation）型となっているのがポイントです。

効果を上げはじめたファクトリーIoT

　ビッグデータ、とりわけIoTに強い関心を示し、具体的な取り組みを始めている業界の一つが製造業です。ここで、製造現場でのニーズ（ファクトリーIoT）や課題について、実例を交えながら見ていきましょう。

　データドリブンの時代、日本の製造業はさらなる生産性や品質の向上が求められています。トレーサビリティや問題発生時のレポートといったシーンでは、元々他国の製造業とは比較にならない程に突き詰めてきた日本企業ですが、それでも、すでに絞りきったカラカラの雑巾から、さらに水を絞るような努力を続けている企業は少なくありません。

　一見、これ以上の最適化や生産性の向上は困難のように思えますが、全体最適の観点からはまだ改善の余地があるのです。工程やライン単位で見れば隙がないほど最適化が進んでいます。しかし最適化はそうした“部分”に閉じており、他との連携やフィードバックまでは詰め切れてはいません。

　あるディスクリート系工場の例を挙げましょう。各工程には「公差」と呼ばれる許容の誤差範囲があります。合格とされる最大寸法と最小寸法の差です。各工程では公差を厳守していたとしても、他の工場や工程と併せると、全体としては公差を超えてしまう場合があります。部分最適ができていても、全体最適まではできていなかったのです。これは製品全体の質に関わります。

　この工場では、ファクトリーIoT化によって公差をリアルタイムに把握。工程間でフィードバックして全体的での公差を達成したり、ロット単位で組み合わせを変更して基準内に収めたりといった施策で品質を担保しながらコストを下げることに成功しました。データレイクにリアルタイムで全データを統合することで全体最適化を図ったのです。製品の品質を高め、顧客満足度をも大きく向上させることに寄与しました。

　別の製造業のお客さまは、エネルギーコストの削減にIoTを適用して成果をあげています。通常、工場は大口電力の契約をしており、契約電力をオーバーすると翌年の電力コストが大幅に上がります。そこで実際に使用している電力をリアルタイムに可視化する仕組みを整えて、臨機応変に対策を打てるようにしたのです。ここで利用するデータはPLC（Programmable Logic Controller）から出る各エネルギーや圧力、時間といったログデータで、それらはバッチではなく、1メッセージずつの「ストリーム型」で取り込んで活用しています。

　これは、製造設備のエネルギー効率に照らして使い方を最適化する契機にもなりました。短時間に大きな電力で使う/長時間で少量の電力で使う/その両方をバランスさせる…どれが最も合理的かをデータに基づいて判断できるようになったのです。また予実データや実販売データとも合わせることで、コスト全体も鑑みた真の生産性の把握にも役立てています。

【次ページ】これからのデータ活用に求められる技術要素