日立製作所は2019年10月2日、データを分析する際の準備作業である「データ前処理」をAIで効率化するサービス「Data Preparation Service」(データプレパレーションサービス)を発表した。データの前処理を支援する機能を提供するサーバーをユーザー企業のオンプレミス環境などに構築し、これをサービスとして課金して提供する。利用料金は個別見積もり。
日立製作所の「Data Preparation Service」は、データを分析する際の準備作業であるデータの前処理(プレパレーション)を支援するシステムサービス製品である。データの前処理を支援する機能群を提供するWebシステムをユーザー企業のオンプレミス環境や任意のクラウドサービス上などに構築し、これを課金型でサービスとして提供する(図1)。
拡大画像表示
これまで膨大な工数を要していたデータの整形・加工作業を高度化するのが狙い。熟練者が持つプログラミングや統計などのスキルやノウハウがなくても、高品質で効率的なデータの前処理を行えるようになる。前処理の作業負荷を軽減することで、本来時間と工数をかけるべき分析作業に集中できる。
製品提供の背景について同社は、IoTデータなど異種混合なデータをビジネスに活用するニーズの高まりを挙げる。「現場で生成するデータには項目の定義情報がないことなどから、データの活用にあたってデータ形式の統一や類似データの統合などの前処理が不可欠となっている」という。
データ前処理では、データの仕様を特定する「データ理解」と、仕様に基づいてクレンジングや統合を試行する「データ加工の検討・検証」のプロセスを繰り返し、データの品質を高めていく。こうして作成した前処理のロジックを、ETL(抽出/変換/登録)ツールで実行してデータを加工・変換する。Data Preparation Serviceでは、これらの作業を支援する。
まず、データ仕様の理解を助ける機能を提供する。データの項目名をAIで推測する機能、不要なデータや形式の統一・変換が必要なデータをグラフで可視化する機能、データ間の関連性を各データの特徴量から自動で判断し提案する機能、などを提供する。データの仕様や傾向を容易かつ高精度に把握できる。
さらに、データの加工方法を登録して共有する機能を提供する。これにより、前処理ロジックを検討・検証する作業を効率化する。 あらかじめ登録してある標準的なロジックに加えて、よく使われる汎用的なロジックや熟練者の専門ロジックをチームやプロジェクト内で効率的に共有できる。データ仕様の理解からロジックの検証までの一連の作業は、コーディング作業を必要とせず、GUI画面で容易に実行できる。
検討した前処理ロジックを任意のETLツールに連携させる機能も提供する。ETLツールに対してロジックを個別に実装する手間なく、データの前処理をETLで実行できる。これにより、データ理解から前処理ロジックの検証、実運用までをシームレスにつなぐことができる。