データの数や量、生成頻度が高まったことで、これまで行ってきたデータ活用の施策が通用しにくくなってきた。そんななか「データパイプライン」と「反復的プロセス」に注目することを提案するのが日立製作所だ。3月7日に行われた「データマネジメント2018 ~データが拓く無限の可能性~」の中で、多種多様なビッグデータを統合し分析する重要性を説いた。
データ活用の反復的プロセスを実現する「データパイプライン」とは
「データ分析でいくつのデータソースをブレンドしているか?」。米国の調査機関Forester Researchが行った調査によると、この質問に対する最も多い回答は「50以上」で約52%を占めた。また「100以上」は34%、1000以上は12%にも達した。データ活用の重要性が増すなか、企業にはさまざまなデータソースが溢れかえっている状況を如実に示している。
日立製作所 営業統括本部 サービス営業推進本部 Pentahoプロジェクト室の門脇豪氏はまず、こうしたデータの数や量、生成頻度が高まることによって、本来データ活用で実施されるべき「反復的プロセス」が難しくなってきたと課題を解説した。
反復的プロセスを阻害する要因は、大きく3つある(図1)。
拡大画像表示
1つは、データのサイロ化だ。複数のシステムが散在し、所在不明なデータソースも存在する。システム間ではデータの意味定義や記述形式、更新タイミングが異なる。これらのデータを人力で統合しようとすると、不完全な統合データウェアハウスとなってしまう。
2つめは、ビッグデータに代表されるデータリッチ化への対応だ。非構造化データの管理には新しい技術が必要になる。ただ既存データとの統合アーキテクチャやデータのブレンディング方法を描くことは難しく、サイロ化したデータを残したまま取り組みを進めるわけにもいかない。
3つめは、多様化する現場の可視化・分析ニーズへの対応だ。売上データを分析するだけでなく、顧客属性や購買行動と関連づけて分析するなど新しいニーズは次々とでてくる。それらに素早く対応し、適切な可視化・分析を提供していく必要がある。
「こうした課題に対応するうえで有効なアプローチの1つになるのがデータパイプライン(図2)です。データパイプラインは、データのエンジニアリング、データの準備、データの分析という一連のワークフローを企業横断的に支援し、データ活用の反復的プロセスを実施しやすくします」(門脇氏)。
拡大画像表示
データ活用のフェーズには、データ取得、加工、ブレンディング、デリバリー、ディスカバリ&分析、分析&可視化などがある。また、これらをパイプラインのなかで一貫して管理していくためには、運用管理、セキュリティ、ライフサイクル管理、データ来歴トラッキング、ダイナミックデータパイプライン、監視、ジョブ自動化などを考慮することが重要だ。
こうしたデータパイプラインを実現するソリューションの1つが日立製作所の展開するオープンソースベースのビッグデータ統合&アナリティクス製品「Pentahoソフトウェア」だ。
多種多様なビッグデータを統合し、分析を行う「Pentahoソフトウェア」
Pentahoソフトウェアは2005年に米Pentaho Corporationによって開発されたソフトウェアだ。2010年にはApache Hadoop向けデータ統合・BIスイート製品を市場に投入。2015年の日立データシステムズ(HDS)による買収を経て、2017年9月にHDSと統合、現在はHitachi Vantara(日立ヴァンタラ社)としてPentahoソフトウェアの事業展開を行っている。
「Pentahoソフトウェアは、多種多様なビッグデータを統合し、分析を行うためのデータ統合・分析基盤です。データを抽出・準備・ブレンドする『データ統合基盤』、統合したデータを分析・可視化する『データ分析基盤』という2つの基盤を使って、データ統合から分析までの一貫した環境を提供することができます」(門脇氏)。
門脇氏によると、データパイプラインを整備・構築するためには、「柔軟性」「拡張性」「可用性」の3点がポイントになる(図3)。
拡大画像表示
具体的な機能要件としては、統合プラットフォームとして多様なデータタイプと接続できること、エンドユーザーがデータの変換・統合処理を直観的な操作かつコーディングレスで実行できること、ビッグデータとのブレンド、原資データから可視化・分析に至る管理の一貫性、アクセス管理・セキュリティ、クラウド対応などとなる。Pentahoソフトウェアを利用することで、こうしたポイントを押さえながら、具体的な機能要件を実行することが可能になる。
提供開始から10年超の実績を持つソフトウェアであるため、グローバル規模で多数のユーザーがいる。国内企業での利用実績としては、日立グループに財務・人事のシェアードサービスを提供する日立マネジメントパートナーがある。
同社では、源泉所得税納税額総括表作成など、毎月の帳票作成業務における業務担当者の作業負荷が課題だった。給与計算トータル表、手当計算トータル表、賞与計算トータル表など9帳票(約100ファイル/月)を、明細照会データやGLの残高データなどと照らし合わせながら、手作業で実施していた。そこで、Pentahoソフトウェアを使って、帳票生成にかかる作業の自動化に取り組んだ。この結果、毎月の作業工数を、150時間から30時間に短縮し、作業工数の80%以上を削減したという。
最後に門脇氏は「より有用な分析・洞察は、恒常的に繰り返される複数データソースのデータブレンディングにより獲得されます。進化と反復プロセスが重要です」とデータ活用の勘所を示し、講演を締めくくった。
●Pentahoソフトウェアに関するお問い合わせ先
TEL:0120-55-0504
(受付時間:平日9時~12時/13時~17時)
URL:http://www.hitachi.co.jp/products/it/bigdata/platform/pentaho/
- デジタルビジネス時代におけるデータマネジメントのあるべき姿(2018/04/25)
- クラウドファーストの実現・実践に向けてデータ基盤はこう構築せよ(2018/04/19)
- デジタル変革の実現に必須となるデータプラットフォームとプロセスの姿(2018/04/11)
- 再び脚光を集める「データHUB」──基盤構築のポイントは仮想データ統合にあり(2018/04/10)
- 基軸となるデータを見ずに何を見る? AIを始めとした過剰なツール信仰が招いたデータ活用の失敗例(2018/04/10)