データマネジメント データマネジメント記事一覧へ

[技術解説]

名寄せ、マスターデータ統合、モデリング─充実するデータマネジメントツール/サービス

今こそ実践!データマネジメント Part5

2010年11月16日(火)鳥越 武史(IT Leaders編集部)

データマネジメントで必要となる作業や検討すべき項目は多岐にわたるが、特に注目すべきはデータの品質の維持管理だ。データの現状を把握したり、保有するデータをきれいにする際の作業負荷軽減を目的に、各ベンダーは支援ツールを充実させている。品質管理に関するコンサルティングやアウトソーシングサービスと併せ、現状をまとめる。

現状把握や名寄せなどを効率化、ツールとサービスの選択肢広がる

 データ品質維持に有効なツールのうち代表なものは、(1)「データプロファイリング」、(2)「データクレンジング・名寄せ」、(3)「マスターデータ統合」、(4)「データモデリング」の4つだ。「データ品質の維持管理にかかる時間やコストの削減を目的に、ツールを利用するユーザー企業は確実に増えてきている」(日本IBMの中林 紀彦テクノロジー・エバンジェリスト)。以下、それぞれの製品について見ていこう。

1. データプロファイリング
分散データの現状を把握、メタデータ管理の統合進む

データプロファイリングツールは、データの現状把握を支援するツールである。オープン化の進展でシステムが企業内に分散した結果、全体像が見えにくくなったデータの現状を可視化し、効率的に把握するのに役立つ。データベース管理システムなどからデータを取り込み、データに含まれる値の最大値・最小値や、値が存在しないことを示す「NULL値」の存在率などを集計する。分析結果はグラフや表で視覚的に把握できる(図5-1)。

図5-1 データプロファイリングツールは、データに含まれる不適切な値の含有率などの分析を効率化できる
(写真はアグレックスの「TS Discovery」)
図5-1 データプロファイリングツールは、データに含まれる不適切な値の含有率などの分析を効率化できる

最近では、データの各項目の意味や、どのシステムで生成されたか、どのシステムで加工されたかなど、データに関する情報を管理する「メタデータ管理」機能を統合させる動きが活発だ。SAPジャパンは2011年初頭に、同社のデータプロファイリングツール「SAP BusinessObjects Data Insight」とメタデータ管理製品を統合した「Information Steward(仮称)」という製品を出荷予定だ。「変更履歴まで含めて、データの現状を把握したいというユーザー企業の声の高まりに応えた」(山澤 雅史グループリーダー)。日本IBMやTalendのツールもメタデータ管理機能を含む。

2. データクレンジング・名寄せ
標準化や同一データの特定、辞書内容や手法に個性

データクレンジング・名寄せツールは、データの表記の統一や標準化、類似データの突き合わせなどを自動実行する。「2100年1月1日生まれ」といった未来日付の生年月日や、存在しない会社名など明らかに間違ったデータを除いたり、同じ人物と見られる複数の顧客データに同一のIDを付与したりといった機能を持つ。

仕組みはクレンジングと名寄せの2段階に分かれる(図5-2)。クレンジングでは、各データの表記の統一や内容の修正・補完を実施し、データに含まれるゴミを取り除くする。住所や人名・企業名に対しては辞書を活用し、例えば省略された市区町村名を、都道府県名と大字名を基に補完する、といった処理を実行する。一方の名寄せは、事前設定したルールに基づいて同じデータを特定し、同一のIDを付与する。「名前は一致しているが、住所の一部が一致していない」など、システムでの判別が難しいものは目視での確認が必要になる。

図5-2 クレンジング・名寄せツールの仕組み。クレンジングによりデータを標準化したのち、事前設定したルールに基づいて同一データを判定する(イメージをクリックで拡大)
クレンジング・名寄せツールの仕組み。クレンジングによりデータを標準化したのち、事前設定したルールに基づいて同一データを判定する

富士通、NTTデータ、アグレックスなどは、クレンジングにおける日本語辞書の充実に力を注ぐ。「特に顧客情報のクレンジングの精度は、住所や人名に関する辞書データの充実度に左右される」(富士通の安永 尚稔プロジェクト部長)からだ。例えばアグレックスの「TS Quality(トリリアム)」に採用している住所名データベース「ADDRESS」は、1975年から現在までのすべての日本の住所名や、京都で利用される住所の通称名などを網羅している。一方、名寄せの処理方法の工夫で精度向上を図るのが日本IBMの「IBM InfoSphere QualityStage」。単語の発生頻度や、データ項目の正確性を考慮して重み付けして名寄せできる。

3. マスターデータ統合
マスターデータを一元管理、新規参入で製品は多様化

マスターデータ統合ツールは、複数のシステムが持つマスターデータを連携させたり集中管理したりするツール。分散した個々のシステムのマスターデータの一貫性を確保するのに役立つ。専用のマスターデータベースにすべてのマスターを集約したり、任意の既存システムのマスターをリファレンスとし、各システムのマスターを連携させるといった手法で、複数のシステムに散在するマスターを統合管理する。

専業ベンダーの買収で、国内で入手できる製品の選択肢が増えてきたのが最近の動きだ。Talendが2010年1月に発表した「Talend MDM」は、2009年9月に買収した米Amalto Technologiesの製品を基にしたもの。インフォマティカ・ジャパンは、2010年2月に買収した米Siperianの製品を基にした「Informatica Multidomain MDM Hub」を販売している。

4. データモデリング
データの関連性を可視化、モデル抽出に脚光

データモデリングツールは、データの定義とデータ間の関係を示すER図によるデータモデルの設計支援機能を持ち、複数のデータの関連性を可視化できる(図5-3)。画面上のアイコンのクリックなどの操作でER図を作成できる。データベース管理システムと接続し、作成したER図からデータベースのテーブルやカラムといった要素に自動変換できるのが特徴だ。

図5-3 データモデリングツールは、マウスのクリックなどの操作でER図が作成できる
(写真はCA Technologiesの「CA ERwinData Modeler 」)
データモデリングツールは、マウスのクリックなどの操作でER図が作成できる

一方、既存データベースを基にしてER図を生成する「リバースエンジニアリング機能」も併せ持つ。「システム刷新時や、既存システム同士の連携時に必要なデータの関連性の把握を効率化できる」(日揮情報システムの橋迫 浩文重要ソリューション担当マネジャー)。データベース管理システムに接続してテーブルやビューを選択すると、データモデルを自動抽出する。

米CA Technologiesの「CA ERwin Data Modeler」(販売:日揮情報システム)など国内でもいくつかツールが販売されているが、基本機能は大きく変わらない。表で紹介したツールのほかにも、米Sybaseの「Sybase PowerDesigner」というツールが存在する。サイベース日本法人は国内での正式提供はしていないが、「希望に応じて英語版を提供」(末延 寿朗エンタープライズ営業部技術担当課長)している。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
関連キーワード

マスターデータ / 名寄せ / ETL / データモデリング

関連記事

Special

-PR-

名寄せ、マスターデータ統合、モデリング─充実するデータマネジメントツール/サービスデータマネジメントで必要となる作業や検討すべき項目は多岐にわたるが、特に注目すべきはデータの品質の維持管理だ。データの現状を把握したり、保有するデータをきれいにする際の作業負荷軽減を目的に、各ベンダーは支援ツールを充実させている。品質管理に関するコンサルティングやアウトソーシングサービスと併せ、現状をまとめる。

PAGE TOP