[技術解説]

次世代BIを支える5つの技術トレンド

「情報分析」と「行動」を直結させるBI Part3

2011年2月15日(火)平井 明夫

BIの世界は数年前、メガベンダーによる大手BIベンダーの買収というビジネス的な大変動の時期を経た。 その後、各社における製品統合やポートフォリオの再編が進み、いったん落ち着くかに見えたBIの世界だが、 ここへ来て技術面における大きな転機を迎えつつある。

1990年代後半、ITアーキテクチャがC/S型から3層型に移行したことは、BIシステムに大きな影響を及ぼした。C/S時代、BIの活用は社内の一部パワーユーザーにとどまっていた。しかし、インターネットの登場により3層型のITアーキテクチャが主流になると、状況は一変した。それまでは潜在的でしかなかった、「パワーユーザー以外のすべての企業内ユーザーにBIシステムの利用を拡大する」というニーズが、現実的になったのだ。

2011年、このとき以来の技術革新がBIを次のステージに導こうとしている。具体的には、「DWHアプライアンス」「OSS(オープン・ソース・ソフトウェア)」「オンメモリーDB」「データマイニング」「クラウド」である。以下で詳しく見ていこう。

[DWHアプライアンスとBI]
性能向上に2つのアプローチ

BIに大きな影響を与えている第1の技術は、DWHアプライアンスだ。DWHアプライアンスとは、ハードウェアとソフトウェアを一体化し、DWH用途向けに機能・性能を最適化した製品を指す。

DWHアプライアンスは、製品の構成によって大きく2つに分類できる。1つは、汎用的なRDBを特定のハードウェアと組み合わせ、DWH用途にチューニングして提供する製品だ。「Oracle Exadata」を例に、その仕組みを見てみよう。

DWHの性能を低下させる大きな原因の1つに、RDBとストレージ間におけるデータ転送量の増大がある。これを軽減するため、Exadataでは通常はRDBで実行される検索処理の一部を、ストレージ内で実行する。具体的には、テーブルの全件走査や結合など、大量のデータを対象とする処理だ。これにより、ストレージとRDB間でやりとりするデータ量が減少するため、DWHの性能低下を防げる。

DWHアプライアンスのもう1つのタイプは、ハードウェアだけでなく、RDB自体の機能そのものもDWH用途に限定した製品である。その代表例が、「Netezza TwinFin」だ。同製品を構成するのは、DWH専用の計算処理カードを搭載したブレードサーバー機(ストレージ・ユニット)とRDBである。これらはいずれも、DWH以外の用途での利用は考慮されていない。

NetezzaのRDBでは、テーブルに与えられた「分散キー」と呼ぶカラムの値によって、各サーバーに負荷が均等に分散するようにレコードが配置される。従って、多数のレコードを持つテーブルへのアクセスであっても、レコードの配置が適切であれば、サーバーの数に応じて並列処理を多重化できる。こうした仕組みにより、汎用的なRDBよりはるかに高速にクエリーを実行できる。

[OSSとBI]
コマーシャル版が本命

OSSを技術と呼ぶことには、少し違和感があるかも知れない。しかし、IT技術およびITアーキテクチャを語る上で、無視することのできないトレンドの1つであることは間違いない。

OSSはもともと、コミュニティと呼ぶボランティアの開発集団が品質や機能の向上を継続的に実施。誰でも最新の技術を無償で入手可能にするという思想から生まれたソフトウェアの流通形態である。OSSは、無償というメリットはあるものの、基本的には技術サポートを受けられない。このため、ユーザー企業にとってはなかなか手を出しにくかった。

そこで近年、注目を集めているのがコマーシャルOSSである。有償ではあるものの、従来のOSSにはなかった技術サポートを受けられる上に、一般の商用製品に比べてはるかに安く購入できるというメリットが受け、1つのマーケットを形成するに至っている。

コマーシャルOSSはこれまで、OSやアプリケーション・サーバーといった、汎用性が高い製品分野を中心にシェアを広げてきた。一方、BIの分野は用途が限定的でマーケットも狭いため、さほど大きな注目を集めてはいなかった。しかし、BIユーザーが増大傾向にある大企業や、これからBIを導入しようという中堅・中小企業の間で、低コストで安心して導入できるコマーシャルOSSへの関心が高まっている。この流れに呼応するように、商用のBIスイート製品と遜色ない機能を持つコマーシャルOSSが登場している。現在、日本で販売・サポートされている主なコマーシャルOSSのBIスイート製品を表3-1に示す。

表3-1 主なコマーシャルOSSのBIスイート製品
製品名 ベンダー 備考
Pentaho Open BI Suite Pentaho Webレポーティング機能は「Pentaho Reporting」として実装。ダッシュボード機能は、「Pentaho Dashboards」として実装
Jaspersoft BI Suite Professional Jaspersoft Webレポーティング機能は「JasperReports」として実装

[オンメモリーDBとBI]
DBをメモリー上に圧縮展開

オンメモリーDB(インメモリーDBとも呼ぶ)は、データベースをメモリー上に常駐させることにより、データ更新・検索速度を飛躍的に向上させる技術である。数年前に登場して以来、金融機関の勘定系システムなど、高速な更新処理を求められるシステムに採用されてきた。近年、このオンメモリーDB技術を利用したBI製品が出そろいつつある。

その端緒となったのが、「QlikView」だ。QlikViewはスウェーデンのQlikTech Internationalが開発したオンメモリーDB製品。高速なOLAP分析と、独自の分析インタフェースが特徴である。QlikViewの場合、分析のソースとなるデータを読み込む際に、多次元データベースのディメンションとメジャーにあたる項目を指定してデータベースを作成。サーバー上のメモリーに展開する。この時、データ圧縮も同時に実施する。高速なメモリーアクセスとデータ圧縮の双方の効果により、OLAP分析の性能を向上できる。

2010年6月に販売開始した「Microsoft Office 2010」も、同様の機能を盛り込んでいる。 Excel 2010のアドインである「PowerPivot」である。PowerPivotを使用すると、サーバー上にあるSQL Server(など各種のデータソース)に格納されているソースデータから、クライアントPC上にオンメモリー型の多次元データベースを作成。Excel2010のピボットテーブル機能を使用して、OLAP分析を実施できる。

[データマイニングとBI]
RDBにアルゴリズムを実装

データマイニングとは、大量のデータから、目に見えない関連性や傾向を見つけ出すための技術である。これまで、医療分野において「患者の属性データから病気の発生原因となる要素を発見する」、製造分野においては「工場で部品の故障データから不良の原因となる要素を発見する」といった用途に利用されてきた。このほか、小売業者が「ある商品を購入する際、他にどのような商品を購入する確率が高いか」を分析するバスケット分析に利用するケースも多い。

データマイニングで関連性や傾向を見つけ出すために使用する手法をアルゴリズムと呼ぶ。例えば、バスケット分析では「アソシエーション・ルール」と呼ぶアルゴリズムを使用する。アソシエーション・ルールは、ある事象が発生した場合に、別の事象が同時に発生する確率を計算するアルゴリズムだ。このアルゴリズムにより、例えば「商品Aを購入した顧客の70%が、同時に商品Bを購入する」といった確率を算出できる。

こうしたアルゴリズムの実行エンジンは通常、データマイニング専用のソフトウェアとして提供されてきた。近年、この実行エンジンをDWHに統合する動きが活発化している。BIシステムの背後にあるDWHを、データマイニングのソースデータとして共有しようというわけだ。こうしたRDB統合型データマイニング製品には、日本オラクルの「Oracle Datamining」やマイクロソフトの「Analysis Services」がある。

この記事の続きをお読みいただくには、
会員登録(無料)が必要です
  • 1
  • 2
関連キーワード

BI / アナリティクス / DWH / データマイニング / PaaS / Hadoop / SQL Server / RDBMS / BigQuery / インメモリー

関連記事

トピックス

[Sponsored]

次世代BIを支える5つの技術トレンドBIの世界は数年前、メガベンダーによる大手BIベンダーの買収というビジネス的な大変動の時期を経た。 その後、各社における製品統合やポートフォリオの再編が進み、いったん落ち着くかに見えたBIの世界だが、 ここへ来て技術面における大きな転機を迎えつつある。

PAGE TOP