分析対象となるデータの増加に伴い、DWH製品はパフォーマンス向上に拍車をかけている。 そこには分散処理やデータ圧縮、インメモリーやSSDの採用など、さまざまな工夫が見られる。 主要なDWH関連製品の処理を高速化する仕組みを中心に特徴をまとめた。
スピーディーで的確な意思決定を支えるBIシステムを具現化するにあたって、DWHにはよりシビアな処理性能が要求されるようになってきた。しかも、分析対象のデータ量は増加の一途をたどっている。そんな状況下、DWH関連のベンダー各社は、独自の工夫で性能アップにしのぎを削っている。
並列処理で性能向上を図るDWHアプライアンス
DWHに関し、このところ最もホットな話題の1つが、アプライアンス製品の急増だ。事前検証を済ませたハードとソフトを組み合わせて提供するというそれは、1つには短期導入を可能とするメリットをもたらした。さらに、そこには固有の技術力が結集されており、ギリギリまでチューニングされた環境を手に入れられるという側面も見逃せない。
主要なDWHアプライアンス製品を表5-1にまとめた。並列処理機構によって高速化やスケーラビリティを追求する動きは共通しつつも、そこに生かされている技術は各社各様だ。
日本オラクルの「Oracle Exadata Database Machine X2-8」は、汎用RDBをベースにしたアプライアンスだ。従来型のDWHの場合、ともするとストレージからDBサーバーにデータ転送する処理がボトルネックとなった。Exadataでは、40Gb/秒のInfinibandで接続することで帯域を確保するとともに、一部の処理をストレージ側に担わせることで転送データを削減。例えばテーブルをフル走査するような処理で効果を発揮する。さらにデータ圧縮も施すことでデータ転送に伴う性能劣化を防いでいる。
日本ネティーザの「TwinFin」は、最初からDWH用途に特化した独自のハードウェア処理機構を備えることで高速化を図っている。MPP(超並列処理)型で動作する検索ユニットに、ディスクから読み出した圧縮データの解凍や、列や行の絞り込み検索などを担う専用のFPGAを搭載するなどし、プロセサへの負担を減らすことで処理におけるボトルネックを解消する。
マイクロソフトが2011年2月に発表予定の「SQL Server Parallel Data Warehouse」は、同社が2008年に買収したDWHベンダー、データアレグロ社の技術を活かす。各ノードが専用ディスクを持つMPPの処理機構をCPUのコア単位に拡張した「ウルトラ・シェアドナッシング」と呼ぶ方式を採用。処理量に応じてI/Oやスループットが最適化され、結果的に高速化につながるとしている。
この分野では老舗と言える日本テラデータが2010年11月に発表したDWHアプライアンスは、3種のデータ圧縮機能を使い分け、ネットワークを流れるトラフィック量を減らす仕組みを備える。EMCジャパンが2010年12月に発表した「Greenplum Data Computing Appliance」は、大量のデータをロードする際、クラスタ内のすべてのサーバーでバランスを取りながら並列にロードする機能に特徴がある。
メモリー/SSD活用でディスクのボトルネック解消
メモリー上にデータを展開し、ハードディスクへのアクセスを回避することで処理遅延を解消する動きも活発だ。SAPジャパンが2010年12月に発表した「SAP High-Performance Analytic Appliance」はデータ圧縮技術を用い、実データの容量以上のデータをメモリー上に配置して高速処理する。NECの「データウェアハウス・ソリューション」もオラクルの「Oracle Database 11g」が備えるインメモリー技術を活用し、ディスクを用いた同等のDWHと比べて平均で9.6倍高速化する。
磁気ディスクの代わりにSSDを用いる製品も増えている。日本テラデータの「Teradata Solid State Extreme Performance Appliance 4600」は、SSDを採用して処理を高速化。磁気ディスクを用いる場合に比べて処理速度を最大18倍高められるという。日本IBMもSSDを搭載する「IBM Smart Analytics System 5600S」を投入済みだ。
テーブル構造を工夫しデータの圧縮率を向上
DWH向けのデータベースにおいても、レスポンス向上を図るために各種の工夫が盛り込まれている(表5-2)。フォーディーネットワークスの「4D DAM」は、データ抽出に伴うテーブル結合(JOIN)を繰り返すことで増加しがちな処理負荷を抑える仕組みを備える。「テーブルを結合する際、どのテーブルのデータを配置するのかを関数として定義しておくことでデータの重複を回避する。独自のテーブル構造を持つことで、他社製品のようにデータを圧縮することなくテーブルを軽量化できる」(専務取締役 西田泰弘氏)。
サイベースの「Sybase IQ」や日立ソリューションズの「EXASOL」、KSKソリューションズの「Infobright」はテーブルをロー単位ではなくカラム単位で保存する。不要なカラムを省くことでデータを軽量化。これがプロセサやメモリーの負担を減らし、パフォーマンス低下を防ぐ。
会員登録(無料)が必要です
- 1
- 2
- 次へ >