大規模な構造化データと非構造化データを透過的に、同じような操作で分析可能にする--。日本テラデータは3月7日、こんなコンセプトの製品群を発表した。
Hadoopはデータ蓄積、分析をAsterで実行
一体どういうことか?UDAを理解する上ための鍵の1つが、非構造データをリレーショナル形式で管理しながら、MapReduce処理が可能という機能を備えるソフトウェアであるAsterだ。これによりHadoopに蓄積した大量の非構造データを取り込み、SQL形式のプログラムで分析する処理を並列実行できる。例えば大量のテキストデータから一定のパターンや頻出する用語を導出する場合、HadoopだとJavaでプログラムする必要があるが、AsterならSQLでできる。分析における技術的な敷居を下げられるわけだ。
UDAを理解するもう1つの鍵が、テラデータが主張し続けている「非構造という形式のデータは存在しない。多構造(Multi Structure)データと呼ぶのがが正しい」との考え方だ。実際、メールでも、ソーシャルへの投稿(テキスト)でも、あるいは画像でも、検索や分析の手がかりとなる何らかの構造を持つ。その構造を利用することで、同等の方法で分析可能になる--こんな考えがUDAの背景にある。
当然、Asterによる分析結果やHadoopで管理するデータをTearadataに取り込みたいケースも、あり得る。そこで同社は3つの基盤をまたがったデータ移動を行う一連のソフト、「Aster-Hadoop Adapter」「Aster-Teradata Adapter」「Teradata Connector for Hadoop」を用意。すべてのデータ基盤を統合管理する「Teradata Viewpoint」も用意した。これらがUDAを構成するソフトウェア群であり、UDAの実体でもある。
それに加えて同社はUDAを実現するためのハードウェアも発表した。それがTeradata Aster Big Analytics Appliance。中身はAsterとHadoopを両方搭載したハード/ソフト一体型の製品である(図2)。Hadoopには米Hortonworksの「HDP 1.1」を採用した。大量データの収集・蓄積用途にHDP1.1を使い、分析をAsterのSQL-HおよびSQL MapReduceで並列処理する製品と見ることができる。Asterは非構造データからのパターン発見や含まれる単語の統計処理、データ変換など約70の関数を搭載しており、必然的に導入後、早期に利用開始できる利点がある。同アプライアンスは、内部接続に40ギガビット/秒のInfiniBandを搭載。価格はIntel Xeon(8コア、2.6GHz)が3ノード、ユーザーデータ領域11TBの場合で4500万円から。
Teradataの新モデル「Appliance 2700」も発表
同時にTeradataの新モデルとして「Teradata Data Warehouse Appliance 2700」も発表した。エントリー向けの位置づけで、Intel Xeon(8コア)×2を2ノード、4TBのデータ領域の場合で5700万円からである。これらのハードウェアを新規あるいは追加で導入し、上述のUDAを構成するソフトウェアを使えば、構造化データと非構造化データの違いやデータ基盤の違いをそれほど意識することなく、データ分析を実行できる。
とはいえ、そもそも構造化データと非構造化データをシームレスに分析したいというニーズがどれほどあるのか、疑問が残るかも知れない。それでもTeradata Aster Big Analytics Applianceは、非構造データ分析の敷居を下げる点で注目する価値があるだろう。テラデータによると、米国ではビジネスパーソン向けSNSのLinkedInや通信会社のAT&T、ディスカウント大手のSuperValueなど数10社がAsterをすでに導入しているという。