業務系システムが生成するデータ、IoTデバイスが生み出すセンサーデータや音声・画像データ、Webサイトなどのアクセス履歴データ、外部のSNSのデータやオープンデータ…。企業が扱うべきデータは増える一方だ。それらを蓄積し、最適に処理するビッグデータのプラットフォームをどう考え、構築すればいいのか? その有力候補の一角を占めつつあるのが米Hortonworksという、日本ではまだ馴染みの少ない企業だ。
同社はオープンソースのビッグデータソリューションを提供する企業。その日本法人であるホートンワークスジャパンが、2017年6月中旬に米国で発表したストリーミングデータを処理するソフトウェア「Hortonworks Dataflow 3.0(HDF3.0)」を軸にした説明会を、6月21日に開催した。聞いてみると、IoT時代におけるビッグデータのウェアハウス(=データレイク)の要件を相当程度満たすものと考えられる。以下、HDF3.0や同社の強みについて紹介しよう。
主力製品は「Hortonworks Data Platform(HDP)」。オープンソースのビッグデータ分析蓄積・基盤として有名な「Hadoop」やインメモリー処理の「Spark」を使いやすくパッケージ化し、商用ディストリビューションとしたものだ。構造化データだけでなく、非構造化データも蓄積・処理・分析できるデータレイクを構築する場合には必須のソフトウェアだが、いくつか問題もある。様々なソースからデータを取り込んだり、形式を変換したりするのにプログラミングが必要で使い勝手が今一歩である、例えばIoTにおけるセンサーデータをリアルタイムでストリーミング分析する用途には向かない、といったことだ。
これらを解消するのがHDF3.0で、3つの機能群から成っている(図1)。1つはフロー管理。データフローを有向グラフとして定義できるOSS「Apache NiFi」を用いて、データのルーティングや変換、優先順位付けなどを、GUI操作で行うことができるようにした。第2がストリーミング分析。「Apache STORM」や「kafca」といったOSSに加えて、「Streaming Analytics Manager(SAM)」と呼ぶコンポーネントを添付した。SAMにより1行のコードも書かずに、ドラッグ&ドロップ操作だけでストリーミング分析アプリケ-ションを作成できるという。
拡大画像表示
最後が一般企業が使うのに必要なサービス群。Hadoopのデータセキュリティを監視・管理する「Apache Ranger」、Hadoopクラスタの管理ツール「Ambari」、様々なデータのスキーマ(データ構造)を一元管理する「Schema Registry」で構成する。「様々なソースが生み出すデータがどんな構造や項目を持つかというスキーマ情報を管理する。これによって、例えば顧客IDを基本に複数のデータを横断分析することが容易になった」(河村康爾同社ソフトウェアエンジニア)。特にこのデータガバナンスに関する機能が評価されて米Forrester Researchの調査でリーダーに位置づけられている。
拡大画像表示
パートナーの強化という面では、6月13日に米IBMとの提携強化を発表した。詳細はhttp://it.impressbm.co.jp/articles/-/14633に詳しいが、IBMは同社の公式Hadoop製品として「HDP」を提供し、ホートンワークスはHDPに「IBM Data Science Experience」を搭載した製品を再販するのが骨子。IBM以外にも、すでにPivotal(Dell EMC)、Hewlett Packard Enterprise、Cisco Systems、Teradataなどとも関係を築いている。
ユーザー企業についても、改めて明らかにした。欧米ではBloombergやProgressive保険、Noble Energy、Spotify、eBay、Western Digitalなど金融、流通、情報関連企業を中心に採用が進んでいるという。日本でもリクルートテクノロジーズやソフトバンク、ヤフーのほか、LIXILや三菱ふそうトラック・バス、コカ・コーライーストジャパンなどが採用した。「SAP HANAのユーザーであるLIXILやコカ・コーライーストジャパンは、HANA上のデータをHDPにオフロードして処理することで、経済性と効率を高めている」(北瀬公彦同社マーケティングディレクター)と、ちょっと面白い使い方もある。
日本法人の廣川裕司社長は、「当社の強みは、OSSコミュニティへの貢献の強さ、OSSに忠実にディストリビューションを構成していること、有力なパートナー企業の多さがある。加えて流通や金融などインダストリーのコンサルティング部門を擁している。サポートも含め、新しい様々なデータをハンドリングするデータレイク分野のNo1だと自負している」と話す。Forrester Researchによる評価も考え合わせると、Hadoopの商用ディストリビューションで同業のClouderaやMapRに一歩先行したと言えるかも知れない。