TISインテックグループのクオリカは2020年5月7日、非構造化データを含めた各種のデータを収集して分析/活用するためのPaaS基盤サービス「XLake(エックスレイク)」を発表した。データ分析機能を提供するPaaS型クラウドサービスと、クオリカのエンジニアによるデータ分析支援サービスをセットにして提供する。
XLakeは、データ分析用のデータレイクを運用するためのPaaS型クラウドサービスである(図1)。構造化データだけでなく、IoTセンサーデータや各種ログデータなどの非構造化データも収集・分析できる。これらの生データを収集してストレージに保管し、分析できる。マシンラーニング(機械学習)でデータの傾向を予測できる。
拡大画像表示
PaaS型のクラウドサービスとして、データを保管する「XLakeストレージ」、データを分析用に事前処理して収集する「XLakeデータフロー」、蓄積したデータの分析基盤「XLakeアナリシス」の3つのサービスを提供する。さらに、ストレージに蓄積したデータをクオリカのエンジニアが分析するサービス「XLakeプロフェッショナル」を提供する。
XLakeストレージは、構造化データに加えて、音声、画像、ログファイルなどの非構造化データを、形式を問わずに保管できる。ユーザー企業が生成したデータを、本来のフォーマットのままで保管する。これを、後から用途に合わせて抽出できる。保管できる容量に制限はなく、1TBごとの利用量に応じた契約となる。VPN接続でデータを格納できる。この場合、SMB/NFS、FTP/HTTP、HDFSなどのプロトコルでアクセスできる。。
XLakeデータフローは、IoTセンサーデータやシステムのログデータなど、すべてのデータをXLakeストレージにつなぐサービスである。分析に必要な事前のデータ処理を行える。例えば、各種ログデータなどの非構造化データを構造化するなど、ユーザーが必要とする形式でXLakeストレージに格納できる。1TBごとの処理量に応じた契約となる。データを取りにいくフロー(SFTP/HTTP/JDBC)と、データを受け取るフロー(HTTP/MQTT/Apache Kafka)のいずれも利用できる。
XLakeアナリシスは、XLakeストレージに保管したデータを分析するための基盤である。複数のノードで分散処理することにより、データを高速に処理できる。データ分析ミドルウェアとして、SQLクエリーを利用可能なApache Hiveと、マシンラーニング(機械学習)を利用可能なApache Sparkの利用環境を提供する。いずれも、処理性能に応じた契約となる。
Apache Hiveでは、JDBC/ODBC接続を介してデータレイク内のデータをSQLで分析できる。また、Hiveと接続できるBI(ビジネスインテリジェンス)ソフトウェアと連携し、データレイク内のデータを可視化できる。一方、Apache Sparkでは、4つのライブラリ(SparkSQL、SparkStreaming、Mlib、raphX)を利用できる。ETL(抽出/変換/登録)、ストリーミング処理、マシンラーニング(機械学習)など、各種の用途に活用できる。