[新製品・サービス]

オラクル、CSV/ParquetファイルをSQLで分析可能な「MySQL HeatWave Lakehouse」を提供

MySQLとオブジェクトストレージのデータを分析

2023年7月26日(水)日川 佳三(IT Leaders編集部)

米オラクル(Oracle)は2023年7月20日(米国現地時間)、クラウド型分散データベース「MySQL HeatWave Database Service」の新機能「Lakehouse」をOracle Cloud Infrastructure(OCI)の全リージョンで提供開始したと発表した。MySQL上にあるデータだけでなく、オブジェクトストレージ上のファイル形式データ(CSV/Apache Parquet形式)に対してSQLで分析を実行できる機能である。

 米オラクルは、クラウド型分散データベース「MySQL HeatWave Database Service」の新機能「Lakehouse」をOracle Cloud Infrastructure(OCI)の全リージョンで提供開始した(図1)。

図1:クラウド型データベースサービス「MySQL HeatWave」の概要(出典:日本オラクル)
拡大画像表示

 MySQL HeatWaveは、インメモリー型で動作する分散データベースである。MySQLをMySQL HeatWaveに置き換えることで処理が高速になる。完全互換なので、アプリケーションからはMySQLと同じように利用できる(関連記事クラウドDB「Oracle MySQL HeatWave」にマシンラーニング機能、SQLを介して学習・推論)。

 同データベースは、OLTP(オンライントランザクション処理)に用いる通常のMySQLノード(InnoDB)と、OLAP(オンライン分析処理)に用いるインメモリー型クラスタノード(HeatWave)で構成する。InnoDBで更新したデータは、データ分析用のHeatWaveクラスタに透過的に伝達する。OLTPとOLAPを兼ねるので、ETLツールでOLAPデータベースにデータを移行するといった手続きが不要である。

ファイルデータを社内DBと同じ性能で分析

 今回、米オラクルは新機能として、SQLで分析を実行できる「Lakehouse」機能を追加した。MySQL上にあるデータだけでなく、オブジェクトストレージ上にあるファイル形式のデータ(CSV/Apache Parquet形式)に対してSQLで分析を実行できる(関連記事CSV/ParquetファイルをSQLで分析可能な「MySQL HeatWave Lakehouse」、2023年前半に提供)。

 CSVファイルや、列指向のデータファイル形式であるApache Parquet形式ファイルを対象に、これらのファイルをHeatWaveクラスタのメモリーにロードして分析する。Parquet形式で保存した外部DWHサービスのデータなども、ETLを介さずにそのまま取り込める。

 背景としてオラクルは「データの80%以上がファイルシステムに保存されており、この数値は増加している」と説明する。「ユーザーは、各種の外部データを社内のトランザクションデータと統合して分析したいと考えている。しかし、処理が複雑すぎたり、コストがかかりすぎたりすることが問題だった」(同社)。Lakehouseにより、外部ファイルと社内データを組み合わせた分析が容易になる。

 性能面において、MySQLからロードしたデータも、オブジェクトストレージのファイルからロードしたデータも、データベースのベンチマーク性能(TPC-Hベンチマーク)は同じである(図2)。マシンラーニング(機械学習)ベースの自動チューニング機能「MySQL Autopilot」を使い、クエリーの実行計画を立てている(関連記事日本オラクル、クラウドDB「MySQL HeatWave」の運用自動化機能をアピール)。

図2:MySQL HeatWaveにおけるTPC-Hベンチマーク性能(出典:日本オラクル)
拡大画像表示

 MySQL Autopilotでは、データを処理するために適したクラスタサイズ(ノード数)も導き出す。ファイルストレージからのデータのロードに要する時間も推定する。データ型の定義をメタデータとして付与できないCSVデータに対して、適切なデータ型を推測して付与する自動スキーマ予測機能も備える。

関連キーワード

Oracle / MySQL HeatWave / DHW / データレイク / RDBMS / MySQL / Oracle Cloud / ETL / オブジェクトストレージ / OCI

関連記事

トピックス

[Sponsored]

オラクル、CSV/ParquetファイルをSQLで分析可能な「MySQL HeatWave Lakehouse」を提供米オラクル(Oracle)は2023年7月20日(米国現地時間)、クラウド型分散データベース「MySQL HeatWave Database Service」の新機能「Lakehouse」をOracle Cloud Infrastructure(OCI)の全リージョンで提供開始したと発表した。MySQL上にあるデータだけでなく、オブジェクトストレージ上のファイル形式データ(CSV/Apache Parquet形式)に対してSQLで分析を実行できる機能である。

PAGE TOP