[事例ニュース]

ANA、データ基盤を刷新してIcebergを採用、検証ではデータアクセス性能が最大3.9倍向上

ファイルベースのデータ管理でSingle Source of Truthを実現

2025年7月18日(金)日川 佳三(IT Leaders編集部)

全日本空輸(ANA、本社:東京都港区)は、2022年にデータレイクを構築し、部門ごとにサイロ化していたデータを一元化した。アーキテクチャは段階的に改善しており、2025年7月末にはSnowflake上でIceberg形式のデータベースを扱えるようにする。これにより、ファイルを直接扱う場合と比べ、検索性能が上がる。PoCではETL処理が最大で3.9倍に高速化した。Snowflakeが2025年7月17日に開催した説明会にANAの担当者が登壇し、取り組みを説明した。

 全日本空輸(ANA)は、2022年に4万人が利用するデータ活用基盤「BlueLake」を構築し、部門ごとにサイロ化していたデータを一元化した。

 データレイクとデータウェアハウス(DWH)の特性を兼ね備えたデータ基盤を整備している。データを物理的に1カ所に集め、飛行機の便名などのケタ数や日付データ型などのデータ形式を揃えることで、部門を横断してデータを活用しやすくしている(図1)。

図1:ANAがデータを一元管理する理由(出典:全日本空輸)
拡大画像表示

 BlueLakeのアーキテクチャは段階的に改善が図られているが、ANAのポリシーとして、初代(V1)から現在まで、データは特定のデータベースエンジンに依存しないファイル形式で格納している。具体的には、カラム(列)指向のバイナリデータ形式「Apache Parquet」の物理ファイルをオブジェクトストレージ「Amazon S3」上に保存している。

写真1:全日本空輸 デジタル変革部イノベーション推進部データマネジメントチーム リーダーの井岡大氏
拡大画像表示

 この狙いについて、ANAのデジタル変革部イノベーション推進部データマネジメントチームでリーダーを務める井岡大氏(写真1)は次のように説明した。

 「最も汎用的な形式のファイルでデータを管理することで、今後登場するかも知れない画期的なデータ基盤技術を最大限に活用できる。データをファイルの形で維持することによるSingle Source of Truth(信頼できる唯一の情報源)を実現できる」

 構築したBlueLakeの初期版(V1)は、Amazon Web Services(AWS)上で、既存のDWHを使って構築していた。当初からの方針は、匿名(仮名)加工処理により、個人情報を保護しつつ、ユーザー部門が自由にデータを活用できるようにすること。個人情報を含むデータ領域と、個人情報を含まないデータ領域をシステム的に分離し、異なるAWSアカウントで運用している。

 2023年のV2でアーキテクチャを刷新し、DWHを「Snowflake」に切り替えた。Snowflakeのコンピュートとストレージを分離したアーキテクチャにより、サイジングやプロジェクト間のリソース競合といった問題を解消した。また、データベースの利用料が50%以上減ったほか、フルマネージドサービスであることから運用の負荷も減った。2024年のV3では、個人情報を削除する処理などを効率化している。

図2:ファイルベースのデータベース性能をIcebergで引き上げる(出典:全日本空輸)
拡大画像表示

 2025年7月末のV4では、これまでSnowflakeから外部データベースとして扱ってきたApache Parquetファイルを、「Apache Iceberg」形式のデータベースとしてアクセスする形に切り替える。SnowflakeはデータベースとしてIceberg形式のテーブルデータを扱え、Snowflake内部データベースと同等の性能でアクセス可能である(図2)。

 SnowflakeのIcebergアクセスを利用することで、データベースの物理ファイル(Parquet形式)を素で扱う場合と比べて検索性能が上がる。メタデータをIcebergカタログとして管理することで、データアクセスが効率化する。事前のPoC(概念検証)では、最も大幅な性能向上があったケースで、Icebergを使うことでETL処理が3.9倍高速に、クエリー性能が1.6倍に向上した(図3)。

図3:IcebergのPoC結果。データベース性能が向上している(出典:全日本空輸)
拡大画像表示
関連キーワード

全日本空輸 / Snowflake / Iceberg / データ活用基盤 / クラウドDWH / AWS / 運輸・交通 / 航空

関連記事

トピックス

[Sponsored]

ANA、データ基盤を刷新してIcebergを採用、検証ではデータアクセス性能が最大3.9倍向上全日本空輸(ANA、本社:東京都港区)は、2022年にデータレイクを構築し、部門ごとにサイロ化していたデータを一元化した。アーキテクチャは段階的に改善しており、2025年7月末にはSnowflake上でIceberg形式のデータベースを扱えるようにする。これにより、ファイルを直接扱う場合と比べ、検索性能が上がる。PoCではETL処理が最大で3.9倍に高速化した。Snowflakeが2025年7月17日に開催した説明会にANAの担当者が登壇し、取り組みを説明した。

PAGE TOP