データセンター データセンター記事一覧へ

[市場動向]

NTT Com、全光ネットワークで接続した2拠点でAIモデルを分散学習、単一拠点と同等の性能

2024年10月7日(月)日川 佳三(IT Leaders編集部)

NTTコミュニケーションズ(NTT Com)は2024年10月7日、オールフォトニクスネットワーク(全光ネットワーク)のIOWN APNで接続した2つのデータセンターでAIモデルを分散学習させる実験を実施し、単一拠点と同等の学習時間で済んだと発表した。データセンター間を高速・低遅延で接続することで、必要な台数のGPUサーバーを単一拠点内で調達できないケースでも、遠隔拠点のGPUサーバーを使ってGPUクラスタ全体の性能を高められるとしている。

 NTTコミュニケーションズ(NTT Com)は、オールフォトニクスネットワーク(APN:全光ネットワーク)のIOWN APNで接続した2つのデータセンターでAIモデルを分散学習させる実験を実施した。単一拠点と同等の学習時間(1.006倍)で済んだという。データセンター間を高速・低遅延で接続することで、必要な台数のGPUサーバーを単一拠点内で調達できないケースでも、遠隔拠点のGPUサーバーを使ってGPUクラスタ全体の性能を高められるとしている。

図1:光ネットワークで2つのデータセンターをつないだGPUクラスタ環境でAIモデルを分散学習させた実験の概要(出典:NTTコミュニケーションズ)
拡大画像表示

 実験環境として、NVIDIA GPU(H100)を2基搭載したサーバーを、約40km離れた三鷹と秋葉原のデータセンターに分散配置し、データセンター間を100Gbit/sのAPN(オールフォトニクスネットワーク)で接続した(図1)。こうして、GPUサーバー2台で構成する広域クラスタを組んだ。比較対象として、同一拠点内のGPUクラスタと、インターネットでデータセンター間を接続したGPUクラスタも用意した。

 ユースケースの1つとして、AIモデル作成用フレームワーク(ソフトウェア部品群)であるNVIDIA NeMoを用いた分散学習により、大規模言語モデル(Llama 2 7B)の事前学習(Pre-training)を実施した(図2)。DDP(ディストリビューテッドデータパラレル)方式で、学習用データを分割して各GPUに学習させた。各GPUはAIモデルのコピーを持ち、割り当てられたデータを個々に学習する。

図2:学習用データを分割して各GPUに学習させるユースケースで利用した、AIモデル作成用フレームワーク「NVIDIA NeMo」の概要(出典:NTTコミュニケーションズ)
拡大画像表示

 GPUが処理した内容をGPU間で同期するタイミングで、GPUクラスタを構成するサーバー間で通信が発生する。この、GPU処理内容を通信で同期する、というプロセスを繰り返すことで学習していく。GPUが1度に処理するデータ量(バッチサイズ)の設定によって通信の頻度を変えられるので、GPU処理と通信処理の比重を調整可能である。

 実験の結果、単一のデータセンターで学習させる場合の所要時間と比較して、インターネット経由の分散データセンターでは29倍の時間がかかるが、APN経由の分散データセンターでは1.006倍と、単一のデータセンターとほぼ同等の性能を発揮できることを確認した(図3)。

図3:GPUクラスタによる学習時間を3つの環境で比較した結果(出典:NTTコミュニケーションズ)
拡大画像表示
写真1:NTTコミュニケーションズ イノベーションセンターIOWN推進室の張暁晶担当部長
拡大画像表示

 実験の背景について同社イノベーションセンターIOWN推進室担当部長の張暁晶氏(写真1)は「サーバー1台が搭載するGPUは多くて8基。これを超えるリソースが必要な場合、複数台並べてGPUクラスタを構成する。従来は単一のデータセンター内でGPUクラスタを構築していたが、GPUリソースが必要になったタイミングでオンデマンドにサーバーを増やすことが難しかった」と説明している。遠隔拠点のGPUサーバーを使ってGPUクラスタを組む需要は大きいという。

関連キーワード

NTTコミュニケーションズ / GPU / IOWN / 実証実験 / フォトニクス

関連記事

トピックス

[Sponsored]

NTT Com、全光ネットワークで接続した2拠点でAIモデルを分散学習、単一拠点と同等の性能NTTコミュニケーションズ(NTT Com)は2024年10月7日、オールフォトニクスネットワーク(全光ネットワーク)のIOWN APNで接続した2つのデータセンターでAIモデルを分散学習させる実験を実施し、単一拠点と同等の学習時間で済んだと発表した。データセンター間を高速・低遅延で接続することで、必要な台数のGPUサーバーを単一拠点内で調達できないケースでも、遠隔拠点のGPUサーバーを使ってGPUクラスタ全体の性能を高められるとしている。

PAGE TOP