[事例ニュース]
NEC、928個のGPUを搭載したAI研究用スパコンを構築し、AI研究者が利用開始
2023年3月20日(月)日川 佳三(IT Leaders編集部)
NECは2023年3月20日、AI研究用のスーパーコンピュータを稼働開始したと発表した。NVIDIA A100 TensorコアGPUを928個搭載し、理論性能は580PFLOPS超である。NECの数百人のAI研究者が利用を始めている。「社会全体のデジタルツイン」の実現を目指し、全人類を見分ける生体認証によるデジタル決済、パーソナライズされた行政サービス、都市全体を制御する交通管制などのサービスを創出するとしている。
NECは、AI研究用のスーパーコンピュータを構築し、2023年3月に稼働開始した(写真1)。「NVIDIA A100 80GB TensorコアGPU」を928個搭載した理論性能580PFLOPS超のシステムで、国内企業では最大規模という。すでにNECの数百人のAI研究者が利用を始めている(関連記事:NEC、580PFLOPS超のAI研究用スパコンを2023年3月に稼働、数百人のAI研究者が利用)。
NECは今回のAI研究用スーパーコンピュータを活用することによって、「社会全体のデジタルツイン」の実現を目指す。具体的なサービスとして、全人類を見分ける生体認証によるデジタル決済、パーソナライズされた行政サービス、都市全体を制御する交通管制などを挙げている。
NVIDIA A100 80GB TensorコアGPUを採用した。単精度浮動小数点演算(FP32)よりもビット数を減らして高速に学習可能なTensorFloat-32(TF32)と呼ぶ行列演算モードを備えている。半精度(FP16)と同じ10ビットの仮数で必要充分な精度を備えつつ、FP32と同じ数値範囲(8ビットの指数)を扱えるようにしている。
ストレージは、米DataDirect Networksの並列ファイルシステム型ストレージソフトウェア「EXAScaler」を用いたストレージアプライアンス「ES400NVX」を、NVMe SSD(約1.1PB)とHDD(約14.6PB)で総容量16PB超で構成している。
ノード間を接続するEthernetスイッチには「NVIDIA Spectrum SN3700」を採用した。全ノードを200Gbit/sで接続し、RoCE(RDMA over Converged Ethernet) v2によって高速・低遅延で通信する。これにより、複数ノードにまたがった分散学習を高速化する。
OSにはLinuxのUbuntu 20.04 LTS Serverを採用、コンテナプラットフォームのKubernetesを導入し、PyTorchやTensorFlow2など、各種のAIフレームワークをコンテナ化して提供している。また、Kubernetesのジョブスケジューラを独自に拡張しており、ネットワークトポロジなどの物理構成を踏まえたスケジューリングによって多数の研究者が利用できるようにしている。
NEC / スーパーコンピュータ / NVIDIA / GPU / 科学研究 / Ubuntu / コンテナ / DataDirect Networks / HPC / デジタルツイン / Kubernetes