NEC、928個のGPUを搭載したAI研究用スパコンを構築し、AI研究者が利用開始

理論性能は580PFLOPS超

2023年3月20日(月)日川佳三（IT Leaders編集部）

リスト

NECは2023年3月20日、AI研究用のスーパーコンピュータを稼働開始したと発表した。NVIDIA A100 TensorコアGPUを928個搭載し、理論性能は580PFLOPS超である。NECの数百人のAI研究者が利用を始めている。「社会全体のデジタルツイン」の実現を目指し、全人類を見分ける生体認証によるデジタル決済、パーソナライズされた行政サービス、都市全体を制御する交通管制などのサービスを創出するとしている。

　NECは、AI研究用のスーパーコンピュータを構築し、2023年3月に稼働開始した（写真1）。「NVIDIA A100 80GB TensorコアGPU」を928個搭載した理論性能580PFLOPS超のシステムで、国内企業では最大規模という。すでにNECの数百人のAI研究者が利用を始めている（関連記事：NEC、580PFLOPS超のAI研究用スパコンを2023年3月に稼働、数百人のAI研究者が利用）。

写真1：NECが構築したAI研究用スーパーコンピュータの外観

　NECは今回のAI研究用スーパーコンピュータを活用することによって、「社会全体のデジタルツイン」の実現を目指す。具体的なサービスとして、全人類を見分ける生体認証によるデジタル決済、パーソナライズされた行政サービス、都市全体を制御する交通管制などを挙げている。

　NVIDIA A100 80GB TensorコアGPUを採用した。単精度浮動小数点演算（FP32）よりもビット数を減らして高速に学習可能なTensorFloat-32（TF32）と呼ぶ行列演算モードを備えている。半精度（FP16）と同じ10ビットの仮数で必要充分な精度を備えつつ、FP32と同じ数値範囲（8ビットの指数）を扱えるようにしている。

　ストレージは、米DataDirect Networksの並列ファイルシステム型ストレージソフトウェア「EXAScaler」を用いたストレージアプライアンス「ES400NVX」を、NVMe SSD（約1.1PB）とHDD（約14.6PB）で総容量16PB超で構成している。

　ノード間を接続するEthernetスイッチには「NVIDIA Spectrum SN3700」を採用した。全ノードを200Gbit/sで接続し、RoCE（RDMA over Converged Ethernet） v2によって高速・低遅延で通信する。これにより、複数ノードにまたがった分散学習を高速化する。

　OSにはLinuxのUbuntu 20.04 LTS Serverを採用、コンテナプラットフォームのKubernetesを導入し、PyTorchやTensorFlow2など、各種のAIフレームワークをコンテナ化して提供している。また、Kubernetesのジョブスケジューラを独自に拡張しており、ネットワークトポロジなどの物理構成を踏まえたスケジューリングによって多数の研究者が利用できるようにしている。

リスト

トピックス

[Sponsored]

NEC、928個のGPUを搭載したAI研究用スパコンを構築し、AI研究者が利用開始

おすすめのホワイトペーパー

トピックス