NECは2022年5月17日、自社の数百人のAI研究者が利用するAI研究用スーパーコンピュータを、数十億円を投じて設計・構築すると発表した。2023年3月に、580PFLOPS(1PFLOPSで浮動小数点演算を1秒間に1000兆回)超のシステムを稼働させる。既に一部のシステム(100PFLOPS)については、同社の数百人のAI研究者が利用を始めている。
NECは、自社の数百人のAI研究者が利用するAI研究用スーパーコンピュータを、数十億円を投じて設計・構築する(写真1)。2023年3月に、580PFLOPS(1PFLOPSで浮動小数点演算を1秒間に1000兆回)超のシステムを稼働させる。すでに一部のシステム(100PFLOPS)については、同社の数百人のAI研究者が利用を始めている。
システムは、GPUサーバーとストレージで構成。GPUサーバーは、1ノードあたり8基のGPU「NVIDIA A100 80GB Tensor コア GPU」を搭載したサーバー(米Super Micro Computer製)116台で構成する。ストレージは、並列ファイルシステム型ストレージソフトウェア「EXAScaler」(米DataDirect Networks製)を搭載したストレージアプライアンスで、容量16PB超を用意する。
理論上の処理性能は、580PFLOPSを超える。数千万枚の画像を数分間で学習可能としている。ネットワークには、Ethernetスイッチ「NVIDIA Spectrum SN3700」を採用。全サーバーを200Gbit/sのEthernetで接続し、RoCE(RDMA over Converged Ethernet) v2によって高速・低遅延で通信する。これにより、複数サーバーにまたがった分散学習を高速化する。
ミドルウェア面では、コンテナ運用基盤のKubernetesを中核とした独自のシステム構築技術を採用。ハードウェアとソフトウェア群を密に結合することで、高性能かつ利便性の高いシステムを実現するとしている。