NECは2023年3月20日、AI研究用のスーパーコンピュータを稼働開始したと発表した。NVIDIA A100 TensorコアGPUを928個搭載し、理論性能は580PFLOPS超である。NECの数百人のAI研究者が利用を始めている。「社会全体のデジタルツイン」の実現を目指し、全人類を見分ける生体認証によるデジタル決済、パーソナライズされた行政サービス、都市全体を制御する交通管制などのサービスを創出するとしている。
NECは、AI研究用のスーパーコンピュータを構築し、2023年3月に稼働開始した(写真1)。「NVIDIA A100 80GB TensorコアGPU」を928個搭載した理論性能580PFLOPS超のシステムで、国内企業では最大規模という。すでにNECの数百人のAI研究者が利用を始めている(関連記事:NEC、580PFLOPS超のAI研究用スパコンを2023年3月に稼働、数百人のAI研究者が利用)。
写真1:NECが構築したAI研究用スーパーコンピュータの外観 NECは今回のAI研究用スーパーコンピュータを活用することによって、「社会全体のデジタルツイン」の実現を目指す。具体的なサービスとして、全人類を見分ける生体認証によるデジタル決済、パーソナライズされた行政サービス、都市全体を制御する交通管制などを挙げている。
NVIDIA A100 80GB TensorコアGPUを採用した。単精度浮動小数点演算(FP32)よりもビット数を減らして高速に学習可能なTensorFloat-32(TF32)と呼ぶ行列演算モードを備えている。半精度(FP16)と同じ10ビットの仮数で必要充分な精度を備えつつ、FP32と同じ数値範囲(8ビットの指数)を扱えるようにしている。
ストレージは、米DataDirect Networksの並列ファイルシステム型ストレージソフトウェア「EXAScaler」を用いたストレージアプライアンス「ES400NVX」を、NVMe SSD(約1.1PB)とHDD(約14.6PB)で総容量16PB超で構成している。
ノード間を接続するEthernetスイッチには「NVIDIA Spectrum SN3700」を採用した。全ノードを200Gbit/sで接続し、RoCE(RDMA over Converged Ethernet) v2によって高速・低遅延で通信する。これにより、複数ノードにまたがった分散学習を高速化する。
OSにはLinuxのUbuntu 20.04 LTS Serverを採用、コンテナプラットフォームのKubernetesを導入し、PyTorchやTensorFlow2など、各種のAIフレームワークをコンテナ化して提供している。また、Kubernetesのジョブスケジューラを独自に拡張しており、ネットワークトポロジなどの物理構成を踏まえたスケジューリングによって多数の研究者が利用できるようにしている。
NEC / スーパーコンピュータ / NVIDIA / GPU / 科学研究 / Ubuntu / コンテナ / DataDirect Networks / HPC / デジタルツイン / Kubernetes
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



