米Amazon Web Services(AWS)が、2019年8月23日午後に発生したAWS東京リージョンの大規模なシステム障害について、障害発生・復旧の経過の詳細を報告した。空調設備の管理システム障害が原因としている。AWSでは再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にしたほか、オペレーターにトレーニングを実施した。
日本時間の2019年8月23日12時36分から、AWS東京リージョンの1つのアベイラビリティーゾーン(AZ)において、データセンター内機器のオーバーヒートが原因で、一定割合のEC2サーバーが停止した。この結果、当該ゾーンのEC2インスタンスに影響が出たほか、EBSボリュームの性能が劣化した。オーバーヒートの原因は、サードパーティ製の冷却制御システムのバグである。AWSは同社のWebサイトで、障害の詳細を日本語で報告している(画面1)。
拡大画像表示
同社の報告によると、8月23日 15時21分に冷却装置が復旧し、室温が通常状態に戻り始めた。影響を受けたEC2インスタンスとEBSボリュームの大部分は、同日18時30分までに回復。少数のEC2インスタンスとEBSボリュームは過大な熱量の影響を受けたハードウェア上で動作しており、これらの復旧には時間がかかった。一部については基盤のハードウェアの障害によってリタイアが必要だったという。
AWSは、現在もサードパーティベンダーと協力し、制御システムのバグや、バグによる影響の詳細な調査を進めている。並行して、事象の再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にした。また、万が一事象が再現しても対策が取れるよう、オペレーターに今回の事象の検知方法と復旧方法のトレーニングを実施したという。
●Next:オーバーヒートの原因詳細
会員登録(無料)が必要です
- 1
- 2
- 次へ >
-
-
-
-
Gemini搭載でGoogle CloudのAIプラットフォーム「Vertex AI」が大幅アップデート。企業の生成AI活用に不可欠なデータマネジメントとは
-
-
-
-
-
-
-
-
-
-
-
-
-
-
大型化、狭額縁化だけじゃないモニターの進化! “機能”と“信頼性”を両輪に差別化を推し進めるレノボの「ThinkVision」
-
WalkMeが2023年のデジタルアダプションアワードを発表。「えきねっと」におけるUX向上事例など、ユーザー間でノウハウを共有するイベントを開催
-
-
Lenovo Tech World Japan 2023 特別対談「レノボ×マイクロソフト」が語る生成AI活用の“現在地”と“近未来”
-
-
-
あらゆるユーザーにAI活用を!「Lenovo Tech World Japan」で提示される企業コンピューティングの近未来像とは?
-
-
-
-
-
-
-