米Amazon Web Services(AWS)が、2019年8月23日午後に発生したAWS東京リージョンの大規模なシステム障害について、障害発生・復旧の経過の詳細を報告した。空調設備の管理システム障害が原因としている。AWSでは再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にしたほか、オペレーターにトレーニングを実施した。
日本時間の2019年8月23日12時36分から、AWS東京リージョンの1つのアベイラビリティーゾーン(AZ)において、データセンター内機器のオーバーヒートが原因で、一定割合のEC2サーバーが停止した。この結果、当該ゾーンのEC2インスタンスに影響が出たほか、EBSボリュームの性能が劣化した。オーバーヒートの原因は、サードパーティ製の冷却制御システムのバグである。AWSは同社のWebサイトで、障害の詳細を日本語で報告している(画面1)。
拡大画像表示
同社の報告によると、8月23日 15時21分に冷却装置が復旧し、室温が通常状態に戻り始めた。影響を受けたEC2インスタンスとEBSボリュームの大部分は、同日18時30分までに回復。少数のEC2インスタンスとEBSボリュームは過大な熱量の影響を受けたハードウェア上で動作しており、これらの復旧には時間がかかった。一部については基盤のハードウェアの障害によってリタイアが必要だったという。
AWSは、現在もサードパーティベンダーと協力し、制御システムのバグや、バグによる影響の詳細な調査を進めている。並行して、事象の再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にした。また、万が一事象が再現しても対策が取れるよう、オペレーターに今回の事象の検知方法と復旧方法のトレーニングを実施したという。
●Next:オーバーヒートの原因詳細
会員登録(無料)が必要です
- 1
- 2
- 次へ >