AWS東京リージョンで発生した大規模障害は冷却制御システムのバグが原因

2019年8月26日(月)日川佳三（IT Leaders編集部）

リスト

米Amazon Web Services（AWS）が、2019年8月23日午後に発生したAWS東京リージョンの大規模なシステム障害について、障害発生・復旧の経過の詳細を報告した。空調設備の管理システム障害が原因としている。AWSでは再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にしたほか、オペレーターにトレーニングを実施した。

　日本時間の2019年8月23日12時36分から、AWS東京リージョンの1つのアベイラビリティーゾーン（AZ）において、データセンター内機器のオーバーヒートが原因で、一定割合のEC2サーバーが停止した。この結果、当該ゾーンのEC2インスタンスに影響が出たほか、EBSボリュームの性能が劣化した。オーバーヒートの原因は、サードパーティ製の冷却制御システムのバグである。AWSは同社のWebサイトで、障害の詳細を日本語で報告している（画面1）。

画面1：米Amazon Web Servicesが日本語で報告した、東京リージョンで発生したシステム障害の詳細（画面はAWSのWebサイト）
拡大画像表示

　同社の報告によると、8月23日 15時21分に冷却装置が復旧し、室温が通常状態に戻り始めた。影響を受けたEC2インスタンスとEBSボリュームの大部分は、同日18時30分までに回復。少数のEC2インスタンスとEBSボリュームは過大な熱量の影響を受けたハードウェア上で動作しており、これらの復旧には時間がかかった。一部については基盤のハードウェアの障害によってリタイアが必要だったという。

　AWSは、現在もサードパーティベンダーと協力し、制御システムのバグや、バグによる影響の詳細な調査を進めている。並行して、事象の再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にした。また、万が一事象が再現しても対策が取れるよう、オペレーターに今回の事象の検知方法と復旧方法のトレーニングを実施したという。

●Next：オーバーヒートの原因詳細

この記事の続きをお読みいただくには、
会員登録（無料）が必要です