米Amazon Web Services(AWS)が、2019年8月23日午後に発生したAWS東京リージョンの大規模なシステム障害について、障害発生・復旧の経過の詳細を報告した。空調設備の管理システム障害が原因としている。AWSでは再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にしたほか、オペレーターにトレーニングを実施した。
日本時間の2019年8月23日12時36分から、AWS東京リージョンの1つのアベイラビリティーゾーン(AZ)において、データセンター内機器のオーバーヒートが原因で、一定割合のEC2サーバーが停止した。この結果、当該ゾーンのEC2インスタンスに影響が出たほか、EBSボリュームの性能が劣化した。オーバーヒートの原因は、サードパーティ製の冷却制御システムのバグである。AWSは同社のWebサイトで、障害の詳細を日本語で報告している(画面1)。
画面1:米Amazon Web Servicesが日本語で報告した、東京リージョンで発生したシステム障害の詳細(画面はAWSのWebサイト)拡大画像表示
同社の報告によると、8月23日 15時21分に冷却装置が復旧し、室温が通常状態に戻り始めた。影響を受けたEC2インスタンスとEBSボリュームの大部分は、同日18時30分までに回復。少数のEC2インスタンスとEBSボリュームは過大な熱量の影響を受けたハードウェア上で動作しており、これらの復旧には時間がかかった。一部については基盤のハードウェアの障害によってリタイアが必要だったという。
AWSは、現在もサードパーティベンダーと協力し、制御システムのバグや、バグによる影響の詳細な調査を進めている。並行して、事象の再発を防ぐため、バグを引き起こした制御システムのフェイルオーバーモードを無効にした。また、万が一事象が再現しても対策が取れるよう、オペレーターに今回の事象の検知方法と復旧方法のトレーニングを実施したという。
●Next:オーバーヒートの原因詳細
会員登録(無料)が必要です
- 1
- 2
- 次へ >
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-





