[ザ・レビュー]
「WebSAM Invariant Analyzer」の実力─システム安定稼働時の性能相関モデルを基に“いつもと違う挙動”を視覚化
2010年1月18日(月)IT Leaders編集部
システム監視ツールでも予兆を検知しきれない障害が一定の頻度で起こり得る。この問題を解決すべく、NECが2009年10月に発表したのが「WebSAM Invariant Analyzer」である。独自技術を基に、属人的なノウハウに頼らない障害対策ツールを目指した。
「システムの反応が明らかに遅い」と、現場から苦情めいた問い合わせが入った。しかし、システム監視ツールを見る限り、特段の障害メッセージはない。何が起きているのか−。
原因は意外なところにあった。あるアプリケーションが暴走し、サーバーのプロセサを占有し続けていたのだ。システム監視ツールは、プロセサ使用率が80%を超えたらアラートを出す設定になっていたはず。ところが、このサーバーは4コア構成。1つを占有しても全体ではせいぜい30%どまりで、しきい値の範囲内だったのである。
システムが大規模かつ複雑になると、一般的なシステム監視ツールで検知しにくい障害の発生頻度も高くなる。そうした“サイレント障害”の原因追及の一助とすべくNECが開発したソフトが「WebSAM Invariant Analyzer」である。「障害の約8割は既存のシステム監視ツールで認知できるが、それをすり抜けた残る2割は原因追及に多大な時間がかかっているのが実状。この問題を何とか解決しようと製品化に挑んだ」(第一システムソフトウエア事業部 マネージャーの加藤清志氏)。
平常時の性能値をモデル化する
社内の技術研究所に相談を持ちかけたのは2003年のこと。いくつかの要素技術を検討し、最終的には数学的な相関関係モデル理論を応用することにした。
Invariant Analyzerはまず、システムを構成するサーバー群から安定稼働している時の性能情報(カウンタ)を取得する。プロセサごとの使用率、メモリーやディスクの使用量などである。実際には、さらに細かいレベルのカウンタを取得し、例えばWebサーバー20台、アプリケーションサーバー4台、DBサーバー4台の構成だと、合計で約5000のカウンタを収集する。
次に、カウンタ同士の「相関関係」を分析し、平常時は変化しない関係を抽出する。上記の例だと「5000×5000=2500万組の相関関係から、約3万組の不変関係をモデル化できた実績がある」(同氏)。つまり、サーバー個々の性能値ではなく、複数サーバーの性能値の関係性に着目しているのである。
システムに何らかの障害が起きた時には、この不変関係が崩れる特性がある。実際に不変関係が成立しなくなった際に、Invariant Analyzerは「いつもと違う挙動」の発生源を視覚的にあぶり出す機能を備える。カウンタを「点」、相関関係を「線」で表示し、異常を示す複数の線が1点に集中しているとすれば、そのカウンタを取得したサーバーの周辺で何か障害が起きていることが推測できるわけだ(図)。
過去の類似パターンを参照可能に
実際の障害要因を特定した際に、その内容を記録しておく機能も備える。日頃の運用でこうした情報を蓄積しておけば、万一、不変関係が崩れた際に過去の類似パターンを参照することで、効率よく障害復旧にあたれる。
カウンタの情報は、同社の運用管理ツールWebSAMシリーズのほか、日立製作所の「JP1」や、Windowsが備える「パフォーマンスモニタ」から取得できる。価格は1150万円(5000カウンタ分のライセンスと管理コンソールを含む)からとなる。
- “データベース仮想化”製品が登場、複数のDBから論理ビューを形成(2012/03/02)
- 3台のディスプレイを囲んで集中議論 資料のペーパーレス化と会議効率化を両立(2010/09/13)
- 「Cosminexus V8.5」の実力─仮想化ソフトの盲点である業務アプリ単位の仮想サーバー管理を可能に(2010/06/14)
- 営業担当の外回り業務を見える化、位置情報活用で訪問ルートの無駄をあぶり出す(2010/05/13)
- ウイングアーク テクノロジーズ「Report Director Enterprise」─運用の負荷を軽減する帳票ソリューション(2010/03/10)