[ザ・レビュー]

「WebSAM Invariant Analyzer」の実力─システム安定稼働時の性能相関モデルを基に“いつもと違う挙動”を視覚化

2010年1月18日(月)IT Leaders編集部

システム監視ツールでも予兆を検知しきれない障害が一定の頻度で起こり得る。この問題を解決すべく、NECが2009年10月に発表したのが「WebSAM Invariant Analyzer」である。独自技術を基に、属人的なノウハウに頼らない障害対策ツールを目指した。

「システムの反応が明らかに遅い」と、現場から苦情めいた問い合わせが入った。しかし、システム監視ツールを見る限り、特段の障害メッセージはない。何が起きているのか−。

原因は意外なところにあった。あるアプリケーションが暴走し、サーバーのプロセサを占有し続けていたのだ。システム監視ツールは、プロセサ使用率が80%を超えたらアラートを出す設定になっていたはず。ところが、このサーバーは4コア構成。1つを占有しても全体ではせいぜい30%どまりで、しきい値の範囲内だったのである。

システムが大規模かつ複雑になると、一般的なシステム監視ツールで検知しにくい障害の発生頻度も高くなる。そうした“サイレント障害”の原因追及の一助とすべくNECが開発したソフトが「WebSAM Invariant Analyzer」である。「障害の約8割は既存のシステム監視ツールで認知できるが、それをすり抜けた残る2割は原因追及に多大な時間がかかっているのが実状。この問題を何とか解決しようと製品化に挑んだ」(第一システムソフトウエア事業部 マネージャーの加藤清志氏)。

平常時の性能値をモデル化する

社内の技術研究所に相談を持ちかけたのは2003年のこと。いくつかの要素技術を検討し、最終的には数学的な相関関係モデル理論を応用することにした。

Invariant Analyzerはまず、システムを構成するサーバー群から安定稼働している時の性能情報(カウンタ)を取得する。プロセサごとの使用率、メモリーやディスクの使用量などである。実際には、さらに細かいレベルのカウンタを取得し、例えばWebサーバー20台、アプリケーションサーバー4台、DBサーバー4台の構成だと、合計で約5000のカウンタを収集する。

次に、カウンタ同士の「相関関係」を分析し、平常時は変化しない関係を抽出する。上記の例だと「5000×5000=2500万組の相関関係から、約3万組の不変関係をモデル化できた実績がある」(同氏)。つまり、サーバー個々の性能値ではなく、複数サーバーの性能値の関係性に着目しているのである。

システムに何らかの障害が起きた時には、この不変関係が崩れる特性がある。実際に不変関係が成立しなくなった際に、Invariant Analyzerは「いつもと違う挙動」の発生源を視覚的にあぶり出す機能を備える。カウンタを「点」、相関関係を「線」で表示し、異常を示す複数の線が1点に集中しているとすれば、そのカウンタを取得したサーバーの周辺で何か障害が起きていることが推測できるわけだ(図)。

図 「WebSAM Invariant Analyzer」の管理画面。いつもと違う挙動を可視化する
図 「WebSAM Invariant Analyzer」の管理画面。いつもと違う挙動を可視化する

過去の類似パターンを参照可能に

実際の障害要因を特定した際に、その内容を記録しておく機能も備える。日頃の運用でこうした情報を蓄積しておけば、万一、不変関係が崩れた際に過去の類似パターンを参照することで、効率よく障害復旧にあたれる。

カウンタの情報は、同社の運用管理ツールWebSAMシリーズのほか、日立製作所の「JP1」や、Windowsが備える「パフォーマンスモニタ」から取得できる。価格は1150万円(5000カウンタ分のライセンスと管理コンソールを含む)からとなる。

バックナンバー
ザ・レビュー一覧へ
関連キーワード

NEC / WebSAM / システム監視

関連記事

トピックス

[Sponsored]

「WebSAM Invariant Analyzer」の実力─システム安定稼働時の性能相関モデルを基に“いつもと違う挙動”を視覚化システム監視ツールでも予兆を検知しきれない障害が一定の頻度で起こり得る。この問題を解決すべく、NECが2009年10月に発表したのが「WebSAM Invariant Analyzer」である。独自技術を基に、属人的なノウハウに頼らない障害対策ツールを目指した。

PAGE TOP