NECは、自社の情報システムにおいてシステム監視アラートへの対処を省力化した。システム障害につながる重要なアラートのみを自動抽出し、対応が必要なインシデントにメンバーを自動でアサインする仕組みとして米PagerDutyの「PagerDuty」を導入した。同社日本法人のPagerDutyが2024年3月27日に発表した。
NECはこれまで、社内のシステムが発するアラートを手動で処理していた。インシデントの種類や影響、緊急性などから対応の優先度や対応策を担当者が判断し、必要に応じて適切なエンジニアにエスカレーションしていた。
「この体制では、インシデントにだれをアサインしたのか、どのようなプロセスを経て処理したのかなど、詳細な対応履歴や進捗を把握することが難しかった。担当者の経験値に依存する部分が多く、業務が属人化していた。どこでムダな作業が発生しているのかなど、改善点を分析することもできなかった」(NEC)
そこで、米PagerDutyが開発した、インシデント対応に伴う諸作業を自動化する「PagerDuty」を導入した。同ツールでは、外部のシステム監視ツールから得たアラートの優先度を判定し、1次対応の自動実施やエスカレーション通知を行うことができる。
まず、24時間365日体制でインシデントの1次対応を行う統合監視センターに同ツールを導入。統合監視センターでは、73のシステムから上がってくる月間2万件のアラートを約20人による4交代制で監視している。
導入の結果、オペレーターの画面に上がるアラート数が約70%減少。インシデントの解決にかかる時間が少なくとも半減することを見込んでいる。今後、NECが社内で運用する約1000種のシステムに対し、PagerDutyによるアラート監視に段階的に適用していく。
「システム障害につながるアラートのみを抽出してくれるので、上がってきたアラートはすべて対応が必要という点が、これまでとの最大の違い。インシデントに対応するメンバーを自動でアサインしてくれるので、アサイン先を検討する必要もなくなった」(NEC)