[ユーザー事例]
ぐるなび、システム障害/メンテナンス時のログ解析をElasticsearchで迅速化、「1時間が1秒に」
2020年1月28日(火)日川 佳三(IT Leaders編集部)
飲食店情報サイト「ぐるなび」を運営するぐるなびが、システム障害時のログ解析を効率化するツールとして、RESTful分散処理検索エンジン「Elasticsearch」と、データ可視化ツール「Kibana」を導入し、大きな成果を上げている。以前は開発者1人が手動で調査していた作業を短時間で終えられるようになったという。同年1月28日、同社担当者が、ツールを提供したElasticと共に都内で説明会を開き、取り組みを説明した。
拡大画像表示
ぐるなびは、1996年より飲食店情報サイト「ぐるなび」を運営している。現在の掲載店舗は約50万件、月間ユニークユーザー数は6100万人に上る。
2018年からは、SNSと連携した送客サービスや、楽天IDとの会員直携による送客強化、主要キャッシュレス決済に対応した「ぐるなびPay」などのサービスも提供している。それらを支えるべく、同社のITインフラは大規模化し、2016年時点でサーバー数は数千台に及んでいた。
ぐるなびでは以前から、システム障害時やメンテナンスの際には、システムが出力する膨大なログデータを開発者が解析して調査している。現在では、解析の対象となるログとして、直近の40日分程度のログを、RESTful分散処理検索エンジンのElasticsearchに取り込んでいる。ログの種類は50種類、オブジェクト数は500億、サイズは30TBになる。これらを、約200人の開発者が解析している。
同社では以前、ログデータの解析には相当な時間がかかっていた。個々の開発者が、個々の開発者のやり方で、手動で実施していたからである。対象となるサーバーにログインして直接grepコマンドでログを文字列検索したり、ログファイルをいったんscpで手元にリモートコピーして対処したりしていた。このため、調査完了までに1時間以上かかり、ログをリアルタイムに監視・対処できていなかったという。
2016年に、ログデータの解析を迅速化する手段として、Elasticsearchと、データをダッシュボードなどで可視化できるフロントエンドツールのKibanaを、ぐるなびのオンプレミス環境に導入した(図1)。効果は大きく、1時間を要していた調査作業が「極端な話、1秒で終わるようになった」(ぐるなびで開発部Engineeringセクション副セクション長を務める岩本俊明氏、写真1)という。
拡大画像表示
●Next:AWSでElasticsearchとKibanaを動かした効果
会員登録(無料)が必要です