JCBは、米グーグルが社内で培ったシステム管理の方法論であるSRE(Site Reliability Engineering:サイト信頼性エンジニアリング)に取り組んでいる。「システムのSLI(サービスレベル指標)とSLO(サービスレベル目標)をダッシュボードで可視化したことで、システム障害の切り分けが速くなり、初動をリモートで行えるようになった」としている。SREは、適切な信頼性によってエンドユーザーや顧客の満足度を維持する概念であり、DevOpsを実践するための方法と職務を提供する。2022年8月29日、取り組みを主導した担当者がグーグル・クラウド・ジャパンの説明会に登壇して導入効果を説明した。
「システムのSLI(サービスレベル指標)とSLO(サービスレベル目標)をダッシュボードで可視化したことで、システム障害の切り分けが速くなり、初動をリモートで行えるようになった。以前は、見たことがないエラー文字列が出てきた場合、夜間でも出社して調査していた」。JCBでインフラ基盤の管理に携わる笹野真平氏は、米グーグルが培ったシステム管理の方法論であるSRE(Site Reliability Engineering:サイト信頼性エンジニアリング)の効果を上記のように説明した。
SREは、適切な信頼性がエンドユーザーや顧客の満足度を維持するという考えに立っており、DevOpsを実践するための方法と職務を定めている。グーグル・クラウド・ジャパンによると、SREでは「エラーバジェット」(エンドユーザーや顧客が許容できるエラーの数や量)が重要で、これを基に、SLI(レイテンシやエラー率など、ユーザーの体験を示すサービスレベル指標)と、SLO(サービスレベル目標)を決めるという。
JCBは、新規サービスを高速に開発するためのシステム基盤として、「JDEP(JCB Digital Enablement Platform)」を運用している。Google Cloud上のGoogle Kubernetes Engine(GKE)とAnthos Service Mesh(Istio)をコアに構築した。分散データベースのCloud Spannerを東京/大阪で動かしている。アプリケーションはマイクロサービスで開発しており、開発体制は20チーム350人超(2022年8月現在)に上る。
JCBは、このシステム基盤を適切に管理する方法論として、2020年夏にSREを導入した。全部で4つあるシステム基盤チームの1つがSREチームである。残りの3チームは、Google Cloudの汎用基盤を担当するチーム、効率化・自動化や開発者の利便性を高めるツールの導入管理などを担当するシステム管理チーム、新技術の検討などを担うアーキテクチャチームである。
SREを導入する以前のJCBは、インフラ基盤の運用に関して、いくつかの課題を抱えていたと笹野氏は振り返る。Google Cloudを採用することの課題、業務と開発チームの壁、開発チームと運用チームの壁、などである。こうした中、DevOpsの導入を検討し、実際にDevOpsに取り組む上で必要になる考え方や手法として、グーグル・クラウド・ジャパンの支援の下、SREを導入した。
現状では、開発チームと運用チームが、ワークショップを介してSRE文化を理解済み。SLI(サービスレベル指標)とSLO(サービスレベル目標)を策定し、SLIとSLOの計測値をダッシュボードで可視化した。SLAも、必要なレベルに定めた。
SREチームの主な仕事は3つある。インフラの構築や改善を担うプラットフォームSRE、開発チームの一員となって支援する組み込みSRE、アーキテクチャの検討などを担うコンサルティングSRE、である。10以上の開発チームをSREチームが支えている。