에러 예산 상세 대시보드

에러 예산 상세 대시보드를 사용하면 특정 시점에서 지출된 에러 예산을 탐색할 수 있습니다. 기본적으로 대시보드는 지난 28일을 보여줍니다. 시간 범위 컨트롤을 사용하거나 그래프 중 하나에서 범위를 선택하여 조정할 수 있습니다.

이 대시보드는 서비스 수준 모니터링에 사용되는 같은 종류의 대시보드입니다. 예를 들어 웹 서비스 개요 대시보드를 참조하세요 (GitLab 내부).

에러 예산 패널

각 대시보드 맨 위에는 에러 예산과 같은 패널이 있습니다. 여기서 시간 기반 타깃은 범위에 따라 조정됩니다. 예를 들어, 28일 동안 예산이 20분이었던 것에 비해 7일 동안에는 그것의 1/4만 해당합니다.

7일 동안의 5분 예산

또한, Grafana는 숫자를 반올립니다. 이 예에서 총 소요된 시간은 5분 24초이므로 예산을 24초 초과했습니다.

인가 패널은 선택한 범위 내에서 발생한 오직 실패만을 보여줍니다.

이 두 패널은 “공식” 에러 예산의 관점을 나타내며, SLI가 무시되었는지 고려합니다. 인가 패널은 선택한 기간 동안 가장 많이 기여한 컴포넌트를 보여줍니다.

아래 패널은 GitLab.com 가용성에 기여하는 모든 SLIs를 고려합니다. 이는 공식 에러 예산에서 무시되는 SLIs를 포함합니다.

집계를 위한 시계열

집계를 위한 시계열 패널에는 세 개의 패널이 포함되어 있습니다.

  • Apdex: 하나 이상의 SLI에 대한 Apdex 점수. 높은 점수가 좋습니다.
  • 에러 비율: 하나 이상의 SLI에 대한 에러 비율. 낮을수록 좋습니다.
  • 초당 요청 수: 초당 작업 수. 높을수록 에러 예산에 더 큰 영향을 미칩니다.

Apdex 및 에러 비율 패널에는 두 가지 경고 임계값이 포함되어 있습니다.

  • 한 시간 임계값: 빠른 소모율.

    이 선을 넘어설 때는 우리가 지난 시간 동안 월 예산의 2%를 사용했습니다.

  • 여섯 시간 임계값: 느린 소모율.

    이 선을 넘어설 때는 우리가 지난 여섯 시간 동안 예산의 2%를 사용했습니다.

특정 SLI에 대해 에러 비율 또는 Apdex가 없는 경우 패널이 숨겨집니다.

이러한 경보 창에 대해 더 읽어보려면 Google SRE workbook를 확인하세요.

단계 그룹에 대한 이러한 메트릭에는 경보가 없습니다. 이 문제는 epic 615에서 논의 중입니다. 당신의 그룹에 대해 이와 같은 것을 원한다면 알려주십시오.

단계 그룹 집계

단계 그룹 집계 그래프

단계 그룹 집계는 시간에 따른 Apdex 및 에러 예산의 부분을 보여주는 그래프를 보여줍니다. Apdex 그래프의 감소 또는 에러 비율 그래프의 증가가 클수록 해당 순간에 더 많은 에러 예산이 사용되었음을 의미합니다.

세 번째 그래프는 모든 SLI의 요청률 합계를 보여줍니다. 높을수록 더 많은 트래픽이 있었습니다.

예산을 많이 사용한 특정 시간대를 자세히 보려면 그래프에서 적절한 시간을 선택하십시오.

서비스 수준 지표

Rails 요청 서비스 수준 지표

이 시계열은 단계 그룹의 에러 예산에 기여할 수 있는 각 SLI를 세부적으로 보여줍니다. 단계 그룹 집계와 마찬가지로 Apdex 점수, 에러 비율 및 요청률이 포함됩니다.

여기에는 SLI에 대한 설명 패널도 표시되며, SLI를 설명하고 다른 모니터링 도구에 연결됩니다. Kibana의 로그(📖) 또는 시각화(📈) 링크는 당신의 단계 그룹에 대한 기능 범주로 제한되고 선택한 범위로 제한됩니다. 우리는 Kibana에서 로그를 7일 동안만 유지합니다.

그래프에서 각 서비스마다 단일 선이 있습니다. 이전 예에서 rails_requestsweb, apigit 서비스의 SLI입니다.

Sidekiq는 이 대시보드에 포함되어 있지 않습니다. 이 문제는 epic 700에서 추적 중입니다.