오류 예산 상세 대시보드

오류 예산 상세 대시보드를 사용하면 특정 시간에 소비된 오류 예산을 탐색할 수 있습니다. 기본적으로 대시보드는 지난 28일을 보여줍니다. 시간 범위 컨트롤을 사용하여 이를 조정하거나 그래프 중 하나에서 범위를 선택할 수 있습니다.

이 대시보드는 서비스 수준 모니터링에 사용되는 동일한 종류의 대시보드입니다. 예를 들어, 웹 서비스 개요 대시보드(GitLab 내부)를 참조하세요.

오류 예산 패널

각 대시보드 맨 위에는 오류 예산과 동일한 패널이 있습니다. 여기에서 시간 기반 대상은 범위에 따라 조정됩니다. 예를 들어, 예산이 28일에 20분이었던 것과 달리, 7일에는 1/4만큼입니다.

7일 동안 5분 예산

또한, Grafana는 숫자를 반올림합니다. 이 예시에서 총 소요 시간은 5분 24초이므로 예산을 24초 초과했습니다.

또한, 속성 패널은 선택한 범위 내에서 발생한 오직 실패만 표시합니다.

이 두 패널은 “공식” 오류 예산의 뷰를 대표합니다. SLI가 무시되었는지를 고려합니다. 속성 패널은 선택한 기간에 가장 많이 기여한 구성 요소를 보여줍니다.

아래 패널은 GitLab.com 가용성에 기여하는 모든 SLI를 고려합니다. 이는 공식 오류 예산에서 무시된 SLI를 포함합니다.

집계를 위한 시계열

집계를 위한 시계열 패널은 모두 세 개의 패널을 포함합니다:

  • Apdex: 하나 이상의 SLI에 대한 Apdex 점수. 높은 점수가 좋습니다.
  • 오류 비율: 하나 이상의 SLI에 대한 오류 비율. 낮을수록 좋습니다.
  • 초당 요청: 초당 작업 수. 높을수록 오류 예산에 미치는 영향이 큽니다.

Apdex 및 오류 비율 패널에는 두 가지 경보 임계값도 포함됩니다:

  • 1시간 임계값: 빠른 소모율.

    이 경계를 넘으면 지난 시간에 월 예산의 2%가 소비되었습니다.

  • 6시간 임계값: 느린 소모율.

    이 경계를 넘으면 지난 6시간에 예산의 2%가 소비되었습니다.

특정 SLI에 대한 오류 비율이나 Apdex가 없는 경우 패널이 숨겨집니다.

이러한 경보 창에 대해 자세히 알아보려면 Google SRE workbook을 참조하세요.

단계 그룹에 대한 이러한 메트릭에 대한 경보를 갖고 있지 않습니다. 이 문제는 에픽 615에서 논의 중입니다. 당신의 그룹에서 이를 원한다면, 우리에게 알려주세요.

단계 그룹 집계

단계 그룹 집계 그래프

단계 그룹 집계는 초당 요청의 Apdex 및 오류의 일부를 나타내는 그래프를 보여줍니다. Apdex 그래프의 하락이나 오류 비율 그래프의 상승이 클수록 해당 시간에 더 많은 예산이 소비되었습니다.

세 번째 그래프는 모든 SLI의 모든 요청률의 합을 보여줍니다. 높을수록 트래픽이 많았음을 의미합니다.

예산을 많이 소비한 특정 시점을 자세히 보려면, 그래프에서 적절한 시간을 선택하세요.

서비스 수준 지표

Rails 요청 서비스 수준 지표

이 시계열은 단계 그룹의 오류 예산에 기여할 수 있는 각 SLI를 분해하여 보여줍니다. 단계 그룹 집계와 유사하게, Apdex 점수, 오류 비율, 요청 비율이 포함되어 있습니다.

여기에는 SLI에 대한 설명 패널도 표시되며, 기능 카테고리에 대한 Kibana의 로그(📖) 또는 시각화(📈)로 연결됩니다. 선택한 범위에 대한 로그는 Kibana에 7일 동안만 보관된다는 점을 명심하세요.

그래프에는 하나의 서비스 당 하나의 선이 있습니다. 이전 예시 이미지에서 rails_requestsweb, api, git 서비스의 SLI입니다.

Sidekiq는 이 대시보드에 포함되어 있지 않습니다. 이를 추적 중이며, 에픽 700에서 확인할 수 있습니다.