에러 예산 상세 대시보드

에러 예산 상세 대시보드를 사용하면 특정 시점에 소모된 에러 예산을 탐색할 수 있습니다. 기본적으로 대시보드는 지난 28일을 보여줍니다. 시간 범위 제어로 조정하거나 그래프 중 하나에서 범위를 선택하여 조정할 수 있습니다.

이 대시보드는 서비스 수준 모니터링에 사용하는 동일한 유형의 대시보드입니다. 예를 들어, 웹 서비스의 개요 대시보드 (GitLab 내부)를 참조하세요.

에러 예산 패널

각 대시보드 상단에는 에러 예산과 동일한 패널이 있습니다. 여기에서 시간 기반 목표는 범위에 따라 조정됩니다. 예를 들어, 예산이 28일 동안 20분인 반면, 7일 동안에는 그 1/4인 5분이 됩니다:

7일 동안 5분 예산

또한 Grafana가 숫자를 반올림한다는 점을 기억하세요. 이 예제에서 소모된 총 시간은 5분 24초로, 24초가 예산을 초과했습니다.

속성 패널에서는 선택한 범위 내에서 발생한 실패만 표시됩니다.

이 두 패널은 “공식적인” 에러 예산의 뷰를 나타냅니다: SLI가 무시되었는지 여부를 고려합니다. 속성 패널은 선택한 기간 동안 가장 많은 기여를 한 구성 요소를 보여줍니다.

아래 패널은 GitLab.com 가용성에 기여하는 모든 SLI를 고려합니다. 여기에는 공식 에러 예산에 대해 무시된 SLI가 포함됩니다.

집계를 위한 시계열

집계를 위한 시계열 패널은 모두 세 개의 패널을 포함합니다:

  • Apdex: 하나 이상의 SLI에 대한 Apdex 점수. 점수가 높을수록 좋습니다.
  • 에러 비율: 하나 이상의 SLI에 대한 에러 비율. 낮을수록 좋습니다.
  • 초당 요청 수: 초당 작업 수. 높을수록 에러 예산에 더 큰 영향을 미칩니다.

Apdex 및 에러 비율 패널은 또한 두 개의 경고 임계값을 포함합니다:

  • 1시간 임계값: 빠른 소모율.

    이 선을 넘으면 지난 1시간 동안 월 예산의 2%를 소모한 것입니다.

  • 6시간 임계값: 느린 소모율.

    이 선을 넘으면 지난 6시간 동안 예산의 2%를 소모한 것입니다.

특정 SLI에 대한 에러 비율이나 Apdex가 없으면 해당 패널은 숨겨집니다.

이러한 경고 창에 대한 자세한 내용은 Google SRE 워크북에서 확인하세요.

우리는 단계 그룹에 대한 이러한 메트릭에 대한 경고가 없습니다. 이 작업은 에픽 615에서 논의되고 있습니다. 이것이 귀하의 그룹에 필요한 사항이라면, 그곳에 알려주세요.

단계 그룹 집계

단계 그룹 집계 그래프

단계 그룹 집계는 시간에 따른 Apdex 및 에러 비율의 그래프를 보여줍니다. Apdex 그래프의 dip이 낮거나 에러 비율 그래프의 peak가 높을수록 해당 순간에 더 많은 예산이 소모되었습니다.

세 번째 그래프는 모든 SLI의 요청 비율 합계를 보여줍니다. 높을수록 더 많은 트래픽이 있었음을 의미합니다.

예산이 많이 소모된 특정 순간을 확대하려면 그래프에서 적절한 시간을 선택하세요.

서비스 수준 지표

Rails 요청 서비스 수준 지표

이 시계열은 단계 그룹의 오류 예산에 기여할 수 있는 각 SLI의 세부 정보를 보여줍니다. 단계 그룹 집계와 유사하게, Apdex 점수, 오류 비율 및 요청 비율이 포함되어 있습니다.

여기에서는 SLI를 설명하는 패널을 표시하고 다른 모니터링 도구에 연결됩니다. Kibana의 로그(📖) 또는 시각화(📈)에 대한 링크는 단계 그룹의 기능 카테고리에 맞춰 설정되며, 선택된 범위로 제한됩니다. Kibana에서는 로그를 일주일만 보관한다는 점을 염두에 두세요.

그래프에서는 서비스당 하나의 선이 표시됩니다. 이전 예제 이미지에서 rails_requestsweb, apigit 서비스에 대한 SLI입니다.

Sidekiq는 이 대시보드에 포함되지 않습니다. 우리는 에픽 700에서 이 문제를 추적하고 있습니다.