현재의 성능 문제
예시 쿼리
ClickHouse에 Merge Request 데이터 저장
- ClickHouse 데이터 최신 상태 유지
- 데이터베이스 테이블 구조
COUNT 쿼리 다시 작성
Mean time to merge 쿼리 다시 작성
필터링
- 금지된 사용자 필터

ClickHouse를 활용한 Merge Request 분석

Merge Request 분석 기능은 프로젝트에서 Merge된 Merge Request에 대한 통계를 보여주며 레코드 수준의 메타데이터를 노출합니다. 집계는 다음을 포함합니다:

평균 Merge 시간: 생성 시간과 Merge 시간 사이의 기간.
월별 집계: Merge된 Merge Request의 12개월 차트.

차트 아래에서 사용자는 페이지별로 12개월씩 Merge Request 디렉터리을 볼 수 있습니다.

필터링 가능한 내용:

작성자
담당자
레이블
마일스톤
소스 브랜치
대상 브랜치

현재의 성능 문제

집계 쿼리는 특수화된 인덱스가 필요해서 추가 디스크 공간이 필요합니다 (인덱스 전용 스캔).
12개월 전체를 조회하는 것이 느립니다 (명령 시간 초과). 대신 프론트엔드는 월별 데이터를 요청합니다 (데이터베이스 쿼리 12회).
특수화된 인덱스가 있더라도 그룹 수준에서 이 기능을 사용할 수 없는 만큼 Merge Request이 많습니다.

예시 쿼리

특정 월에 Merge된 Merge Request 수를 가져옵니다:

SELECT COUNT(*)
FROM "merge_requests"
INNER JOIN "merge_request_metrics" ON "merge_request_metrics"."merge_request_id" = "merge_requests"."id"
WHERE (NOT EXISTS
         (SELECT 1
          FROM "banned_users"
          WHERE (merge_requests.author_id = banned_users.user_id)))
  AND "merge_request_metrics"."target_project_id" = 278964
  AND "merge_request_metrics"."merged_at" >= '2022-12-01 00:00:00'
  AND "merge_request_metrics"."merged_at" <= '2023-01-01 00:00:00'

merge_request_metrics 테이블의 target_project_id를 개선하기 위해 첫 페이지 로드 시간을 줄이기 위해 정규화 되었습니다. 쿼리 자체는 작은 날짜 범위에 대해서는 잘 작동하지만, 날짜 범위가 커지면 타임아웃될 수 있습니다.

추가 필터가 추가되면, merge_requests 테이블도 필터링해야하기 때문에 쿼리가 더 복잡해집니다:

SELECT COUNT(*)
FROM "merge_requests"
INNER JOIN "merge_request_metrics" ON "merge_request_metrics"."merge_request_id" = "merge_requests"."id"
WHERE (NOT EXISTS
         (SELECT 1
          FROM "banned_users"
          WHERE (merge_requests.author_id = banned_users.user_id)))
  AND "merge_requests"."author_id" IN
    (SELECT "users"."id"
     FROM "users"
     WHERE (LOWER("users"."username") IN (LOWER('ahegyi'))))
  AND "merge_request_metrics"."target_project_id" = 278964
  AND "merge_request_metrics"."merged_at" >= '2022-12-01 00:00:00'
  AND "merge_request_metrics"."merged_at" <= '2023-01-01 00:00:00'

평균 Merge 시간을 계산하려면, Merge Request 생성 시간과 Merge 시간 사이의 총 시간을 쿼리합니다.

SELECT EXTRACT(epoch
               FROM SUM(AGE(merge_request_metrics.merged_at, merge_request_metrics.created_at)))
FROM "merge_requests"
INNER JOIN "merge_request_metrics" ON "merge_request_metrics"."merge_request_id" = "merge_requests"."id"
WHERE (NOT EXISTS
         (SELECT 1
          FROM "banned_users"
          WHERE (merge_requests.author_id = banned_users.user_id)))
  AND "merge_requests"."author_id" IN
    (SELECT "users"."id"
     FROM "users"
     WHERE (LOWER("users"."username") IN (LOWER('ahegyi'))))
  AND "merge_request_metrics"."target_project_id" = 278964
  AND "merge_request_metrics"."merged_at" >= '2022-08-01 00:00:00'
  AND "merge_request_metrics"."merged_at" <= '2022-09-01 00:00:00'
  AND "merge_request_metrics"."merged_at" > "merge_request_metrics"."created_at"
LIMIT 1

ClickHouse에 Merge Request 데이터 저장

Merge Request 데이터를 ClickHouse에 저장하고 조회하는 여러 가지 사용 사례가 있습니다. 이 문서에서는 이 특정 기능에 중점을 두겠습니다.

핵심 데이터는 merge_request_metrics와 merge_requests 데이터베이스 테이블에 있습니다. 일부 필터에는 추가 테이블을 조인해야합니다:

banned_users: 금지된 사용자가 만든 Merge Request을 걸러냅니다.
labels: Merge Request에 하나 이상의 할당된 레이블이 있을 수 있습니다.
assignees: Merge Request에 하나 이상의 담당자가 있을 수 있습니다.
merged_at: merged_at 열은 merge_request_metrics 테이블에 있습니다.

merge_requests 테이블에는 직접 필터링할 수 있는 데이터가 있습니다:

작성자: author_id 열을 통해.
마일스톤: milestone_id 열을 통해.
소스 브랜치.
대상 브랜치.
프로젝트: project_id 열을 통해.

ClickHouse 데이터 최신 상태 유지

merge_requests 테이블을 복제하거나 동기화하는 것만으로는 부족합니다. 디-정규화된 merge_requests 행 하나를 ClickHouse 데이터베이스에 삽입하려면 연관 테이블에 대해 별도의 쿼리가 필요합니다.

변경 감지를 구현하는 것은 단순하지 않습니다. 몇 가지 고려해야 할 사항이 있습니다:

이 기능은 GitLab Premium 및 GitLab Ultimate 고객을 위해 제공됩니다. 모든 데이터를 동기화할 필요는 없고 라이선스가 부여된 그룹에 속한 merge_requests 레코드만 동기화하면 됩니다.
데이터 변경은 주로 MergeRequest 서비스를 통해 이루어지며, updated_at 타임스탬프 열을 증가시키는 것이 일관적입니다. 일종의 점진적 동기화 프로세스를 구현할 수 있습니다.
Merge된 Merge Request만 쿼리해야합니다. Merge 후 레코드는 거의 변경되지 않습니다.

데이터베이스 테이블 구조

데이터베이스 테이블 구조는 필요한 모든 열을 하나의 데이터베이스 테이블에 사용 가능하도록 디-정규화를 사용합니다. 이로써 JOIN이 필요하지 않습니다.

CREATE TABLE merge_requests
(
    `id` UInt64,
    `project_id` UInt64 DEFAULT 0 NOT NULL,
    `author_id` UInt64 DEFAULT 0 NOT NULL,
    `milestone_id` UInt64 DEFAULT 0 NOT NULL,
    `label_ids` Array(UInt64) DEFAULT [] NOT NULL,
    `assignee_ids` Array(UInt64) DEFAULT [] NOT NULL,
    `source_branch` String DEFAULT '' NOT NULL,
    `target_branch` String DEFAULT '' NOT NULL,
    `merged_at` DateTime64(6, 'UTC') NOT NULL,
    `created_at` DateTime64(6, 'UTC') DEFAULT now() NOT NULL,
    `updated_at` DateTime64(6, 'UTC') DEFAULT now() NOT NULL
)
ENGINE = ReplacingMergeTree(updated_at)
ORDER BY (project_id, merged_at, id);

활동 데이터 예시와 유사하게, ReplacingMergeTree 엔진을 사용합니다. Merge Request 레코드의 여러 열이 변경될 수 있으므로 테이블을 최신 상태로 유지하는 것이 중요합니다.

데이터베이스 테이블은 project_id, merged_at, id 열로 정렬됩니다. 이 정렬은 프로젝트에서 merged_at 열을 쿼리하는 우리의 사용 사례에 대해 테이블 데이터를 최적화합니다.

COUNT 쿼리 다시 작성

먼저, 테이블에 데이터를 생성해 봅시다.

INSERT INTO merge_requests (id, project_id, author_id, milestone_id, label_ids, merged_at, created_at)
SELECT id, project_id, author_id, milestone_id, label_ids, merged_at, created_at
FROM generateRandom('id UInt64, project_id UInt8, author_id UInt8, milestone_id UInt8, label_ids Array(UInt8), merged_at DateTime64(6, \'UTC\'), created_at DateTime64(6, \'UTC\')')
LIMIT 1000000;

일부 정수 데이터 유형은 UInt8로 캐스팅되어 있으므로 서로 다른 행에서 동일한 값일 가능성이 매우 높습니다.

원본 count 쿼리는 데이터를 한 달간만 집계했습니다. ClickHouse를 사용하면 전체 연도의 데이터를 집계할 수 있습니다.

PostgreSQL 기반의 count 쿼리:

SELECT COUNT(*)
FROM "merge_requests"
INNER JOIN "merge_request_metrics" ON "merge_request_metrics"."merge_request_id" = "merge_requests"."id"
WHERE (NOT EXISTS
         (SELECT 1
          FROM "banned_users"
          WHERE (merge_requests.author_id = banned_users.user_id)))
  AND "merge_request_metrics"."target_project_id" = 278964
  AND "merge_request_metrics"."merged_at" >= '2022-12-01 00:00:00'
  AND "merge_request_metrics"."merged_at" <= '2023-01-01 00:00:00'

ClickHouse 쿼리:

SELECT
  toYear(merged_at) AS year,
  toMonth(merged_at) AS month,
  COUNT(*)
FROM merge_requests
WHERE
  project_id = 200
  AND merged_at BETWEEN '2022-01-01 00:00:00'
  AND '2023-01-01 00:00:00'
GROUP BY year, month

이 쿼리는 생성된 데이터보다 훨씬 적은 수의 행을 처리했습니다. ORDER BY 절(기본 키)이 쿼리 실행을 돕고 있습니다.

11 rows in set. Elapsed: 0.010 sec.
Processed 8.19 thousand rows, 131.07 KB (783.45 thousand rows/s., 12.54 MB/s.)

Mean time to merge 쿼리 다시 작성

이 쿼리는 평균 Merge 시간을 다음과 같이 계산합니다: duration(created_at, merged_at) / merge_request_count. 계산은 두 단계로 이루어집니다:

월별 카운트 및 월별 기간 값을 요청합니다.
카운트를 합하여 연간 카운트를 얻습니다.
기간을 합하여 연간 기간을 얻습니다.
기간을 카운트로 나눕니다.

ClickHouse에서는 한 쿼리로 평균 Merge 시간을 계산할 수 있습니다:

SELECT
  SUM(
    dateDiff('second', merged_at, created_at) / 3600 / 24
  ) / COUNT(*) AS mean_time_to_merge -- mean_time_to_merge is in days
FROM merge_requests
WHERE
  project_id = 200
  AND merged_at BETWEEN '2022-01-01 00:00:00'
  AND '2023-01-01 00:00:00'

필터링

위의 데이터베이스 쿼리는 기본 쿼리로 사용할 수 있습니다. 더 많은 필터를 추가할 수 있습니다. 예를 들어, 레이블 및 마일스톤을 필터링하는 경우:

SELECT
  toYear(merged_at) AS year,
  toMonth(merged_at) AS month,
  COUNT(*)
FROM merge_requests
WHERE
  project_id = 200
  AND milestone_id = 15
  AND has(label_ids, 118)
  AND -- array includes 118
  merged_at BETWEEN '2022-01-01 00:00:00'
  AND '2023-01-01 00:00:00'
GROUP BY year, month

특정 필터를 최적화하는 것은 일반적으로 데이터베이스 인덱스로 수행됩니다. 이 특정 쿼리는 8000개의 행을 읽습니다:

1 row in set. Elapsed: 0.016 sec.
Processed 8.19 thousand rows, 589.99 KB (505.38 thousand rows/s., 36.40 MB/s.)

milestone_id에 인덱스를 추가하는 경우:

ALTER TABLE merge_requests
ADD
  INDEX milestone_id_index milestone_id TYPE minmax GRANULARITY 10;
ALTER TABLE
  merge_requests MATERIALIZE INDEX milestone_id_index;

생성된 데이터에 대해 인덱스를 추가해도 성능이 향상되지 않았습니다.

금지된 사용자 필터

GitLab에 최근 추가된 기능으로, 관리자에 의해 금지된 사용자가 작성한 Merge Request을 필터링합니다. 금지된 사용자는 banned_users 데이터베이스 테이블에서 인스턴스 수준에서 추적됩니다.

아이디어 1: 금지된 사용자 ID 열거

이 경우 ClickHouse 데이터베이스 스키마에 구조적 변경이 필요하지 않습니다. 프로젝트의 금지된 사용자를 쿼리하고 쿼리 시간에 값을 필터링할 수 있습니다.

금지된 사용자 가져오기 (PostgreSQL에서):

SELECT user_id FROM banned_users

ClickHouse에서

SELECT
  toYear(merged_at) AS year,
  toMonth(merged_at) AS month,
  COUNT(*)
FROM merge_requests
WHERE
  author_id NOT IN (1, 2, 3, 4) AND -- banned users
  project_id = 200
  AND milestone_id = 15
  AND has(label_ids, 118) AND -- array includes 118
  merged_at BETWEEN '2022-01-01 00:00:00'
  AND '2023-01-01 00:00:00'
GROUP BY year, month

이 접근 방식의 문제는 금지된 사용자의 수가 많아질 수록 쿼리가 커지고 느려질 수 있다는 점입니다.

아이디어 2: `banned_users` 테이블 복제

만약 banned_users 테이블이 수백만 개의 행으로 성장하지 않는다고 가정한다면, 정기적으로 전체 테이블을 ClickHouse로 동기화할 수 있습니다. 이 접근 방식으로 대부분 일관성있는 banned_users 테이블을 ClickHouse 데이터베이스 쿼리에서 사용할 수 있습니다:

SELECT
  toYear(merged_at) AS year,
  toMonth(merged_at) AS month,
  COUNT(*)
FROM merge_requests
WHERE
  author_id NOT IN (SELECT user_id FROM banned_users) AND
  project_id = 200 AND
  milestone_id = 15 AND
  has(label_ids, 118) AND -- array includes 118
  merged_at BETWEEN '2022-01-01 00:00:00' AND '2023-01-01 00:00:00'
GROUP BY year, month

또는 banned_users 테이블을 dictionary 로 저장하여 쿼리 성능을 더욱 향상시킬 수 있습니다.

아이디어 3: 기능 변경

분석 계산을 위해서는 이 특정 필터를 제외하는 것이 적절할 수 있습니다. 이 방식은 차단된 사용자의 Merge Request을 포함해도 통계를 심각하게 왜곡시키지 않는다고 가정합니다.

ClickHouse를 활용한 Merge Request 분석

현재의 성능 문제

예시 쿼리

ClickHouse에 Merge Request 데이터 저장

ClickHouse 데이터 최신 상태 유지

데이터베이스 테이블 구조

COUNT 쿼리 다시 작성

Mean time to merge 쿼리 다시 작성

필터링

금지된 사용자 필터

아이디어 1: 금지된 사용자 ID 열거

아이디어 2: `banned_users` 테이블 복제

아이디어 3: 기능 변경

도움말

기능 사용 가능성과 제품 평가판

도움받기

ClickHouse를 활용한 Merge Request 분석

현재의 성능 문제

예시 쿼리

ClickHouse에 Merge Request 데이터 저장

ClickHouse 데이터 최신 상태 유지

데이터베이스 테이블 구조

COUNT 쿼리 다시 작성

Mean time to merge 쿼리 다시 작성

필터링

금지된 사용자 필터

아이디어 1: 금지된 사용자 ID 열거

아이디어 2: banned_users 테이블 복제

아이디어 3: 기능 변경

도움말

기능 사용 가능성과 제품 평가판

도움받기

아이디어 2: `banned_users` 테이블 복제