모노 리포지터리 관리

모노 리포지터리는 개발 팀의 워크플로 중 일반적인 부분이 되었습니다. 많은 장점을 갖고 있지만, GitLab에서 사용할 때 성능 문제가 발생할 수 있습니다. 따라서, 다음을 알아야 합니다.

리포지터리 특성이 성능에 미치는 영향
모노 리포지터리를 최적화하기 위한 도구 및 단계

성능에 미치는 영향

GitLab은 Git 기반 시스템이므로 기가바이트 단위의 대규모 리포지터리와 관련된 성능 제약을 겪을 수 있습니다.

모노 리포지터리는 다양한 이유로 크기가 커질 수 있습니다.

큰 리포지터리는 GitLab에서 사용할 때 성능 리스크를 야기할 수 있으며, 특히 대용량 모노 리포지터리가 많은 복제나 푸시를 받을 때에는 이는 흔한 일입니다.

Git 자체는 모노 리포지터리를 처리할 때 성능 제한이 있습니다.

모노 리포지터리는 하드웨어에도 영향을 미치며, 종종 수직 스케일링 및 네트워크 또는 디스크 대역폭 제한과 같은 제약을 받을 수 있습니다.

Gitaly는 Git 위에 구축된 Git 리포지터리 서비스입니다. 이는 Git의 제한이 Gitaly에서 경험되며, 결국 GitLab의 최종 사용자도 영향을 받게 됩니다.

GitLab 설정 최적화

Gitaly 서버의 가져오기(fetch)를 최소화하도록 다음 전략들을 사용해야 합니다.

이유

Git에서 가장 자원을 많이 소비하는 작업은 git-pack-objects 프로세스입니다. 이 작업은 클라이언트에게 보낼 커밋 히스토리 및 파일을 모두 찾아내는 데 사용됩니다.

리포지터리가 클수록 해당 작업은 더욱 비용이 많이 듭니다. 커밋, 파일, 브랜치 및 태그가 많을수록 이 작업의 비용이 증가하며, 이 과정에서 메모리와 CPU가 많이 사용됩니다.

대부분의 git clone 또는 git fetch 트래픽(서버에서 git-pack-objects 프로세스를 시작하는 트래픽)은 GitLab CI/CD나 다른 CI/CD 시스템과 같은 자동화된 지속적 통합 시스템에서 발생합니다. 이러한 트래픽이 많을 경우, 대규모 리포지터리에 많은 복제를 요청하는 것은 서버에 상당한 압력을 가할 수 있습니다.

Gitaly pack-objects 캐시

Gitaly pack-objects 캐시를 활성화하면 복제 및 가져오기(fetch)에 대한 서버의 작업을 줄일 수 있습니다.

이유

pack-objects 캐시는 git-pack-objects 프로세스가 생성하는 데이터를 캐싱합니다. 이 응답은 복제 또는 가져오기를 시작하는 Git 클라이언트에게 보내집니다. 여러 개의 가져오기(fetches)가 동일한 참조 집합을 요청하는 경우, Gitaly의 메모리 내 캐시에서 데이터를 다시 생성할 필요가 없으며 대신 Gitaly가 유지하는 메모리 상 캐시에서 해당 데이터를 서빙할 수 있습니다.

이는 단일 리포지터리에 대해 많은 복제를 요청하는 경우에 큰 도움이 됩니다.

자세한 내용은 Pack-objects 캐시를 참조하세요.

CI/CD에서 동시 복제 감소

CI/CD 부하는 파이프라인이 일정 시간 동안 예약되므로 동시에 발생하는 경향이 있습니다. 이로 인해 해당 시기에 리포지터리에 대한 Git 요청이 현저히 증가하여 CI/CD 및 사용자 모두의 성능이 저하될 수 있습니다.

파이프라인을 서로 다른 시기에 실행하여 CI/CD 파이프라인 동시성을 줄이세요. 예를 들어, 한 시간에 한 세트를 실행하고 그 후 몇 분 후에 다른 세트를 실행시킵니다.

Shallow 복제

CI/CD 시스템에서 git clone 또는 git fetch 호출에 --depth 옵션을 설정하세요.

GitLab 및 GitLab Runner는 기본적으로 shallow clone을 수행합니다.

가능하다면, 복제 깊이를 10과 같은 작은 숫자로 설정하세요. Shallow 복제를 통해 Git은 특정 브랜치의 최신 변경 사항만 요청하므로 변경 사항을 가져오는 것이 크게 가속화됩니다.

다음은 GitLab CI/CD 파이프라인 구성 예제로 GIT_DEPTH를 설정하는 것입니다.

variables:
  GIT_DEPTH: 10

test:
  script:
    - ls -al

Git 전략

가능하다면 CI/CD 시스템에서는 작업 복제본을 유지할 수 있도록 git clone 대신에 git fetch를 사용하세요.

기본적으로 GitLab은 fetch Git 전략을 사용하도록 구성되어 있으며, 이는 대규모 리포지터리에 권장됩니다.

이유

git clone은 리포지터리 전체를 처음부터 가져오지만, git fetch는 이미 리포지터리에 존재하지 않는 참조를 서버에 요청합니다. 당연히, git fetch는 서버에 일을 덜 시키게 합니다. git-pack-objects는 모든 브랜치 및 태그를 확인하고 모든 것을 패킹해서 보내지는 않고, 일부 참조에 대해서만 신경쓰게 됩니다. 이 전략은 데이터 전송량을 줄이기도 합니다.

Git 복제 경로

GIT_CLONE_PATH를 사용하여 리포지터리를 복제하는 위치를 제어할 수 있습니다. 이는 포크 기반 워크플로를 많이 사용하는 경우에 영향을 미칠 수 있는데,

GitLab Runner의 관점에서 포크는 별도의 리포지터리 및 별도의 작업트리로 저장됩니다. 이는 GitLab Runner가 작업트리의 사용을 최적화할 수 없게 하며, 이를 해결하기 위해 GitLab Runner에게 그런 지시를 내려야 할 수 있습니다.

이러한 경우, 가능하다면 GitLab Runner 실행자를 해당 프로젝트에만 사용하도록 만들어서 이 프로세스를 효율적으로 만드는 것이 이상적입니다.

GIT_CLONE_PATH는 $CI_BUILDS_DIR에서 설정된 디렉터리여야 합니다. 디스크에서 어떤 경로든 선택할 수는 없습니다.

Git 클린 플래그

GIT_CLEAN_FLAGS를 사용하여 각 CI/CD 작업에 대해 git clean 명령을 실행해야 하는지 여부를 제어할 수 있습니다. 기본적으로 GitLab은 다음을 보장합니다.

지정된 SHA에서 작업 트리가 있습니다.
깨끗한 리포지터리(repository)를 가지고 있습니다.

GIT_CLEAN_FLAGS는 none으로 설정하면 비활성화됩니다. 매우 큰 리포지터리의 경우 디스크 I/O가 많이 발생하기 때문에 이것이 원하는 동작일 수 있습니다. 예를 들어 GIT_CLEAN_FLAGS: -ffdx -e .build/와 같이 설정하여 연이은 실행 사이에 작업 트리의 일부 디렉터리를 제어하고 제거를 비활성화함으로써 증분 빌드를 가속화할 수 있습니다. 기존 머신을 재사용하고 빌드에 재사용할 수 있는 기존 작업 트리가 있는 경우 이 효과가 가장 큽니다.

정확한 매개변수에 대한 자세한 내용은 git clean의 문서를 참조하십시오. 사용 가능한 매개변수는 Git 버전에 따라 달라집니다.

Git 페치(extra) 플래그

GIT_FETCH_EXTRA_FLAGS를 사용하여 추가 플래그를 전달하여 git fetch 동작을 수정할 수 있습니다.

예를 들어, 프로젝트에 많은 수의 태그가 포함되어 있지만 CI/CD 작업이 의존하지 않는 경우, --no-tags를 추가하여 가져오기(fetch)를 더 빠르고 콤팩트하게 만들 수 있습니다.

또한, 리포지터리에 태그가 많이 포함되어 있지 않은 경우에는 --no-tags가 일부 경우에 큰 차이를 만들 수 있습니다. 만약 CI/CD 빌드가 Git 태그에 의존하지 않는 경우, --no-tags를 설정해 보는 것이 좋습니다.

자세한 내용은 GIT_FETCH_EXTRA_FLAGS 문서를 참조하십시오.

Gitaly 협상 시간 초과 설정

잊지 말고, 실패 또는 보관을 시도할 때 fatal: the remote end hung up unexpectedly 에러를 겪을 수 있습니다.

큰 리포지터리.
많은 리포지터리를 병렬로.
동일한 큰 리포지터리를 병렬로.

이 문제를 완화하려면 기본 협상 시간 초과 값을 늘려 보는 것이 좋습니다. 자세한 내용은 협상 시간 초과 설정을 참조하십시오.

리포지터리 최적화

모노레포를 사용하여 GitLab을 확장 가능하게 유지하기 위한 또 다른 방법은 리포지터리 자체를 최적화하는 것입니다.

리포지터리 프로파일링

대형 리포지터리는 일반적으로 Git에서 성능 문제를 겪습니다. 왜 리포지터리가 큰지 알면 문제 해결 전략을 개발하는 데 도움이 됩니다.

git-sizer를 사용하여 리포지터리 특성의 스냅샷을 얻고 모노레포의 문제 측면을 발견할 수 있습니다.

예를 들어:

블롭 처리: 1652370
트리 처리: 3396199
커밋 처리: 722647
트리에 대한 커밋 일치: 722647
주석 태그 처리: 534
참조 처리: 539
| 이름                         | 값     | 우려 수준               |
| ---------------------------- | ------- | ---------------------- |
| 전체 리포지터리 크기            |_        |                          |
| * 커밋                      |_        |                          |
|   * 개수                    |   723 k  | *                      |
|   * 총 크기               |   525 MiB | **                     |
| * 트리                      |_        |                          |
|   * 개수                    |  3.40 M  | **                     |
|   * 총 크기               |  9.00 GiB | ****                   |
|   * 총 트리 항목         |   264 M  | *****                  |
| * 블롭                      |_        |                          |
|   * 개수                    |  1.65 M  | *                      |
|   * 총 크기               |  55.8 GiB | *****                  |
| * 주석 태그                 |_        |                          |
|   * 개수                    |   534    |                          |
| * 참조                      |_        |                          |
|   * 개수                    |   539    |                          |
|                            |_        |                          |
| 가장 큰 객체               |_        |                          |
| * 커밋                      |_        |                          |
|   * 최대 크기           [1] |  72.7 KiB | *                      |
|   * 최대 부모수        [2] |    66     | ******                 |
| * 트리                      |_        |                          |
|   * 최대 항목수        [3] |  1.68 k  | *                      |
| * 블롭                      |_        |                          |
|   * 최대 크기           [4] |  13.5 MiB | *                      |
|                            |_        |                          |
| 히스토리 구조               |_        |                          |
| * 최대 히스토리 깊이    |_        |                          |
|   * 최대 태그 깊이      [5] |    1     |                          |
|                            |_        |                          |
| 가장 큰 체크아웃           |_        |                          |
| * 디렉터리 수           [6] |  4.38 k  | **                     |
| * 최대 경로 깊이      [7] |    13     | *                      |
| * 최대 경로 길이      [8] |   134 B  | *                      |
| * 파일 수                [9] |  62.3 k  | *                      |
| * 파일 총 크기         [9] |   747 MiB |                          |
| * 심볼릭 링크 수      [10] |    40     |                          |
| * 서브모듈 수             |    0     |                          |

이 예에서 몇 가지 항목이 우려되는 수준으로 제기됩니다. 다음 섹션에서는 해결 방법에 대해 자세히 설명합니다.

많은 참조.
큰 블롭.

많은 참조

Git의 참조는 특정 커밋을 가리키는 브랜치와 태그 이름입니다. git for-each-ref 명령을 사용하여 리포지터리에 존재하는 모든 참조를 나열할 수 있습니다. 리포지터리에 많은 참조가 있는 경우 명령의 성능에 해를 끼칠 수 있습니다. 왜냐하면 Git은 모든 참조를 .git/refs 폴더의 개별 파일로 저장합니다. 참조 수가 증가함에 따라 특정 참조를 찾는 시간도 증가합니다. 따라서 Git이 참조를 구문 분석할 때마다 파일 시스템의 추가 시간 지연으로 인해 지연이 발생합니다.

이 문제를 해결하기 위해 Git은 pack-refs를 사용합니다. 간단히 말해서, 각 참조를 개별 파일로 저장하는 대신 Git은 해당 리포지터리의 모든 참조를 포함하는 단일 .git/packed-refs 파일을 생성합니다. 이 파일은 저장 공간을 줄이고 단일 파일 내에서 참조를 찾는 것이 디렉터리 내 파일을 찾는 것보다 더 빠르기 때문에 성능을 향상시킵니다. 그러나 참조를 만들거나 업데이트하는 것은 여전히 느슨한 파일을 통해 이루어지며 packed-refs 파일에 추가되지 않습니다. packed-refs 파일을 다시 생성하려면 git pack-refs를 실행하십시오.

Gitaly는 하우스키핑 중에 git pack-refs를 실행하여 느슨한 참조를 packed-refs 파일로 이동시킵니다. 이는 대부분의 리포지터리에 대해 매우 유익하지만 쓰기 집중적인 리포지터리는 이 문제를 가지고 있습니다.

참조를 생성하거나 업데이트하면 새로운 느슨한 파일이 생성됩니다..
참조를 삭제하면 기존의 packed-refs 파일을 수정하여 참조를 제거해야 합니다.

이러한 문제로 인해 명령의 성능에 악영향을 줄 수 있습니다.

또한, 리포지터리로부터 가져오거나 복제를 할 때 서버에서 클라이언트로 누락된 객체를 전송합니다. 많은 참조가 있는 경우, Git은 모든 참조를 반복하고 각 참조에 대한 내부 그래프 구조를 탐색하여 클라이언트로 전송할 누락된 객체를 찾습니다. 반복 및 탐색은 CPU 집약적인 작업이기 때문에 이러한 명령의 지연 시간이 증가하게 됩니다.

활발한 활동의 리포지터리에서는 이러한 이유로 모든 작업이 느려지고 각 작업이 후속 작업을 지연시킵니다.

완화 전략

대규모 참조가 있는 모노레포의 효과를 완화하려면 다음과 같은 작업을 수행하십시오:

이전 브랜치를 정리하는 자동화된 프로세스를 생성합니다.
특정 참조가 클라이언트에게 표시될 필요가 없는 경우, transfer.hideRefs 구성 설정을 사용하여 해당 참조를 숨깁니다. Gitaly는 서버 내 Git 구성을 무시하기 때문에 Gitaly 구성 자체를 /etc/gitlab/gitlab.rb에서 변경해야 합니다.
```
gitaly['configuration'] = {
  # ...
  git: {
    # ...
    config: [
      # ...
      { key: "transfer.hideRefs", value: "refs/namespace_to_hide" },
    ],
  },
}
```
Git 2.42.0 이상에서는 다른 Git 작업을 수행할 때 숨겨진 참조를 건너뛸 수 있습니다.

대용량 블롭

대용량 파일(명칭이 Git에서는 블롭으로 불림)의 존재는 Git에게 효율적으로 대응하지 못하기 때문에 문제가 될 수 있습니다. 만약 git-sizer 출력에 10MB를 넘는 블롭이 있을 경우, 이는 리포지터리에 이진 데이터가 있는 것을 의미합니다.

대용량 블롭을 위한 LFS 사용

이진 또는 블롭 파일 (예: 패키지, 오디오, 비디오, 또는 그래픽)은 Large File Storage (LFS) 객체로 저장합니다. LFS를 사용하면 객체가 외부에 저장되어 리포지터리 내 객체의 수와 크기를 줄일 수 있습니다. 외부 객체 리포지터리에 객체를 저장하면 성능을 향상시킬 수 있습니다.

자세한 내용은 Git LFS 문서를 참조하십시오.

참조 아키텍처

대규모 사용자를 보유한 대규상위 조직에서 대규모 리포지터리를 찾을 수 있습니다. GitLab 품질 엔지니어링 및 지원 팀은 대규모에서 GitLab을 배포하는 권장 방법인 참조 아키텍처를 제공합니다.

이러한 유형의 설정에서는 성능을 향상시키기 위해 GitLab 환경이 참조 아키텍처와 일치해야 합니다.