모노 레포 관리

모노 레포는 개발 팀의 워크플로우에서 일상적인 부분이 되었습니다. 많은 장점이 있지만, GitLab에서 사용할 때 성능에 도전을 제시할 수 있습니다. 따라서 다음을 알아야 합니다:

  • 리포지터리 특성이 어떻게 성능에 영향을 미칠 수 있는지.
  • 모노 레포를 최적화하는 도구 및 단계.

성능에 미치는 영향

GitLab은 Git 기반 시스템이기 때문에 기가바이트 규모의 대형 리포지터리와 관련된 성능 제약을 겪을 수 있습니다.

모노 레포가 큰 이유는 여러 가지가 있습니다.

대형 리포지터리들은 GitLab에서 사용할 때 성능 위험을 야기할 수 있습니다. 특히 대형 모노 레포가 매일 많은 클론 또는 푸시를 받는 경우가 흔합니다.

대형 리포지터리의 Git 성능 이슈

Git은 객체를 저장할 때 최소한의 공간을 차지하도록 하는 pack파일을 사용합니다. pack파일은 또한 Git 클라이언트와 Git 서버 간에 클론, 페치 또는 푸시할 때 객체를 전송하는 데에도 사용됩니다. pack파일을 사용하는 것은 보통 좋은데, 디스크 공간과 네트워크 대역폭이 필요한 양을 줄입니다.

그러나 pack파일을 생성하려면 CPU와 메모리가 많이 필요합니다. 따라서 리포지터리가 크면 pack파일을 생성하는 모든 Git 작업은 더 많은 객체가 처리되고 전송되기 때문에 비싼 비용과 느린 것으로 변합니다.

GitLab에 대한 결과

GitalyGit 위에 구축된 Git 리포지터리 서비스입니다. 이는 Git의 어떠한 제한 사항도 Gitaly에서 경험되고, 결국 GitLab의 최종 사용자들에게도 영향을 미칩니다.

모노 레포는 하드웨어에도 상당한 영향을 미칠 수 있으며, 경우에 따라 수직 스케일링, 네트워크 또는 디스크 대역폭 제한을 겪을 수 있습니다.

GitLab 설정 최적화

Gitaly 서버의 페치를 최소화하기 위해 다음 전략들을 사용해야 합니다.

논리

Git에서 가장 자원 집약적인 작업은 git-pack-objects 프로세스입니다. 이 프로세스는 모든 커밋 기록과 클라이언트에게 보낼 파일을 찾은 후 pack파일을 생성하는 역할을 담당합니다.

리포지터리가 클수록, 더 많은 커밋, 파일, 브랜치 및 태그가 있으며, 이 작업은 더 비싸지게 됩니다. 이 작업은 메모리와 CPU 모두 사용합니다.

대부분의 git clone 또는 git fetch 트래픽(서버에서 git-pack-objects 프로세스 시작)은 GitLab CI/CD와 같은 자동화된 지속적 통합 시스템에서 발생합니다. 이러한 트래픽이 많은 경우, 대형 리포지터리에 대한 Gitaly 서버에 많은 클론을 집중하면 서버에 심각한 부하가 발생할 수 있습니다.

Gitaly pack-objects 캐시

Gitaly pack-objects 캐시를 활성화하면 서버에 클론 및 페치하는 데 필요한 작업을 줄일 수 있습니다.

논리

pack-objects 캐시git-pack-objects 프로세스가 생성하는 데이터를 캐싱합니다. 클론 또는 페치를 시작한 Git 클라이언트로 응답되는 이 데이터를 Gitaly가 메모리 캐시로 제공함으로써, 여러 클론 또는 페치 호출에 동일한 참조 집합이 요청되면 Gitaly에서 데이터를 다시 생성할 필요가 없습니다.

이는 단일 리포지터리에 대한 높은 수준의 클론 존재 시에 매우 도움이 될 수 있습니다.

더 많은 정보는 Pack-objects 캐시를 참조하세요.

CI/CD에서 동시 클론 감소

CI/CD 로드는 일정 시간에 동시에 발생하는 경향이 있습니다. 따라서 해당 시기에 리포지터리에 대한 Git 요청이 두드러지게 증가할 수 있으며, 이는 CI/CD와 사용자 모두에게 성능 저하로 이어질 수 있습니다.

여러분은 이러한 시기를 서로 다른 시간에 실행될 수 있게 구성하여 CI/CD pipeline 동시성을 줄일 수 있습니다. 예를 들어, 동일한 시간에 실행되는 한 그룹과 몇 분 후에 실행되는 다른 그룹으로 구성하는 것입니다.

얕은 클론

CI/CD 시스템에서 git clone 또는 git fetch 호출에 --depth 옵션을 설정해야 합니다.

GitLab 및 GitLab Runner는 기본적으로 얕은 클론을 수행합니다.

가능하다면 클론 깊이를 10과 같은 작은 수로 설정하세요. 얕은 클론은 지정된 커밋 수까지의 가장 최근 집합의 변경 사항만 Git 요청하게끔 만듭니다.

이렇게 하면 Git 리포지터리로부터 변경 사항을 검색하는 속도를 크게 향상시킬 수 있으며, 특히 리포지터리가 아주 긴 백로그와 큰 파일의 집합을 가지고 있는 경우에 유용합니다.

다음은 GIT_DEPTH를 설정한 GitLab CI/CD 파이프라인 구성 예시입니다.

variables:
  GIT_DEPTH: 10

test:
  script:
    - ls -al

Git 전략

가능하다면 CI/CD 시스템에서 git fetch를 사용하는 것이 git clone보다 낫습니다. 이는 리포지터리의 작업 복사본을 유지할 수 있는 경우에 사용하세요.

기본적으로 GitLab은 대형 리포지터리에 대해 fetch Git 전략을 사용하도록 구성되어 있습니다.

논리

git clone은 처음부터 전체 리포지터리를 가져오는 반면, git fetch는 이미 리포지터리에 존재하지 않는 참조를 서버에 요청합니다. 당연히 git fetch는 서버에게 더 적은 작업을 유도합니다. git-pack-objects는 모든 브랜치와 태그를 거쳐 모든 것을 한 번에 묶는 대신, 일부 참조만을 고려하도록 해 데이터 전송량을 줄입니다.

Git 클론 경로

GIT_CLONE_PATH를 사용하여 리포지터리의 클론 경로를 제어할 수 있습니다. 이는 큰 리포지터리를 사용할 때 영향을 미칠 수 있습니다.

GitLab Runner 관점에서 포크는 별도의 리포지터리와 별도의 작업트리로 저장됩니다. 이는 GitLab Runner가 작업트리 사용을 최적화하지 못하게 만들고, 이를 사용하도록 지시해야 할 수 있음을 의미합니다.

이 경우, GitLab Runner 실행자가 해당 프로젝트에만 사용되고 다른 프로젝트와 공유되지 않도록하여 프로세스를 효율적으로 만들 수 있습니다.

GIT_CLONE_PATH는 반드시 $CI_BUILDS_DIR에서 설정해야 합니다. 디스크에서 임의의 경로를 선택할 수 없습니다.

Git 정리 플래그

GIT_CLEAN_FLAGS를 사용하여 각 CI/CD 작업에 대해 git clean 명령을 실행해야 하는지 여부를 제어할 수 있습니다. 기본적으로 GitLab은 다음을 보장합니다:

  • 지정된 SHA에서 작업트리를 보유합니다.
  • 리포지터리가 깨끗합니다.

대형 리포지터리에서는 git clean이 디스크 I/O 비용이 많이 드는 경우가 있으므로, GIT_CLEAN_FLAGS: -ffdx -e .build/와 같이 이를 제어하고 비활성화할 수 있습니다. 이는 연속된 실행 간에 작업트리에서 일부 디렉터리를 제거하는 것을 제어하여 즉각적인 빌드를 가속화할 수 있습니다. 특히 기존 머신을 재사용하고 있는 경우, 이것은 가장 큰 효과를 가져다 줍니다.

GIT_CLEAN_FLAGS에서 허용되는 정확한 매개변수에 대한 설명은 git clean 문서를 참조하세요. 사용 가능한 매개변수는 Git 버전에 따라 다를 수 있습니다.

Git fetch extra flags

GIT_FETCH_EXTRA_FLAGS를 사용하면 추가 플래그를 전달하여 git fetch 동작을 수정할 수 있습니다.

예를 들어, 프로젝트에 CI/CD 작업이 의존하지 않는 많은 태그가 포함되어 있는 경우, 추가 플래그로 --no-tags를 추가하여 가져오기를 더 빠르고 간결하게 만들 수 있습니다.

또한, 리포지터리에 태그가 많이 없는 경우, --no-tags를 설정하는 것이 어떤 경우에는 큰 차이를 만들 수 있습니다. 만약 CI/CD 빌드가 Git 태그에 의존하지 않는다면, --no-tags 설정이 시도할 가치가 있습니다.

자세한 내용은 GIT_FETCH_EXTRA_FLAGS 문서를 참조하세요.

Gitaly 협상 시간 초과 설정

fatal: the remote end hung up unexpectedly 오류가 발생할 수 있습니다.

  • 대규모 리포지터리.
  • 병렬로 많은 리포지터리.
  • 동일한 대규모 리포지터리를 병렬로 처리하는 경우.

기본 협상 시간 초과 값을 늘려 이 문제를 완화할 수 있습니다. 자세한 정보는 협상 시간 초과 설정을 참조하세요.

리포지터리 최적화

모노리포의 GitLab 확장성을 유지하는 또 다른 방법은 리포지터리 자체를 최적화하는 것입니다.

리포지터리 프로파일링

대규모 리포지터리는 일반적으로 Git에서 성능 문제를 겪습니다. 리포지터리의 크기가 큰 이유를 알면 성능 문제를 피하는 데 도움이 될 수 있습니다.

git-sizer를 사용하여 리포지터리 특성의 스냅샷을 얻고 모노리포의 문제 측면을 발견할 수 있습니다.

예를 들어:

Processing blobs: 1652370
Processing trees: 3396199
Processing commits: 722647
Matching commits to trees: 722647
Processing annotated tags: 534
Processing references: 539
| Name                         | Value     | Level of concern               |
| ---------------------------- | --------- | ------------------------------ |
| Overall repository size      |           |                                |
| * Commits                    |           |                                |
|   * Count                    |   723 k   | *                              |
|   * Total size               |   525 MiB | **                             |
| * Trees                      |           |                                |
|   * Count                    |  3.40 M   | **                             |
|   * Total size               |  9.00 GiB | ****                           |
|   * Total tree entries       |   264 M   | *****                          |
| * Blobs                      |           |                                |
|   * Count                    |  1.65 M   | *                              |
|   * Total size               |  55.8 GiB | *****                          |
| * Annotated tags             |           |                                |
|   * Count                    |   534     |                                |
| * References                 |           |                                |
|   * Count                    |   539     |                                |
...

... 중략 ...
                    
                    | Number of files        [9] |  62.3 k   | *                              |
| * Total size of files    [9] |   747 MiB |                                |
| * Number of symlinks    [10] |    40     |                                |
| * Number of submodules       |     0     |                                |

이 예시에서는 몇 가지 항목이 높은 관심 수준으로 제기됩니다. 해결하는 방법에 대한 정보는 다음 섹션을 참조하세요:

  • 많은 참조.
  • 큰 블롭.

많은 참조

Git의 참조는 특정 커밋을 가리키는 브랜치 및 태그 이름입니다. git for-each-ref 명령을 사용하여 리포지터리에 있는 모든 참조를 나열할 수 있습니다. 리포지터리의 참조가 많은 경우, 명령의 성능에 악영향을 미칠 수 있습니다. 이 문제를 해결하려면 pack-refs를 사용합니다.

글로벌 Git 구성에 packed-refs 파일을 추가하면 명령의 성능을 향상시킬 수 있습니다. 다른 Git 작업이 숨겨진 참조를 무시할 수 있습니다.

Git 2.42.0 및 그 이후 버전에서 서로 다른 Git 작업을 할 때 숨겨진 참조를 무시할 수 있습니다.

큰 덩어리

덩어리는 Git 객체로, 사용자가 Git 리포지터리에 커밋한 파일의 내용을 저장하고 관리하는데 사용됩니다.

큰 덩어리의 문제점

큰 덩어리는 Git에게 문제를 일으킬 수 있습니다. Git은 큰 이진 데이터를 효율적으로 처리하지 못합니다. git-sizer 출력에서 10MB 이상의 덩어리는 리포지터리에 큰 이진 데이터가 있는 것을 의미합니다.

소스 코드는 보통 효율적으로 압축될 수 있지만, 이진 데이터는 이미 압축되어있는 경우가 많습니다. 이는 Git이 pack 파일을 생성할 때 큰 덩어리를 압축하려고 할 때 성공할 가능성이 낮다는 것을 의미합니다. 이로 인해 더 큰 pack 파일이 생성되며, Git 클라이언트와 서버 모두에서 더 많은 CPU, 메모리 및 대역폭을 사용하게 됩니다.

클라이언트 측에서는 Git이 덩어리 내용을 pack 파일(일반적으로 .git/objects/pack/ 아래)과 일반 파일(작업트리에서)에 모두 저장하기 때문에, 보통 소스 코드보다 더 많은 디스크 공간이 필요합니다.

큰 덩어리에 대한 LFS 사용

이진 또는 덩어리 파일(예: 패키지, 오디오, 비디오, 또는 그래픽)을 Large File Storage (LFS) 객체로 저장합니다. LFS를 사용하면 객체가 외부에 저장되어 리포지터리 내 객체의 수와 크기가 줄어듭니다. 외부 객체 리포지터리에 객체를 저장하면 성능이 향상됩니다.

더 많은 정보는 Git LFS 문서를 참조하십시오.

참조 아키텍처

크고 복잡한 조직에서 보통 큰 리포지터리를 찾을 수 있습니다. GitLab 테스트 플랫폼 및 지원 팀은 GitLab을 대규모로 배포하는 권장 방식인 몇 가지 참조 아키텍처를 제공합니다.

이러한 유형의 설정에서는 성능을 향상시키기 위해 GitLab 환경이 참조 아키텍처와 일치해야 합니다.