모노레포 관리

모노레포는 개발 팀의 워크플로우에서 정기적인 부분이 되었습니다. 많은 이점을 가지고 있지만 GitLab에서 사용할 때 성능에 도전을 제시할 수 있습니다. 따라서, 다음을 알아야 합니다:

  • 저장소 특성이 성능에 미치는 영향
  • 모노레포를 최적화하는 도구 및 단계

성능에 미치는 영향

GitLab은 Git 기반 시스템이기 때문에 기가바이트 단위의 대규모 저장소에 대한 제약 사항이 Git과 유사하게 적용됩니다.

모노레포는 다양한 이유로 크기가 큰 경우가 있습니다.

대규모 저장소는 GitLab에서 사용될 때 성능 리스크를 제시할 수 있으며, 특히 대규모 모노레포가 하루에 많은 복제나 푸시를 받는 경우에는 일반적입니다.

Git 자체는 모노레포 처리에 있어서 성능 제한이 존재합니다.

모노레포는 하드웨어에도 뚜렷한 영향을 미칠 수 있으며, 세로 확장 및 네트워크 또는 디스크 대역폭 제한과 같은 제한 사항에 부딪힐 수 있습니다.

GitalyGit 위에 구축된 Git 저장소 서비스입니다. 따라서 Git의 제약 사항은 Gitaly에서 경험되며, 이로써 GitLab의 최종 사용자에게 영향을 줍니다.

GitLab 설정 최적화

Gitaly 서버의 패치를 최소화하기 위해 다음 전략 중 많은 수를 사용해야 합니다.

이유

Git에서 가장 리소스 집약적인 작업은 git-pack-objects 프로세스입니다. 이 프로세스는 클라이언트로 보낼 모든 커밋 히스토리와 파일을 결정하는 역할을 합니다.

저장소의 크기가 클수록 해당 저장소에 있는 커밋, 파일, 브랜치, 태그가 많아지고 이 작업은 더 비용이 많이 듭니다. 이 작업 중에는 메모리와 CPU가 많이 사용됩니다.

대부분의 git clone 또는 git fetch 트래픽(이는 서버에서 git-pack-objects 프로세스를 시작하는 것을 의미함)은 GitLab CI/CD 또는 다른 CI/CD 시스템과 같은 자동화된 지속적 통합 시스템에서 주로 발생합니다. 이러한 트래픽이 많을 경우, 대규모 저장소에 대한 많은 복제가 Gitaly 서버에 부담을 줄 수 있습니다.

Gitaly pack-objects 캐시

Gitaly pack-objects 캐시를 활성화하면, 복제 및 페치 작업에 대한 서버의 작업을 줄일 수 있습니다.

이유

pack-objects 캐시git-pack-objects 프로세스가 생성하는 데이터를 캐시합니다. 이 응답은 복제 또는 페치 작업을 시작하는 Git 클라이언트에게 보내집니다. 여러 번의 페치가 동일한 참조 집합을 요청하는 경우, Gitaly 서버의 Git은 각 복제 또는 페치 호출마다 응답 데이터를 다시 생성할 필요가 없으며, 대신 Gitaly가 유지하는 인메모리 캐시에서 해당 데이터를 제공합니다.

이렇게 함으로써 단일 저장소에 대한 높은 복제율이 있는 상황에서 매우 도움이 될 수 있습니다.

더 많은 정보는 Pack-objects 캐시를 참조하세요.

CI/CD에서 동시 복제 감소

CI/CD 부하는 파이프라인이 일정 기간에 동시에 예약되기 때문에 동시성을 가집니다. 결과적으로 리포지토리에 대한 Git 요청이 이러한 시간동안 현저히 증가할 수 있으며, 이로 인해 CI/CD 및 사용자 모두에게 성능을 저하시킬 수 있습니다.

파이프라인의 동시성을 줄이기 위해 다른 시간에 실행될 수 있도록 파이프라인을 격자막으로 만드세요. 예를 들어, 한 시간에 한 세트가 동작하고 그 다음 몇 분 후에 다른 세트가 동작하도록 설정하세요.

Shallow cloning

CI/CD 시스템에서 git clone 또는 git fetch 호출에서 --depth 옵션을 설정하세요.

GitLab과 GitLab Runner는 기본적으로 얕은 클론을 수행합니다.

가능하다면, GIT_DEPTH와 같은 작은 숫자로 클론 깊이를 설정하세요. 얕은 클론을 사용하면 지정된 커밋 수만큼의 각 브랜치에 대한 최신 변경 세트만 Git에 요청하므로 데이터 전송량을 크게 감소시킬 수 있습니다.

다음은 GitLab CI/CD 파이프라인 구성 예제로 GIT_DEPTH를 설정하는 부분입니다.

variables:
  GIT_DEPTH: 10

test:
  script:
    - ls -al

Git 전략

가능하다면 CI/CD 시스템에서 git clone 대신에 git fetch를 사용하여 저장소의 작업 복사본을 유지하세요.

기본적으로 GitLab은 대규모 저장소에 권장되는 fetch Git 전략을 사용하도록 구성되어 있습니다.

근거

git clone은 처음부터 전체 저장소를 가져오는 반면, git fetch는 이미 저장소에 존재하지 않은 참조를 서버에 요청합니다. 당연히 git fetch는 서버에 덜한 작업을 유발합니다. git-pack-objects는 모든 브랜치와 태그를 거치고 모두를 하나의 응답으로 구성할 필요가 없게 됩니다. 대신, 팩업할 참조의 하위 집합에만 신경을 써야 합니다. 이 전략은 데이터 전달량을 줄이기도 합니다.

Git clone 경로

GIT_CLONE_PATH를 사용하면 저장소를 복제하는 위치를 제어할 수 있습니다. 이는 포크 기반 워크플로우로 큰 저장소를 집중적으로 사용하는 경우 영향을 미칠 수 있습니다.

GitLab Runner 관점에서 포크는 별도의 저장소로 저장되며 별도의 작업 트리를 가지게 됩니다. 즉, GitLab Runner는 워크 트리의 사용을 최적화할 수 없으며 사용 방법을 지시해야 할 수 있습니다.

이러한 경우, 이 프로세스를 더 효율적으로 만들기 위해 IDEALLY, GitLab Runner executor를 특정 프로젝트에만 사용하도록 지정하고 이를 다른 프로젝트 간에 공유하지 않는 것이 좋습니다.

GIT_CLONE_PATH$CI_BUILDS_DIR에 설정된 디렉토리에 있어야 합니다. 디스크에서 임의로 경로를 선택할 수는 없습니다.

긴 필드 사이즈(대용량 커밋 보관및 빌드시 사용)의 경우, --no-tags가 추가되어 있으며, 태그 삭제를 제어하고 다음 실행 간의 워크트리에서 일부 디렉터리의 제거를 비활성화하여 증분적 빌드를 가속화할 수 있습니다. 이는 기존 시스템을 재사용하고 빌드용으로 기존 워크트리를 재사용할 수 있는 경우 가장 큰 효과를 발휘합니다.

Git clean 플래그

GIT_CLEAN_FLAGS를 사용하면 각 CI/CD 작업마다 git clean 명령을 실행할지 여부를 제어할 수 있습니다. 기본적으로 GitLab은 다음을 보장합니다.

  • 주어진 SHA에 워크트리가 있는지 확인합니다.
  • 저장소가 깨끗한지 확인합니다.

GIT_CLEAN_FLAGSnone로 설정하면 비활성화됩니다. 대용량 저장소의 경우 git clean이 디스크 I/O 집중적이기 때문에 원하는 경우가 있습니다. GIT_CLEAN_FLAGS: -ffdx -e .build/ (예시)로 제어하여 일부 디렉터리의 제거를 비활성화할 수 있으며, 이는 증분적 빌드를 가속화할 수 있습니다. 존재하는 기계를 재사용하고 기존 워크트리를 재사용하는 경우 가장 큰 효과를 발휘합니다.

Git fetch 추가 플래그

GIT_FETCH_EXTRA_FLAGS를 사용하여 추가 플래그를 전달하여 git fetch의 동작을 수정할 수 있습니다.

예를 들어, 프로젝트에 사용되지 않는 많은 태그가 포함되어 있다면, CI/CD 작업에 의존하지 않는 다수의 태그를 가로채기 위해 추가 플래그에 --no-tags를 추가할 수 있습니다.

또한 저장소에 태그가 많이 포함되어 있지 않은 경우, --no-tags는 이에따라 큰 차이를 만들어낼 수 있습니다. CI/CD 빌드가 Git 태그에 의존하지 않는 경우, --no-tags 설정은 시도할 가치가 있습니다.

Gitaly 협상 시간 초과 구성

다음과 같은 경우 fatal: the remote end hung up unexpectedly과 같은 오류가 발생할 수 있습니다:

  • 대형 저장소.
  • 병렬로 많은 저장소.
  • 동일한 대형 저장소를 병렬로 사용.

기본 협상 시간 초과 값을 증가시켜 이 문제를 완화할 수 있습니다. 추가 정보는 협상 시간 초과 구성을 참조하세요.

저장소 최적화

단일 저장소에 대한 GitLab 확장성 유지에 대한 다른 방법은 저장소 자체를 최적화하는 것입니다.

저장소 프로파일링

대형 저장소는 일반적으로 Git에서 성능 이슈를 겪습니다. 저장소가 크기 때문에 이 레포지토리가 큰 이유를 알면 성능 문제를 피하는 방법을 개발하는 데 도움이 될 수 있습니다.

git-sizer를 사용하여 저장소 특성에 대한 스냅샷을 얻고 당신의 단일 저장소의 문제 점을 발견할 수 있습니다.

예를 들면:

블롭 처리: 1652370
트리 처리: 3396199
커밋 처리: 722647
커밋을 트리에 매핑: 722647
주석이 달린 태그 처리: 534
참조 처리: 539
| 이름                         | 값     | 우려 수준               |
| ---------------------------- | ----- | ---------------------- |
| 전체 저장소 크기             |       |                        |
| * 커밋                       |       |                        |
|   * 갯수                    |   723 k | *                      |
|   * 총 크기                 |   525 MiB | **                 |
| * 트리                       |       |                        |
|   * 갯수                    |  3.40 M | **                     |
|   * 총 크기                 |  9.00 GiB | ****               |
|   * 총 트리 엔트리         |   264 M | *****                  |
| * 블롭                       |       |                        |
|   * 갯수                    |  1.65 M | *                      |
|   * 총 크기                 |  55.8 GiB | *****               |
| * 주석이 달린 태그            |       |                        |
|   * 갯수                    |   534   |                        |
| * 참조                      |       |                        |
|   * 갯수                    |   539   |                        |
|                            |       |                        |
| 가장 큰 객체                 |       |                        |
| * 커밋                       |       |                        |
|   * 최대 크기           [1] |  72.7 KiB | *                    |
|   * 최대 부모수        [2] |    66   | ******                |
| * 트리                       |       |                        |
|   * 최대 엔트리       [3] |  1.68 k | *                      |
| * 블롭                       |       |                        |
|   * 최대 크기           [4] |  13.5 MiB | *                    |
|                            |       |                        |
| 히스토리 구조                 |       |                        |
| * 최대 히스토리 깊이         |   136 k   |                        |
| * 최대 태그 깊이        [5] |     1     |                        |
|                            |       |                        |
| 가장 큰 체크아웃             |       |                        |
| * 디렉토리 수         [6] |  4.38 k   | **                  |
| * 최대 경로 깊이    [7] |    13     | *                   |
| * 최대 경로 길이    [8] |   134 B   | *                   |
| * 파일 수            [9] |  62.3 k   | *                   |
| * 파일 총 크기     [9] |   747 MiB |                        |
| * 심볼릭 링크 수   [10] |    40     |                        |
| * 서브모듈 수           |     0     |                        |

이 예에서는 몇 가지 사항이 우려스러운 수준으로 증가합니다. 다음 섹션에서 해결할 때 정보를 참조하십시오:

  • 많은 참조.
  • 큰 블록.

대량의 참조

Git에서의 참조는 특정 커밋을 가리키는 브랜치 및 태그 이름입니다. git for-each-ref 명령어를 사용하여 저장소에 있는 모든 참조를 나열할 수 있습니다. 저장소에 있는 참조의 수가 많을 경우 명령어의 성능에 부정적인 영향을 미칠 수 있습니다. 이에 대한 이유를 이해하기 위해서는 Git이 참조를 저장하고 사용하는 방식을 이해해야 합니다.

일반적으로 Git은 모든 참조를 저장소의 .git/refs 폴더에 loose 파일로 저장합니다. 참조의 수가 증가함에 따라 해당 폴더에서 특정 참조를 찾는 시간도 증가합니다. 따라서 Git이 참조를 구문 분석할 때마다 파일 시스템의 추가된 탐색 시간으로 인해 지연이 발생합니다.

이 문제를 해결하기 위해 Git은 pack-refs를 사용합니다. 간단히 말해, Git은 각 참조를 개별 파일에 저장하는 대신 해당 저장소의 모든 참조를 포함하는 단일 .git/packed-refs 파일을 생성합니다. 이 파일은 단일 파일 내에서의 탐색이 디렉토리 내의 파일보다 더 빠르기 때문에 저장 공간을 줄이고 성능을 향상시킵니다. 그러나 새로운 참조를 생성하고 업데이트하는 것은 여전히 loose 파일을 통해 이루어지며 packed-refs 파일에 추가되지 않습니다. packed-refs 파일을 재생성하려면 git pack-refs를 실행하십시오.

Gitaly는 housekeeping 중에 git pack-refs를 실행하여 loose 참조를 packed-refs 파일로 이동시킵니다. 이것은 대부분의 저장소에 매우 유익하지만, 쓰기가 많은 저장소는 여전히 다음과 같은 문제점을 가지고 있습니다:

  • 참조를 생성하거나 업데이트하는 작업은 새로운 loose 파일을 생성합니다.
  • 참조를 삭제하는 작업은 기존의 packed-refs 파일 전체를 수정하여 기존 참조를 제거해야 합니다.

이러한 문제로 인해 동일한 성능 문제가 발생합니다.

또한, 저장소에서 가져오기(fetch) 및 복제(clone)에는 서버에서 클라이언트로 누락된 객체를 전송하는 작업이 포함됩니다. 참조가 많을 경우 Git은 모든 참조를 반복하고 각 참조마다 내부 그래프 구조를 탐색하여 클라이언트로 전송할 누락된 객체를 찾습니다. 반복과 탐색은 CPU 집약적인 작업이며 이러한 명령어의 지연을 증가시킵니다.

활동이 많은 저장소의 경우 이러한 이유로 모든 작업이 느려지고 각 작업마다 후속 작업이 지연됩니다.

완화 전략

모노 레포지토리의 많은 참조가 미치는 영향을 완화하기 위해:

  • 오래된 브랜치를 정리하는 자동화된 프로세스를 만듭니다.
  • 일부 참조가 클라이언트에 표시되지 않아도 되는 경우 transfer.hideRefs 설정을 사용하여 해당 참조를 숨깁니다. Gitaly는 서버 내 Git 구성을 무시하므로 Gitaly 구성 자체를 /etc/gitlab/gitlab.rb에서 변경해야 합니다.

    gitaly['configuration'] = {
      # ...
      git: {
        # ...
        config: [
          # ...
          { key: "transfer.hideRefs", value: "refs/namespace_to_hide" },
        ],
      },
    }
    

Git 2.42.0 이상에서 다른 Git 작업은 객체 그래프 탐색을 수행할 때 숨겨진 참조를 건너뛸 수 있습니다.

대형 블롭

대형 파일(즉, Git의 blob)의 존재는 Git에 대해 문제가 될 수 있으며 대형 바이너리 파일을 효율적으로 처리하지 못합니다. git-sizer 출력에서 10MB 이상의 블롭이 있는 경우, 저장소에 이진 데이터가 있을 가능성이 높습니다.

대형 블롭에 대한 LFS 사용

대형 파일 또는 blob(예: 패키지, 오디오, 비디오 또는 그래픽)을 Large File Storage (LFS) 객체로 저장합니다. LFS를 사용하면 객체가 저장소 내의 개수와 크기를 줄여주는 외부에 저장됩니다. 외부 Object Storage에 객체를 저장하면 성능이 향상될 수 있습니다.

자세한 내용은 Git LFS 문서를 참조하세요.

참조 아키텍처

대형 저장소는 많은 사용자가 있는 대규모 조직에서 발견됩니다. GitLab 품질 엔지니어링 및 지원 팀은 GitLab의 대규모 배포를 위한 여러 참조 아키텍처를 제공하며, 이는 대규모 조직에서 GitLab 환경을 향상시키는 권장 방법입니다.

이러한 유형의 설정에서는 GitLab 환경이 성능을 향상시키기 위해 참조 아키텍처에 맞아야 합니다.