Monorepo 관리

Monorepo는 개발 팀의 워크플로우에서 정기적인 부분이 되었습니다. 많은 이점이 있지만, GitLab에서 사용할 때 성능에 도전을 제시할 수 있습니다. 따라서 다음 사항을 알아야 합니다.

  • 리포지토리 특성이 성능에 미치는 영향
  • Monorepo를 최적화하기 위한 일부 도구 및 단계

성능에 미치는 영향

GitLab은 Git 기반 시스템이기 때문에 GB 단위의 대규모 저장소와 관련된 성능 제약을 받습니다.

Monorepo는 다양한 이유로 크기가 큰 경우가 많습니다.

대규모 저장소는 GitLab에서 사용될 때 성능 리스크를 야기할 수 있으며, 특히 대규모의 Monorepo가 많은 복제본을 받거나 하루에 여러 번 푸시되는 경우에는 더욱 흔합니다.

대규모 저장소와 관련된 Git 성능 이슈

Git은 팩파일을 사용하여 객체를 저장하여 최소한의 공간을 차지하도록 합니다. 또한, 팩파일은 Git 클라이언트와 Git 서버 간 복제, 가져오기 또는 푸시하는 경우에 객체를 전송하는 데 사용됩니다. 팩파일을 사용하는 것은 디스크 공간과 네트워크 대역폭을 줄여줘서 일반적으로 좋습니다.

그러나 팩파일 작성은 객체 내용을 압축하기 위해 많은 CPU 및 메모리를 필요로 합니다. 따라서 저장소가 크면 팩파일을 만들어야 하는 모든 Git 작업이 더 비싸고 더 느려지게 됩니다.

GitLab에 대한 결과

GitalyGit 기반의 Git 저장소 서비스입니다. 이는 Git의 제약이 Gitaly에서 경험되며 결과적으로 GitLab의 최종 사용자에게 영향을 미칩니다.

Monorepo는 종종 수직 스케일링 및 네트워크 또는 디스크 대역폭 제한과 같은 제약에 영향을 줄 수도 있습니다.

GitLab 설정 최적화

Gitaly 서버에서 가져오기 작업을 최소화하기 위해 다음 전략들을 사용해야 합니다.

근거

Git의 가장 많은 자원을 사용하는 연산은 git-pack-objects로, 이 연산은 저장소의 커밋 기록과 파일을 클라이언트에게 보낼 책임이 있습니다.

저장소가 클수록 저장소에 있는 커밋, 파일, 브랜치 및 태그의 수가 많아지고, 이 연산 또한 더 비싸지게 됩니다. 이 연산 도중에는 메모리와 CPU가 많이 사용됩니다.

대부분의 git clone 또는 git fetch 트래픽(서버에서 git-pack-objects 프로세스를 시작하는 트래픽)은 GitLab CI/CD 또는 다른 CI/CD 시스템과 같은 자동화된 연속 통합 시스템에서 발생합니다. 만약 이러한 트래픽이 많이 발생한다면, 대규모 저장소에 대한 많은 복제를 요구하는 Gitaly 서버에 무거운 부담을 줄 수 있습니다.

Gitaly pack-objects 캐시

Gitaly pack-objects 캐시를 활성화하세요. 이는 복제 및 가져오기를 위해 서버가 수행해야 하는 작업을 줄여줍니다.

근거

pack-objects 캐시git-pack-objects 프로세스에서 생성되는 데이터를 캐시에 저장합니다. 이 응답은 복제 또는 가져오기를 시작하는 Git 클라이언트에게 전송됩니다. 여러 복제가 동일한 참조 세트를 요청하는 경우, Gitaly 서버의 Git은 복제 또는 가져오기 호출을 할 때마다 응답 데이터를 다시 생성할 필요가 없으며, 대신 Gitaly가 유지하는 인메모리 캐시에서 이 데이터를 제공합니다.

이것은 단일 저장소에 대한 많은 복제가 존재할 경우 많은 도움이 될 수 있습니다.

더 많은 정보는 Pack-objects cache를 참조하세요.

CI/CD에서 병렬 복제 줄이기

CI/CD의 로드는 시간마다 스케줄에 따라 예약되는 파이프라인으로 인해 일반적으로 병렬입니다. 따라서 이러한 시기에 저장소에 대한 Git 요청이 두드러지게 증가할 수 있으며, CI/CD와 사용자 모두에 대한 성능이 저하될 수 있습니다.

스케줄을 최적화하고 보기하여 CI/CD 파이프라인 병렬성을 줄이세요. 예를 들어, 일정 시간에 실행되는 한 세트와 이후 몇 분 후에 실행되는 다른 세트가 있도록 만드세요.

얕은 복제

CI/CD 시스템에서 git clone 또는 git fetch 호출에 --depth 옵션을 설정하세요.

GitLab 및 GitLab Runner는 기본적으로 얕은 복제를 수행합니다.

가능한 경우, 10과 같은 작은 숫자로 복제 깊이를 설정하세요. 얕은 복제는 특정 브랜치의 최신 변경 세트만 요청하므로 Git 저장소에서 변경 사항을 가져오는 것을 크게 가속화합니다.

다음은 GIT_DEPTH를 설정하는 GitLab CI/CD 파이프라인 구성 예시입니다.

variables:
  GIT_DEPTH: 10

test:
  script:
    - ls -al

개발에서 얕은 복제 피하기

개발에서 얕은 복제를 피하십시오. 얕은 복제는 변경 사항을 푸시하는 데 걸리는 시간을 크게 늘릴 수 있습니다. 얕은 복제는 체크아웃된 후에 저장소 내용이 변경되지 않으므로 CI/CD 작업과 잘 작동합니다.

대신, 로컬 개발에서 부분 복제를 사용하여 다음을 수행하세요:

  1. 블롭 필터링:

    git clone --filter=blob:none
    
  2. 트리 필터링:

    git clone --filter=tree:0
    

더 많은 정보는 복제 크기 줄이기를 참조하세요.

Git 전략

가능하다면 CI/CD 시스템에서 git clone 대신 git fetch를 사용하세요. 저장소의 작업 복사본을 유지할 수 있다면 기본적으로 GitLab은 fetch Git 전략을 사용하므로 이를 권장합니다.

이유

git clone은 처음부터 전체 저장소를 가져오는 반면, git fetch는 이미 저장소에 존재하지 않는 참조를 서버에 요청합니다. 당연히 git fetch는 서버가 하는 작업을 줄입니다. git-pack-objects는 모든 브랜치와 태그를 거쳐 모든 것을 하나로 묶어 응답으로 보내지 않아도 됩니다. 그 대신 일부 참조만 엮으면 되므로 데이터 전달량 역시 줄어듭니다.

Git 클론 경로

GIT_CLONE_PATH를 사용하면 저장소를 복제하는 위치를 제어할 수 있습니다. 이는 fork 기반 워크플로를 사용하는 큰 저장소를 많이 사용하는 경우 영향을 미칠 수 있습니다.

GitLab Runner 관점에서 fork는 별도의 저장소로 저장되며 별도의 작업트리를 가집니다. 이는 GitLab Runner가 작업트리 사용을 최적화할 수 없게 하며 이를 사용하도록 지시해야 할 수도 있습니다.

이러한 경우 이 프로세스를보다 효율적으로 만들기 위해 이상적으로는 GitLab Runner 실행자가 주어진 프로젝트에만 사용되도록 해야 합니다.

GIT_CLONE_PATH$CI_BUILDS_DIR에 설정된 디렉토리에 있어야 합니다. 임의의 경로를 선택할 수는 없습니다.

Git 정리 플래그

GIT_CLEAN_FLAGS를 사용하면 각 CI/CD 작업에 대해 git clean 명령을 실행해야 하는지 여부를 제어할 수 있습니다. 기본적으로 GitLab은 다음을 보장합니다.

  • 주어진 SHA에서 작업트리를 가지고 있음.
  • 저장소가 깨끗함.

GIT_CLEAN_FLAGSnone으로 설정하면 비활성화됩니다. 매우 큰 저장소의 경우 git clean이 디스크 I/O 집중적이기 때문에 이것이 원하는 대로 동작할 수 있습니다. 예를 들어 GIT_CLEAN_FLAGS: -ffdx -e .build/`로 설정하여 연이어 실행 사이의 일부 디렉터리 제거를 제어하고 비활성화시킬 수 있습니다. 이를 통해 증분 빌드 속도를 높일 수 있습니다. 이것은 기존 머신을 재사용하고 빌드에 재사용할 수 있는 기존 작업트리가 있는 경우 가장 큰 효과를 낼 것입니다.

GIT_CLEAN_FLAGS가 허용하는 정확한 매개변수에 대한 자세한 내용은 git clean 문서를 참조하십시오. 사용 가능한 매개변수는 Git 버전에 따라 다릅니다.

추가 Git 플래그 플래그 설정

GIT_FETCH_EXTRA_FLAGS를 사용하면 추가 플래그를 전달하여 git fetch 동작을 수정할 수 있습니다.

예를 들어, 프로젝트에 CI/CD 작업이 의존하지 않는 많은 수의 태그가 있는 경우, --no-tags를 추가하여 더 빠르고 더 간결한 가져 오기를 할 수 있습니다.

또한 저장소에 태그가 많이 없는 경우에도, --no-tags는 […] (https://gitlab.com/gitlab-com/gl-infra/scalability/-/issues/746) 일부 경우에서 큰 차이를 만들 수 있습니다. CI/CD 빌드가 Git 태그에 의존하지 않는 경우 --no-tags 설정은 시도해볼 가치가 있습니다.

자세한 내용은 GIT_FETCH_EXTRA_FLAGS 설명서를 참조하십시오. ### Gitaly 협상 시간 제한 구성

다음을 가져 오거나 아카이브하려고 시도할 때 fatal: the remote end hung up unexpectedly 오류를 경험 할 수 있습니다.

  • 큰 저장소.
  • 많은 저장소를 병렬로.
  • 동일한 큰 저장소를 병렬로.

기본 협상 시간 제한 값을 증가시킴으로써 이 문제를 완화할 수 있습니다. 자세한 내용은 협상 시간 초과 시간 구성을 참조하십시오.

저장소 최적화

모노레포와 함께 GitLab을 확장 가능하게 유지하는 또 다른 방법은 저장소 자체를 최적화하는 것입니다.

저장소 프로파일링

대규모 저장소는 일반적으로 Git에서 성능 문제를 겪게 됩니다. 저장소가 왜 큰지 알면 성능 문제를 피하는 대책을 개발하는 데 도움이 될 수 있습니다.

git-sizer를 사용하여 저장소 특성의 스냅 샷을 얻고 모노레포의 문제 측면을 발견할 수 있습니다.

저장소를 완전 복제하려면 모든 Git 참조가 존재하는 전체 Git 미러 또는 bare 복제가 필요합니다. 저장소를 프로파일링하려면 다음을 수행하십시오.

  1. git-sizer 설치.
  2. 저장소를 완전 복제합니다.

    git clone --mirror <git_repo_url>
    

    복제 후 저장소는 git-sizer와 호환되는 베어 Git 형식으로 될 것입니다.

  3. 작업 중인 디렉터리에서 모든 통계와 함께 git-sizer를 실행하십시오.

    git-sizer -v
    

처리 후 git-sizer의 출력은 저장소의 각 측면에 대한 관심 수준과 함께 다음과 같아야 합니다:

...

많은 참조

Git에서의 참조는 특정 커밋을 가리키는 브랜치와 태그 이름입니다. git for-each-ref 명령을 사용하여 저장소에 있는 모든 참조를 나열할 수 있습니다. 저장소의 참조가 많을수록 명령의 성능에 악영향을 미칠 수 있습니다. 이유를 이해하려면 Git이 참조를 저장하고 사용하는 방식을 이해해야 합니다.

일반적으로 Git은 모든 참조를 저장소의 .git/refs 폴더에 느슨한 파일로 저장합니다. 참조의 수가 증가함에 따라 폴더에서 특정 참조를 찾는 시간도 증가합니다. 따라서 Git이 참조를 구문 분석할 때마다 파일 시스템의 추가된 탐색 시간으로 인해 지연이 발생합니다.

이 문제를 해결하기 위해 Git은 pack-refs를 사용합니다. 간단히 말해, Git은 각 참조를 개별 파일에 저장하는 대신 해당 저장소의 모든 참조를 포함하는 단일 .git/packed-refs 파일을 생성합니다. 이 파일은 단일 파일 내에서 탐색하는 것이 디렉토리 내 파일을 탐색하는 것보다 빠르기 때문에 저장 공간을 줄이고 성능을 향상시킵니다. 그러나 새로운 참조를 만들거나 업데이트하는 작업은 여전히 느슨한 파일을 통해 이루어지며 packed-refs 파일에 추가되지 않습니다. packed-refs 파일을 다시 생성하려면 git pack-refs를 실행하십시오.

Gitaly는 housekeeping 중에 git pack-refs를 실행하여 느슨한 참조를 packed-refs 파일로 이동시킵니다. 대부분의 저장소에는 매우 유익하지만 쓰기 집중적인 저장소는 여전히 다음과 같은 문제가 있습니다.

  • 참조를 생성하거나 업데이트하면 새로운 느슨한 파일이 생성됩니다.
  • 참조를 삭제하면 기존의 packed-refs 파일을 수정하여 기존의 참조를 제거해야 합니다.

이러한 문제로 인해 성능 문제가 여전히 발생합니다.

또한, 저장소로부터 가져오기(fetches) 및 복제(clones)에는 클라이언트로 전송할 누락된 객체가 포함됩니다. 참조가 많을 때 Git은 모든 참조를 반복하고 각 참조마다 내부 그래프 구조를 걸어 누락된 객체를 클라이언트로 전송하기 위해 작업합니다. 반복 및 걸어가기는 CPU 집약적인 작업으로 이러한 명령들의 지연시간을 증가시킵니다.

활동이 많은 저장소에서는 모든 작업이 느려지고 각 작업이 후속 작업을 지연시킬 가능성이 높아집니다.

완화 전략

단일 저장소의 많은 참조의 영향을 완화하기 위해:

  • 오래된 브랜치를 정리하는 자동화된 프로세스를 생성합니다.
  • 클라이언트에게 특정 참조가 표시되지 않아도 되는 경우, transfer.hideRefs 설정을 사용하여 해당 참조를 숨깁니다. Gitaly는 서버 Git 구성을 무시하기 때문에 /etc/gitlab/gitlab.rb에서 직접 Gitaly 구성을 변경해야 합니다.

    gitaly['configuration'] = {
      # ...
      git: {
        # ...
        config: [
          # ...
          { key: "transfer.hideRefs", value: "refs/namespace_to_hide" },
        ],
      },
    }
    

Git 2.42.0 이상에서 다른 Git 작업은 객체 그래프 걸음을 수행할 때 숨겨진 참조를 건너뛸 수 있습니다.

큰 덩어리

덩어리는 사용자가 Git 저장소에 커밋한 파일 내용을 저장하고 관리하는 Git 객체입니다.

큰 덩어리의 문제점

Git은 큰 바이너리 데이터를 효율적으로 처리하지 못하기 때문에 큰 덩어리는 문제가 될 수 있습니다. git-sizer 출력에서 10MB 이상의 덩어리는 저장소에 큰 바이너리 데이터가 있을 가능성이 높다는 것을 의미합니다.

소스 코드는 일반적으로 효과적으로 압축될 수 있지만, 바이너리 데이터는 이미 일반적으로 압축되어 있습니다. 이는 Git이 팩 파일을 만들 때 큰 덩어리를 압축하려고 시도할 때 성공할 가능성이 낮다는 것을 의미합니다. 이로 인해 더 큰 팩 파일과 더 많은 CPU, 메모리 및 대역폭 사용이 발생합니다.

클라이언트 측에서, Git은 덩어리 내용을 팩 파일(일반적으로 .git/objects/pack/ 아래)과 정규 파일(워크트리(worktrees)에서)에 모두 저장하기 때문에 소스 코드보다 훨씬 많은 디스크 공간이 필요합니다.

큰 덩어리에 대한 LFS 사용

대용량 파일 또는 덩어리 파일(예: 패키지, 오디오, 비디오 또는 그래픽)은 큰 파일 저장소(LFS) 객체로 저장합니다. LFS를 사용하면 객체가 외부에 저장되어 저장소의 객체 수와 크기가 줄어듭니다. 외부 객체 저장소에 객체를 저장하면 성능이 향상될 수 있습니다.

자세한 내용은 Git LFS 문서를 참조하십시오.

참고 아키텍처

대형 저장소는 많은 사용자가 있는 대규모 기관에서 발견됩니다. GitLab 테스트 플랫폼 및 지원 팀은 대규모로 GitLab을 배포하는 권장 방법이자 참고 아키텍처를 제공합니다.

이러한 유형의 설정에서는 성능을 향상시키기 위해 GitLab 환경이 참조 아키텍처와 일치해야 합니다.