머신 러닝 모델 실험
- GitLab 15.11에서 실험 릴리스로 도입되었습니다. 기본적으로 비활성화된
ml_experiment_tracking
라는 플래그가 있습니다. 기능을 활성화하려면 관리자가ml_experiment_tracking
이라는 피처 플래그를 활성화할 수 있습니다.- GitLab 16.2에서 일반 사용 가능하게(GA) 되었습니다.
접근 수준:
모델 실험의 가시성 수준을 공개, 비공개 또는 비활성화로 설정할 수 있습니다. 이 옵션은 Settings > General > Visibility, project features, permissions > Model experiments
에서 구성할 수 있습니다. 사용자는 모델 실험 및 후보 데이터를 수정 또는 삭제하려면 적어도 기록자(Role) 권한이 있어야 합니다.
머신 러닝 모델을 생성할 때, 데이터 과학자들은 종종 모델의 성능을 향상시키기 위해 다양한 매개변수, 구성 및 특성 엔지니어링으로 실험을 진행합니다. 이 모든 메타데이터와 관련 자료를 추적하여 나중에 데이터 과학자가 실험을 재현할 수 있도록 하는 것은 쉽지 않습니다. 머신 러닝 실험 추적은 그들이 매개변수, 메트릭 및 자료를 GitLab에 직접 기록하여 나중에 쉽게 접근할 수 있도록 합니다.
다음과 같은 기능이 제안되었습니다:
- 실험 검색.
- 후보들의 시각적 비교.
- GitLab UI를 통해 후보 생성, 삭제 및 업데이트.
기능 요청을 보려면 epic 9341을 참조하세요.
실험이란?
프로젝트에서 실험은 비슷한 매개변수 세트로 측정된 모델 후보데이터(들)의 모음입니다. 실험은 오래 지속될 수도 있지만(예: 사용 사례를 나타낼 때), 보통은(병합 요청으로 트리거된 하이퍼파라미터 튜닝 결과와 같은)유사한 매개변수 세트를 가진 모델 후보데이터를 보유합니다.
모델 후보데이터
모델 후보데이터는 머신 러닝 모델의 훈련 변형으로, 그 후 최종적으로 모델의 버전으로 승격될 수 있습니다.
데이터 과학자의 목표는 주어진 메트릭에 의해 나타낸 것처럼 어떤 매개변수 값이 최상의 모델 성능을 이끌어 내는 모델 후보데이터를 찾는 것입니다.
몇 가지 예시 매개변수:
- 알고리즘(예: 선형 회귀 또는 의사 결정 트리).
- 알고리즘의 하이퍼파라미터(학습률, 트리 깊이, 에폭 수).
- 포함된 특성.
새 실험과 후보 데이터 추적
실험 및 시도는 MLflow 클라이언트 호환성을 통해서만 추적할 수 있습니다. MLflow 클라이언트 호환성에 대한 자세한 내용은 MLflow 클라이언트 호환성을 참조하세요.
모델 후보데이터 탐색
현재 활성 실험을 나열하려면, https/-/ml/experiments
로 이동하거나:
- 왼쪽 사이드바에서 검색 또는 이동을 선택하여 프로젝트를 찾습니다.
- 분석 > 모델 실험을 선택합니다.
- 로그인된 모든 후보들과 그들의 메트릭, 매개변수 및 메타데이터가 표시되도록 하려면 실험을 선택합니다.
- 후보에 대한 세부정보를 표시하려면 세부정보를 선택합니다.
로그 자료 보기
시행 자료는 일반 패키지로 저장되며 모든 제약 조건을 따릅니다. 후보에 대한 자료가 로깅된 후 후보에 대한 모든 자료는 패키지 레지스트리에 나열됩니다. 후보에 대한 패키지 이름은 ml_experiment_<experiment_id>
이며, 버전은 후보 IID입니다. 자료에 대한 링크는 실험 후보데이터 목록 또는 후보자 세부정보에서도 액세스할 수 있습니다.
CI 정보 보기
- GitLab 16.1에서 도입되었습니다.
후보자들은 그들을 생성한 CI 작업에 연결될 수 있어, 빠른 링크가 병합 요청, 파이프라인 및 파이프라인을 트리거한 사용자로 가능합니다:
관련 주제
- epic 8560의 개발 세부사항.
- issue 381660에 피드백 추가.