GitLab 내 ClickHouse
이 문서는 GitLab Rails 애플리케이션에서 ClickHouse를 사용하여 기능을 개발하는 고수준 개요를 제공합니다.
참고: 대부분의 도구와 API는 안정적이지 않다고 간주됩니다.
GDK 설정
ClickHouse 서버 설정
-
ClickHouse 설치 문서에 설명된대로 ClickHouse를 로컬에 설치합니다. QuickInstall을 사용하면 현재 디렉터리에 설치되고, Homebrew를 사용하면
/opt/homebrew/bin/clickhouse
에 설치됩니다. -
gdk config set gdk.experimental.ruby_services true
를 사용하여 실험적 서비스를 활성화합니다. -
gdk.yml
에 ClickHouse 섹션을 추가합니다.gdk.example.yml
을 참조하세요. -
gdk.yml
ClickHouse 구성 파일을 조정하여 로컬 ClickHouse 설치 및 로컬 데이터 저장소를 가리키도록합니다. 예:clickhouse: bin: "/opt/homebrew/bin/clickhouse" enabled: true # 이것들은 선택 사항입니다. GDK가 하나 이상있는 경우: # http_port: 8123 # interserver_http_port: 9009 # tcp_port: 9001
-
gdk reconfigure
를 실행합니다. - ClickHouse를
gdk start clickhouse
로 시작합니다.
Rails 애플리케이션 구성
-
예제 파일을 복사하고 자격 증명을 구성합니다:
cp config/click_house.yml.example config/click_house.yml
-
clickhouse-client
CLI 도구를 사용하여 데이터베이스를 만듭니다:clickhouse client --port 9001
create database gitlab_clickhouse_development;
설정 확인
Rails 콘솔을 실행하고 간단한 쿼리를 호출합니다:
ClickHouse::Client.select('SELECT 1', :main)
# => [{"1"=>1}]
데이터베이스 스키마 및 마이그레이션
데이터베이스 마이그레이션을 실행하려면 다음을 실행하세요:
bundle exec rake gitlab:clickhouse:migrate
마지막 N개의 마이그레이션을 되감기려면 다음을 실행하세요:
bundle exec rake gitlab:clickhouse:rollback:main STEP=N
또는 다음 명령을 사용하여 모든 마이그레이션을 되감을 수 있습니다:
bundle exec rake gitlab:clickhouse:rollback:main VERSION=0
db/click_house/migrate
폴더에 Ruby 마이그레이션 파일을 만들어 마이그레이션을 만들 수 있습니다. 이는 타임스탬프 형식인 YYYYMMDDHHMMSS_description_of_migration.rb
로 시작해야합니다.
# 20230811124511_create_issues.rb
# frozen_string_literal: true
class CreateIssues < ClickHouse::Migration
def up
execute <<~SQL
CREATE TABLE issues
(
id UInt64 DEFAULT 0,
title String DEFAULT ''
)
ENGINE = MergeTree
PRIMARY KEY (id)
SQL
end
def down
execute <<~SQL
DROP TABLE sync_cursors
SQL
end
end
데이터베이스 쿼리 작성
ClickHouse 데이터베이스에서는 ORM(Object Relational Mapping)을 사용하지 않습니다. 주된 이유는 GitLab 애플리케이션이 ActiveRecord
PostgreSQL 어댑터에 많은 사용자 정의를 갖고 있으며, 애플리케이션은 일반적으로 모든 데이터베이스가 PostgreSQL
을 사용한다고 가정합니다. ClickHouse 관련 기능이 여전히 매우 초기 단계에 있기 때문에, 복잡한 오류를 피하고 여러 ActiveRecord
어댑터를 다룰 때의 장시간 디버깅을 피하기 위해 간단한 HTTP 클라이언트를 구현하기로 결정했습니다.
게다가, ClickHouse는 ActiveRecord
어댑터와 동일한 방식으로 사용되지 않을 수도 있습니다. 액세스 패턴은 전통적인 트랜잭션 데이터베이스와 다르며 ClickHouse는:
-
GROUP BY
절을 사용하는 중첩 집계SELECT
쿼리를 사용합니다. - 단일
INSERT
문을 사용하지 않습니다. 데이터는 배경 작업을 통해 일괄적으로 삽입됩니다. - 다른 일관성 특성을 가지며, 트랜잭션이 없습니다.
- 매우 적은 데이터베이스 수준의 유효성 검사가 있습니다.
데이터베이스 쿼리는 ClickHouse::Client
젬을 사용하여 작성하고 실행됩니다.
events
테이블에서 간단한 쿼리:
rows = ClickHouse::Client.select('SELECT * FROM events', :main)
플레이스홀더를 사용하는 쿼리 작업시 ClickHouse::Query
객체를 사용하여 플레이스홀더 이름과 데이터 유형을 지정해야합니다. 실제 변수 교체, 인용 및 이스케이핑은 ClickHouse 서버에서 수행됩니다.
raw_query = 'SELECT * FROM events WHERE id > {min_id:UInt64}'
placeholders = { min_id: Integer(100) }
query = ClickHouse::Client::Query.new(raw_query: raw_query, placeholders: placeholders)
rows = ClickHouse::Client.select(query, :main)
플레이스홀더를 사용할 때 클라이언트는 로깅 시스템에서 수용할 수 있는 플레이스홀더 값을 제공할 수 있습니다. to_redacted_sql
메서드를 호출하여 쿼리의 가려진 버전을 볼 수 있습니다:
puts query.to_redacted_sql
ClickHouse는 요청당 하나의 문장만 허용합니다. 이는 흔한 SQL 인젝션 취약점인 문장이 ;
문자로 종료되고 다른 쿼리가 “주입”되는 경우가 악용되지 않습니다:
ClickHouse::Client.select('SELECT 1; SELECT 2', :main)
# ClickHouse::Client::DatabaseError: Code: 62. DB::Exception: Syntax error (Multi-statements are not allowed): failed at position 9 (end of query): ; SELECT 2. . (SYNTAX_ERROR) (version 23.4.2.11 (official build))
서브쿼리
ClickHouse::Client::Query
클래스를 사용하여 특수 Subquery
타입의 쿼리 플레이스홀더를 지정해 복잡한 쿼리를 만들 수 있습니다. 라이브러리는 쿼리와 플레이스홀더를 올바르게 병합합니다:
subquery = ClickHouse::Client::Query.new(raw_query: 'SELECT id FROM events WHERE id = {id:UInt64}', placeholders: { id: Integer(10) })
raw_query = 'SELECT * FROM events WHERE id > {id:UInt64} AND id IN ({q:Subquery})'
placeholders = { id: Integer(10), q: subquery }
query = ClickHouse::Client::Query.new(raw_query: raw_query, placeholders: placeholders)
rows = ClickHouse::Client.select(query, :main)
# ClickHouse는 플레이스홀더를 교체합니다
puts query.to_sql # SELECT * FROM events WHERE id > {id:UInt64} AND id IN (SELECT id FROM events WHERE id = {id:UInt64})
puts query.to_redacted_sql # SELECT * FROM events WHERE id > $1 AND id IN (SELECT id FROM events WHERE id = $2)
puts query.placeholders # { id: 10 }
같은 이름의 플레이스홀더에 서로 다른 값이 있는 경우 쿼리에 오류가 발생합니다.
쿼리 조건 작성
복잡한 양식을 처리할 때 여러 필터 조건이 있는 경우, 쿼리 조각을 문자열로 연결하여 빠르게 복잡해질 수 있습니다. 여러 조건이 있는 쿼리에는 ClickHouse::QueryBuilder
클래스를 사용할 수 있습니다. 해당 클래스는 쿼리를 생성하는 데 Arel
젬을 사용하며 ActiveRecord
와 유사한 쿼리 인터페이스를 제공합니다.
builder = ClickHouse::QueryBuilder.new('events')
query = builder
.where(builder.table[:created_at].lteq(Date.today))
.where(id: [1,2,3])
rows = ClickHouse::Client.select(query, :main)
데이터 삽입
ClickHouse 클라이언트는 표준 쿼리 인터페이스를 통해 데이터를 삽입하는 것을 지원합니다.
raw_query = 'INSERT INTO events (id, target_type) VALUES ({id:UInt64}, {target_type:String})'
placeholders = { id: 1, target_type: 'Issue' }
query = ClickHouse::Client::Query.new(raw_query: raw_query, placeholders: placeholders)
rows = ClickHouse::Client.execute(query, :main)
이 방법으로 데이터를 삽입하는 것은 다음 경우에 적합합니다:
- 테이블에 설정 또는 구성 데이터가 있는 경우 한 행을 추가해야 하는 경우
- 테스트를 위해 데이터를 데이터베이스에 준비해야 하는 경우
데이터를 삽입할 때는 항상 여러 행을 한 번에 삽입하는 배치 처리를 사용해야 합니다. 대규모 INSERT
쿼리를 메모리에 구축하는 것은 메모리 사용량이 증가하므로 권장되지 않습니다. 또한, 이러한 쿼리 내에서 지정된 값은 클라이언트에 의해 자동으로 마스킹되지 않을 수 있습니다.
데이터를 압축하고 메모리 사용량을 줄이려면 CSV 데이터를 삽입하세요. 내부 CsvBuilder
젬을 사용하여 이 작업을 수행할 수 있습니다.
iterator = Event.find_each
# 이벤트 테이블에서 id 및 target_type 열만 사용하여 삽입합니다
column_mapping = {
id: :id,
target_type: :target_type
}
CsvBuilder::Gzip.new(iterator, column_mapping).render do |tempfile|
query = 'INSERT INTO events (id, target_type) FORMAT CSV'
ClickHouse::Client.insert_csv(query, File.open(tempfile.path), :main)
end
참고: PostgreSQL에서 데이터베이스 레코드를 효율적으로 배치 처리하려면 배치 단위로 테이블 반복에서 설명된 기술을 고려해야 합니다.
테이블 반복
ClickHouse::Iterator` 클래스를 사용하여 ClickHouse에서 대량의 데이터를 배치 처리할 수 있습니다. 이 반복기는 데이터베이스 인덱스에 의존하지 않으며 고정 크기의 숫자 범위를 사용합니다.
전제 조건:
- 단일 정수 열
- 열 값 사이에 큰 갭이 없어야 하며, 이상적으로는 자동 증가하는 PostgreSQL 기본 키 열이어야 합니다.
- 데이터 중복은 적은 경우에만 문제가 되지 않습니다.
사용법:
connection = ClickHouse::Connection.new(:main)
builder = ClickHouse::QueryBuilder.new('events')
iterator = ClickHouse::Iterator.new(query_builder: builder, connection: connection)
iterator.each_batch(column: :id, of: 100_000) do |scope|
records = connection.select(scope.to_sql)
end
특정 행에 대해 반복하려면 쿼리 빌더 객체에 필터를 추가할 수 있습니다. 효율적인 필터링 및 반복을 위해서는 사용 사례에 최적화된 다른 데이터베이스 테이블 스키마가 필요할 수 있습니다. 이러한 반복을 도입할 때는 항상 데이터베이스 쿼리가 전체 데이터베이스 테이블을 스캔하지 않도록 확인해야 합니다.
connection = ClickHouse::Connection.new(:main)
builder = ClickHouse::QueryBuilder.new('events')
# target type 및 문자열화된 탐색 id/path로 필터링
builder = builder.where(target_type: 'Issue')
builder = builder.where(path: '96/97/') # 특정 프로젝트를 가리킴
iterator = ClickHouse::Iterator.new(query_builder: builder, connection: connection)
iterator.each_batch(column: :id, of: 10) do |scope, min, max|
puts "범위 처리 중: #{min} - #{max}"
puts scope.to_sql
records = connection.select(scope.to_sql)
end
Min-max 전략
반복기에 첫 번째 단계로 데이터 범위를 결정합니다. 데이터 범위는 MIN(column)
및 MAX(column)
집계를 사용하여 결정됩니다. 일부 데이터베이스 테이블에 대해 이 전략은 비효율적인 데이터베이스 쿼리를 야기시킬 수 있습니다 (전체 테이블 스캔). 예를 들어, 파티션화된 데이터베이스 테이블이 그런 예입니다.
예시 쿼리:
SELECT MIN(id) AS min, MAX(id) AS max FROM events;
대신 ORDER BY + LIMIT
를 사용하여 데이터 범위를 결정하는 다른 min-max 전략을 사용할 수 있습니다.
iterator = ClickHouse::Iterator.new(query_builder: builder, connection: connection, min_max_strategy: :order_limit)
예시 쿼리:
SELECT (SELECT id FROM events ORDER BY id ASC LIMIT 1) AS min, (SELECT id FROM events ORDER BY id DESC LIMIT 1) AS max;
Sidekiq 워커 구현
ClickHouse 데이터베이스를 활용하는 Sidekiq 워커에는 ClickHouseWorker
모듈을 포함해야 합니다. 이를 통해 데이터베이스 마이그레이션이 실행 중일 때 워커가 일시 중지되고, 워커가 활성화된 상태에서 마이그레이션이 실행되지 않도록 보장합니다.
# events_sync_worker.rb
# frozen_string_literal: true
module ClickHouse
class EventsSyncWorker
include ApplicationWorker
include ClickHouseWorker
...
end
end
테스트
ClickHouse는 CI/CD에서 활성화되어 있지만 파이프라인 실행 시간에 상당한 영향을 미치지 않도록하기 위해 :click_house
태그가 지정된 테스트 케이스에서만 ClickHouse 서버를 실행하기로 결정했습니다.
:click_house
태그를 사용하면 각 테스트 케이스를 실행하기 전에 데이터베이스 스키마가 올바르게 설정됨을 보장합니다.
RSpec.describe MyClickHouseFeature, :click_house do
it 'rows를 반환합니다' do
rows = ClickHouse::Client.select('SELECT 1', :main)
expect(rows.size).to eq(1)
end
end
다중 데이터베이스
ClickHouse::Client
라이브러리는 다중 데이터베이스 구성을 지원합니다. 현재 개발 초기 단계이므로 main
이라는 하나의 데이터베이스만 있습니다.
여러 데이터베이스 구성 예시:
development:
main:
database: gitlab_clickhouse_main_development
url: 'http://localhost:8123'
username: clickhouse
password: clickhouse
user_analytics: # 가상의 데이터베이스
database: gitlab_clickhouse_user_analytics_development
url: 'http://localhost:8123'
username: clickhouse
password: clickhouse
관찰 가능성
ClickHouse::Client
라이브러리를 통해 실행된 모든 쿼리는 성능 메트릭(시간, 읽은 바이트)으로 쿼리를 노출시킵니다. 이는 ActiveSupport::Notifications
를 통해 이루어집니다.
ActiveSupport::Notifications.subscribe('sql.click_house') do |_, _, _, _, data|
puts data.inspect
end
추가로 웹 상호작용에서 실행된 ClickHouse 쿼리를 보려면, 성능 막대 옆의 ch
라벨 옆에서 카운트를 선택하세요.
도움 받기
추가 정보 또는 특정 질문이 있는 경우, #f_clickhouse
슬랙 채널의 ClickHouse Datastore 작업 그룹에 문의하거나 GitLab.com의 코멘트에서 @gitlab-org/maintainers/clickhouse
을 언급하세요.