참조 처리
GitLab Flavored Markdown에는 다양한 GitLab 도메인 객체에 대한 참조를 처리할 수 있는 기능이 포함되어 있습니다. 이는 Banzai
파이프라인의 두 가지 추상화, ReferenceFilter
및 ReferenceParser
에 의해 구현됩니다. 이 페이지에서는 이러한 것들이 무엇이며 어떻게 사용되며 새로운 필터/파서 쌍을 구현하는 방법에 대해 설명합니다.
각 ReferenceFilter
에는 해당하는 ReferenceParser
가 있어야 합니다.
두 개의 필터가 동일한 종류의 객체를 찾고 연결하는 경우 (이는 data-reference-type
속성으로 지정됨), 참조 파서가 해당 도메인 객체 유형에 대해 하나만 필요합니다.
Banzai 파이프라인
Banzai
파이프라인은 파이프라인의 마지막 필터 출력에 기반한 :output
키 또는 문자열 HTML 마크업이 포함된 result
해시를 반환합니다.
result
해시는 각 필터에게 전달되어 수정됩니다. 여기에는 다음이 포함됩니다.
- 마지막 필터의 출력에 따라 DocumentFragment 또는 String HTML 마크업을 가진
:output
키 - 각 필터에서 업데이트된 처리를 위해 준비된 DocumentFragment
nodes
목록을 가진:reference_filter_nodes
키
Reference filters
참조가 처리되는 첫 번째 방법은 참조 필터를 사용하는 것입니다. 이들은 마크업 문서에서 짧은 코드 및 URI 참조를 식별하고 이를 나타내는 리소스로의 구조화된 링크로 변환하는 도구입니다.
예를 들어, 클래스
Banzai::Filter::IssueReferenceFilter
는 gitlab-org/gitlab#123
및 https://gitlab.com/gitlab-org/gitlab/-/issues/200048
와 같이 이슈에 대한 참조를 처리하는 역할을 합니다.
모든 참조 필터는 HTML::Pipeline::Filter
의 인스턴스이며 (자주 간접적으로) Banzai::Filter::ReferenceFilter
에서 상속합니다.
HTML::Pipeline::Filter
에는 현재 문서를 변형하는 void 메서드인 #call
로 구성된 간단한 인터페이스가 있습니다. ReferenceFilter
는 #call
메서드를 정의하기 쉽게 하는 메서드를 제공합니다. 그러나 대부분의 참조 필터는 직접이러한 클래스 중 하나에서 상속하지 않고 AbstractReferenceFilter
에서 상속받습니다.
AbstractReferenceFilter
의 하위 클래스들은 일반적으로 #call
을 오버라이드하지 않습니다. 대신, AbstractReferenceFilter
의 최소 구현은 다음을 정의해야 합니다.
-
.reference_type
: 도메인 객체의 유형.이것은 일반적으로 키워드이며 생성된 링크의
data-reference-type
속성을 설정하는 데 사용되며 해당ReferenceParser
와의 상호 작용의 중요한 부분입니다 (아래 참조). -
.object_class
: 필터가 참조하는 객체 클래스에 대한 참조.이는 다음과 같이 사용됩니다.
- 참조를 찾기 위해 사용되는 정규 표현식을 찾습니다. 클래스에는 참조를 찾는 데 사용되는 두 개의 정규 표현식을 정의해야 합니다:
.link_reference_pattern
및.reference_pattern
이 모두ReferenceFilter.object_sym
값을 가진 이름이 있는 캡처 그룹을 포함해야 합니다. -
.object_name
을 계산합니다. -
.object_sym
(참조 패턴에서의 그룹 이름)을 계산합니다.
- 참조를 찾기 위해 사용되는 정규 표현식을 찾습니다. 클래스에는 참조를 찾는 데 사용되는 두 개의 정규 표현식을 정의해야 합니다:
-
.parse_symbol(string)
: 텍스트 값을 객체 식별자로 파싱합니다 (기본적으로#to_i
). -
#record_identifier(record)
:.parse_symbol
의 역 (즉, 도메인 객체를 식별자로 변환함)입니다 (기본적으로#id
). -
#url_for_object(object, parent_object)
: 도메인 객체에 대한 URL을 생성합니다. -
#find_object(parent_object, id)
: 부모 (보통은Project
) 및 식별자가 주어지면 객체를 찾습니다. 예를 들어, 병합 요청을 위한 참조 필터의 경우에는project.merge_requests.where(iid: iid)
가 될 수 있습니다.
새 참조 접두사 및 필터 추가
새 객체용 참조 필터의 경우, 다음 패턴을 따르는 접두어 형식을 사용합니다: ^<object_type>#
, 왜냐하면:
- 다양한 한 글자 접두사는 사용자들이 추적하기 어렵습니다. 특히 사용률이 낮은 객체 유형에서는 이 기능의 가치가 줄어들 수 있습니다.
- 적합한 한 글자 접두사가 제한됩니다.
- 일관된 패턴을 따르면 사용자들이 새 기능의 존재를 추론할 수 있습니다.
새로운 객체 apple
에 대한 참조 접두사를 추가하려면, 이름과 ID를 둘 다 가진 참조의 형식은 다음과 같습니다.
- ID에 의한 식별을 위해
^apple#123
. - 이름에 의한 식별을 위해
^apple#"Granny Smith"
.
성능
객체 최적화 찾기
이 기본 구현은 매번 DB 쿼리를 발급할 수도 있는 각 참조에 대해 #find_object
를 호출해야 하기 때문에 효율적이지 못합니다. 이러한 이유로 대부분의 참조 필터 구현은 대신 AbstractReferenceFilter
에 포함된 최적화를 사용합니다.
AbstractReferenceFilter
는 부모 객체에서 도메인 객체의 컬렉션으로의 매핑인#records_per_parent
를 게으르게 초기화된 값으로 제공합니다.
이 메커니즘을 사용하려면 참조 필터는 #parent_records(parent, set_of_identifiers)
메서드를 구현해야 합니다. 이 메서드는 도메인 객체의 열거 가능한 값을 반환해야 합니다.
이러한 클래스는 이를 가능하게 하기 위해 #find_object
를 정의할 수 있습니다 (예: IssuableReferenceFilter
)와 같이:
def find_object(parent, iid)
records_per_parent[parent][iid]
end
이로써 쿼리 수가 프로젝트 수에 선형적으로 줄어듭니다. records_per_parent
를 호출할 때 parent_records
메서드를 구현해야만 합니다.
노드 필터링 최적화
각 ReferenceFilter
는 문서 내 모든 <a>
및 text()
노드를 반복합니다.
모든 노드가 처리되는 것은 아니며, 문서는 우리가 처리하려는 노드에 대해서만 필터링됩니다. 우리는 다음을 건너뜁니다:
- 이미 이전 필터에서 처리된 링크 태그 (그들이
gfm
클래스를 가지고 있다면). - 우리가 무시하고 싶은 부모 노드를 가진 노드들 (
ignore_ancestor_query
). - 빈 줄.
- 빈
href
속성이 있는 링크 태그.
각 ReferenceFilter
마다 이러한 노드들을 필터링하는 것을 피하기 위해, 우리는 한 번만 이것을 하고 파이프라인의 결과 해쉬에 결과를 저장합니다 (result[:reference_filter_nodes]
).
파이프라인 result
는 수정을 위해 각 필터에 전달되므로 ReferenceFilter
에서 텍스트나 링크 태그를 대체할 때마다, 필터된 목록 (reference_filter_nodes
)은 다음 필터에서 사용하기 위해 업데이트됩니다.
참조 파서
성능 최적화를 위해 경우에 따라 우리는 한 번에 Markdown을 HTML로 렌더링하고 결과를 캐시한 다음 캐시된 값에서 사용자에게 제공합니다. 예를 들어, 이는 노트, 이슈 설명 및 병합 요청 설명에 대해 발생합니다. 이로써 렌더링된 문서는 일부 후속 리더가 볼 수 없어야 하는 리소스를 참조할 수 있습니다.
예를 들어, 이슈를 작성하고 기밀 이슈 #1234
을 참조할 수 있습니다. 이는 캐시된 HTML에서 기밀 이슈로 렌더링되며, 그것의 ID, 프로젝트 ID 및 기타 기밀 데이터가 포함된 데이터 속성을 가진 링크로 표시됩니다. 이슈 #1234
를 볼 수 있는 권한이 없는 후속 리더도 이를 읽을 수 없어야 하므로, 우리는 이러한 민감한 데이터를 삭제해야 합니다. 이것이 ReferenceParser
클래스가 하는 일입니다.
참조 파서는 이 관계를 광고하는 링크에 의해 처리하는 객체에 연결됩니다 (data-reference-type
속성으로 설정됨). 이것은
ReferenceRedactor
에서 사용자에게 표시되어야 하는 노드를 계산하기 위해 사용됩니다:
def nodes_visible_to_user(nodes)
per_type = Hash.new { |h, k| h[k] = [] }
visible = Set.new
nodes.each do |node|
per_type[node.attr('data-reference-type')] << node
end
per_type.each do |type, nodes|
parser = Banzai::ReferenceParser[type].new(context)
visible.merge(parser.nodes_visible_to_user(user, nodes))
end
visible
end
여기서 키포인트는 Banzai::ReferenceParser[type]
로, 각 도메인 객체의 올바른 참조 파서를 찾기 위해 사용됩니다. 이는 각 참조 파서가 반드시:
-
Banzai::ReferenceParser
네임스페이스에 배치되어야 합니다. -
.nodes_visible_to_user(user, nodes)
메서드를 구현해야 합니다.
실제로, 모든 참조 파서는 일반적으로 BaseParser
를 상속받고, 다음을 정의함으로써 구현됩니다:
-
reference_type
를ReferenceFilter.reference_type
와 같아야 합니다. - 그리고 다음 중 하나 이상을 구현함으로써:
- 가장 미세한 제어를 위해
#nodes_visible_to_user(user, nodes)
를. - 만약
nodes_visible_to_user
가 재정의되지 않은 경우 필요한#can_read_reference?
. - ID별 객체에 대한 액티브 레코드 관계인
#references_relation
. - 노드를 직접 필터링하기 위한
#nodes_user_can_reference(user, nodes)
를.
- 가장 미세한 제어를 위해
각 참조 타입에 대해 이 클래스를 구현하지 않은 경우, 응용 프로그램은 Markdown 처리 중에 예외를 발생시킵니다.