폐쇄형 어휘 제약
AI의 무한 어휘 공간을 사전에 정의된 값들로 가두어, 모든 라벨이 집계 가능한 형태가 되도록 만든다.
LLM은 훈련 데이터 기반의 자가회귀 모델이다. 개방형 어휘 환경에서 작동하기 때문에 분류·구조화된 라벨링 작업에서 문맥에 없는 카테고리를 임의로 생성한다.
ELL은 제약적 디코딩(Constrained Decoding)을 통해 모델 출력을 사전 정의된 값의 집합으로 강제한다. 라벨러가 자유 문자열을 쓰면 '쿠폰혜택' vs '쿠폰 혜택' vs '할인쿠폰'이 서로 다른 카운트가 된다 — 이 상태로는 집계 자체가 성립하지 않는다.
CHAIR(Caption Hallucination Assessment with Image Relevance) 등 환각 평가 벤치마크의 오랜 표준이 뒷받침하는 접근이다.