02Chapter 2 · Methodology

ELL — 네 개의 기둥

증거 연결형 라벨링(Evidence-Linked Labeling)은 네 가지 구성 요소가 한 파이프라인 안에서 맞물려 작동할 때 의미가 생긴다. 어느 하나만 떨어져 있으면 다시 블랙박스 요약으로 회귀한다.

Pillar 01Closed Vocabulary집계 가능 라벨
Pillar 02Role Separation서술 ↔ 수치 분리
Pillar 032-Pass + Jaccard자기검증 + IRR
Pillar 04Drill-down원문 역추적 UI
Figure 1 · ELL Pipeline

데이터에서 리포트까지 — 6단계

원시 user turn이 리포트의 집계 수치로 전환되는 경로는 결정론적이다. 각 단계에서 어느 에이전트가 어떤 역할을 맡는지, 무엇을 하지 않는지가 ELL의 핵심이다.

  1. S1STEP 1 / 6

    Raw user turns

    • 100 세션 · 3,478 turn
    • welcome/verify/chat/closing 포함
  2. S2STEP 2 / 6

    Closed-vocab 라벨링

    • Bedrock Opus 4.7
    • 9축 (driver·pain·emotion…)
  3. S3STEP 3 / 6

    2-Pass 자기검증

    • 8 rules 재검토
    • [REV] 마커 · 수정률 27.4%
  4. S4STEP 4 / 6

    Jaccard IRR

    • 10% 재샘플 (347 turn)
    • 필드별 일치도 공개
  5. S5STEP 5 / 6

    코드 기반 집계

    • 서술 ≠ 산술
    • 숫자 창작 원천 차단
  6. S6STEP 6 / 6

    Drill-down FE

    • 모든 수치 → 원문 1클릭
    • 근거 응답자 리스트
Pillars

네 기둥 — 왜 분리되어야 하는가

Pillar 01
Closed Vocabulary
OPEN VOCAB쿠폰혜택쿠폰 혜택할인쿠폰혜택쿠폰쿠폰/혜택constrainedCLOSED VOCABpain=쿠폰혜택부족

폐쇄형 어휘 제약

Claim

AI의 무한 어휘 공간을 사전에 정의된 값들로 가두어, 모든 라벨이 집계 가능한 형태가 되도록 만든다.

LLM은 훈련 데이터 기반의 자가회귀 모델이다. 개방형 어휘 환경에서 작동하기 때문에 분류·구조화된 라벨링 작업에서 문맥에 없는 카테고리를 임의로 생성한다.

ELL은 제약적 디코딩(Constrained Decoding)을 통해 모델 출력을 사전 정의된 값의 집합으로 강제한다. 라벨러가 자유 문자열을 쓰면 '쿠폰혜택' vs '쿠폰 혜택' vs '할인쿠폰'이 서로 다른 카운트가 된다 — 이 상태로는 집계 자체가 성립하지 않는다.

CHAIR(Caption Hallucination Assessment with Image Relevance) 등 환각 평가 벤치마크의 오랜 표준이 뒷받침하는 접근이다.

Pillar 02
Role Separation
LLMnarrativeclaimderivationso what라벨 매칭CODEarithmeticcount()group_by()ratiojaccardno number creation by LLM

서술과 수치 계산의 아키텍처 분리

Claim

문장은 LLM이 쓰고, 숫자는 코드가 센다. 역할을 섞지 않는다.

LLM은 훌륭한 작가이지만 기호 논리학을 수행하는 계산기가 아니다. '이 라벨을 가진 응답자가 몇 명인가'를 묻는 순간 모델은 계산하지 않고 문맥상 그럴듯해 보이는 숫자를 생성한다.

ELL은 AI의 역할을 응답 → 라벨 매칭에 한정한다. 부여된 라벨을 카운트하고 비율을 산출하는 모든 산술은 결정론적인 코드가 수행한다.

서술(claim, derivation, so-what)은 LLM이 작성하되, 프롬프트에는 코드가 만든 숫자 payload와 분모만 주어진다. 숫자 창작을 원천 차단한다.

Pillar 03
2-Pass + Jaccard
Pass APass BJ = |A ∩ B| / |A ∪ B|0.78 median2-PASS SELF-CHECK + 10% RESAMPLE

2-Pass 자기검증 + 자카드 일치도

Claim

같은 응답을 두 번 라벨링하고, 10% 재샘플로 Jaccard 일치도를 측정한다.

Pass A에서 라벨이 생성되면, Pass B에서 '증거 기반·짧은 응답 처리·감정 라벨 최소 조건·driver vs pain 분리·허용 값 준수' 같은 8개 규칙 체크리스트로 자기 재검토를 수행한다. 실제로 상당수 turn이 Pass B에서 수정된다.

최종 라벨은 10% 무작위 재샘플링으로 다시 라벨링하고, 원본 라벨과의 Jaccard 유사도(교집합 / 합집합)를 측정한다. 이 지표가 각 인사이트의 신뢰도 뱃지 근거가 된다.

라벨은 완벽하지 않다. ELL은 불확실성의 크기를 숨기지 않고 수치로 공개한다.

Pillar 04
Drill-down
INSIGHT CARD98/ 100원론적 답변EVIDENCE PANELP-80012P-80034P-80045P-80067P-80089...resp 98 · turn 312

원문 역추적 UI

Claim

리포트의 모든 숫자는 근거 응답자 리스트와 원문 turn으로 한 번의 클릭으로 연결된다.

Shneiderman의 정보탐색 원칙 'Overview first, zoom and filter, then details-on-demand'를 UI 문법으로 구현한다.

인사이트 카드의 모든 수치에 각주 번호가 달리고, 클릭 시 해당 수치의 근거 응답자 리스트가 우측 패널로 열린다. 응답자 ID·페르소나·자녀 연령·원문 turn까지 한 번에 확인할 수 있다.

이것은 '편의 기능'이 아니라 시스템의 필수 방어선이다. 비판적 이해관계자의 '그 숫자 진짜인가요' 질문에 1초 안에 답할 수 있어야 한다.

Figure 2 · Pipeline Telemetry

보니 대화형 설문 100세션 · 파이프라인 실행 결과

3,478
라벨링 user turn
전체 파이프라인 입력
27.4%
2-Pass 수정률
Pass B에서 수정된 turn 비율
347
Jaccard 재샘플
10% 무작위 · 필드별 공개
9축
라벨 차원
driver·pain·emotion·behavior·concern·alt_channel·conversion·disappear·family_plan
14
토픽 induction
size ≥ 15 필터
12
핵심 인사이트
모두 claim·derivation·so-what 기록
Acknowledgements

한계와 정직한 포지셔닝

ELL은 마법이 아니다. 세 가지 구조적 한계를 여기서 먼저 밝혀둔다.

① 새 범주 포착의 어려움

폐쇄형 어휘는 집계 가능성을 얻는 대가로 사전에 정의되지 않은 현상을 놓치기 쉽다. 현장에서 완전히 새로운 주제가 반복적으로 등장할 때, 라벨 스키마를 업데이트하는 운영 프로세스가 필수다.

② 온톨로지 유지 비용

closed vocabulary는 처음 설계·검토에 전문가 판단이 필요하고, 도메인이 바뀌면 다시 설계해야 한다. 싸게 얻을 수 있는 일관성이 아니다.

③ 라벨러의 확률성

LLM 라벨러는 결정론적이지 않다. 같은 입력에 같은 출력을 보장하지 못하므로 2-pass 자기검증과 재샘플 Jaccard로 분산을 좁히지만 '완벽'을 약속하지 않는다. 신뢰도 뱃지는 이 분산을 정직하게 수치로 공개하기 위한 장치다.

ELL이 적합한 곳은 양적 집계가 필요한 정성 데이터의 분석 파이프라인이다. 대화형 설문, 전문가 인터뷰 스크립트, 고객 지원 로그, 고위험 산업의 문서 분류 같은 맥락에서 ELL의 네 기둥이 가장 강력하게 작동한다.

References

관련 논문과 자료

ELL의 네 기둥은 새로운 발명이 아니라 여러 연구 커뮤니티의 확립된 기법을 한 파이프라인 안에 재조립한 것이다. 각 기둥이 참조한 대표 문헌을 주제별로 묶어 공개한다. 전체 42건 목록은 백서 PDF의 Appendix R에서 확인할 수 있다.

A제약적 디코딩 · 환각 평가
BSelf-Correction · 에이전트 추론
CJaccard · Inter-Rater Reliability
DVisual Analytics · Drill-down · Grounded Theory
E엔지니어링 · Data Hygiene · Role Separation