Evidence-Linked Labeling: A Verifiable Pipeline for Quantifying Conversational Qualitative Data

Kim, Hyung Chul

doi:10.5281/zenodo.20020776

ELL — 네 개의 기둥

증거 연결형 라벨링(Evidence-Linked Labeling)은 네 가지 구성 요소가 한 파이프라인 안에서 맞물려 작동할 때 의미가 생긴다. 어느 하나만 떨어져 있으면 다시 블랙박스 요약으로 회귀한다.

Pillar 01Closed Vocabulary집계 가능 라벨

Pillar 02Role Separation서술 ↔ 수치 분리

Pillar 032-Pass + Jaccard자기검증 + IRR

Pillar 04Drill-down원문 역추적 UI

네 기둥 — 왜 분리되어야 하는가

Pillar 01

Closed Vocabulary

[R1][R2][R3]

폐쇄형 어휘 제약

Claim

AI의 무한 어휘 공간을 사전에 정의된 값들로 가두어, 모든 라벨이 집계 가능한 형태가 되도록 만든다.

LLM은 훈련 데이터 기반의 자가회귀 모델이다. 개방형 어휘 환경에서 작동하기 때문에 분류·구조화된 라벨링 작업에서 문맥에 없는 카테고리를 임의로 생성한다.

ELL은 제약적 디코딩(Constrained Decoding)을 통해 모델 출력을 사전 정의된 값의 집합으로 강제한다. 라벨러가 자유 문자열을 쓰면 '쿠폰혜택' vs '쿠폰 혜택' vs '할인쿠폰'이 서로 다른 카운트가 된다 — 이 상태로는 집계 자체가 성립하지 않는다.

CHAIR(Caption Hallucination Assessment with Image Relevance) 등 환각 평가 벤치마크의 오랜 표준이 뒷받침하는 접근이다.

Pillar 02

Role Separation

[R32][R33]

서술과 수치 계산의 아키텍처 분리

Claim

문장은 LLM이 쓰고, 숫자는 코드가 센다. 역할을 섞지 않는다.

LLM은 훌륭한 작가이지만 기호 논리학을 수행하는 계산기가 아니다. '이 라벨을 가진 응답자가 몇 명인가'를 묻는 순간 모델은 계산하지 않고 문맥상 그럴듯해 보이는 숫자를 생성한다.

ELL은 AI의 역할을 응답 → 라벨 매칭에 한정한다. 부여된 라벨을 카운트하고 비율을 산출하는 모든 산술은 결정론적인 코드가 수행한다.

서술(claim, derivation, so-what)은 LLM이 작성하되, 프롬프트에는 코드가 만든 숫자 payload와 분모만 주어진다. 숫자 창작을 원천 차단한다.

Pillar 03

2-Pass + Jaccard

[R9][R10][R14][R15]

2-Pass 자기검증 + 자카드 일치도

Claim

같은 응답을 두 번 라벨링하고, 10% 재샘플로 Jaccard 일치도를 측정한다.

Pass A에서 라벨이 생성되면, Pass B에서 '증거 기반·짧은 응답 처리·감정 라벨 최소 조건·driver vs pain 분리·허용 값 준수' 같은 8개 규칙 체크리스트로 자기 재검토를 수행한다. 실제로 상당수 turn이 Pass B에서 수정된다.

최종 라벨은 10% 무작위 재샘플링으로 다시 라벨링하고, 원본 라벨과의 Jaccard 유사도(교집합 / 합집합)를 측정한다. 이 지표가 각 인사이트의 신뢰도 뱃지 근거가 된다.

라벨은 완벽하지 않다. ELL은 불확실성의 크기를 숨기지 않고 수치로 공개한다.

Pillar 04

Drill-down

[R19][R21][R24]

원문 역추적 UI

Claim

리포트의 모든 숫자는 근거 응답자 리스트와 원문 turn으로 한 번의 클릭으로 연결된다.

Shneiderman의 정보탐색 원칙 'Overview first, zoom and filter, then details-on-demand'를 UI 문법으로 구현한다.

인사이트 카드의 모든 수치에 각주 번호가 달리고, 클릭 시 해당 수치의 근거 응답자 리스트가 우측 패널로 열린다. 응답자 ID·페르소나·자녀 연령·원문 turn까지 한 번에 확인할 수 있다.

이것은 '편의 기능'이 아니라 시스템의 필수 방어선이다. 비판적 이해관계자의 '그 숫자 진짜인가요' 질문에 1초 안에 답할 수 있어야 한다.

보니 대화형 설문 100세션 · 파이프라인 실행 결과

3,478

라벨링 user turn

전체 파이프라인 입력

27.4%

2-Pass 수정률

Pass B에서 수정된 turn 비율

347

Jaccard 재샘플

10% 무작위 · 필드별 공개

9축

라벨 차원

driver·pain·emotion·behavior·concern·alt_channel·conversion·disappear·family_plan

토픽 induction

size ≥ 15 필터

핵심 인사이트

모두 claim·derivation·so-what 기록

한계와 정직한 포지셔닝

ELL은 마법이 아니다. 세 가지 구조적 한계를 여기서 먼저 밝혀둔다.

① 새 범주 포착의 어려움

폐쇄형 어휘는 집계 가능성을 얻는 대가로 사전에 정의되지 않은 현상을 놓치기 쉽다. 현장에서 완전히 새로운 주제가 반복적으로 등장할 때, 라벨 스키마를 업데이트하는 운영 프로세스가 필수다.

② 온톨로지 유지 비용

closed vocabulary는 처음 설계·검토에 전문가 판단이 필요하고, 도메인이 바뀌면 다시 설계해야 한다. 싸게 얻을 수 있는 일관성이 아니다.

③ 라벨러의 확률성

LLM 라벨러는 결정론적이지 않다. 같은 입력에 같은 출력을 보장하지 못하므로 2-pass 자기검증과 재샘플 Jaccard로 분산을 좁히지만 '완벽'을 약속하지 않는다. 신뢰도 뱃지는 이 분산을 정직하게 수치로 공개하기 위한 장치다.

ELL이 적합한 곳은 양적 집계가 필요한 정성 데이터의 분석 파이프라인이다. 대화형 설문, 전문가 인터뷰 스크립트, 고객 지원 로그, 고위험 산업의 문서 분류 같은 맥락에서 ELL의 네 기둥이 가장 강력하게 작동한다.

ELL — 네 개의 기둥

데이터에서 리포트까지 — 6단계

Raw user turns

Closed-vocab 라벨링

2-Pass 자기검증

Jaccard IRR

코드 기반 집계

Drill-down FE

네 기둥 — 왜 분리되어야 하는가

폐쇄형 어휘 제약

서술과 수치 계산의 아키텍처 분리

2-Pass 자기검증 + 자카드 일치도

원문 역추적 UI

보니 대화형 설문 100세션 · 파이프라인 실행 결과

한계와 정직한 포지셔닝

관련 논문과 자료