Data Story · 에이전트 trace 해부

프런티어 에이전트는 어떻게 일하는가
사라진 모델 Claude Fable 5의 실행 궤적을 뜯어보다

공개 3일 만에 접근이 차단된 단명 프런티어 모델이 Claude Code 위에서 수행한 자율 코딩 4,665스텝. 한 행 = 한 스텝의 [맥락 → 사고 → 다음 액션] 기록.

4,665 스텝(행) 60 세션 31 종 도구 모델 claude-fable-5 단일 67MB · JSONL · AGPL-3.0

액션의 81%는 "말"이 아니라 "행동"

tool_use 81.4%
text 18.6%
도구 호출 (3,799건) 텍스트 응답 (866건)

에이전트는 사용자에게 설명하기보다 직접 도구를 호출해 작업을 밀어붙인다. 대화형 챗봇과 가장 다른 지점.

세션은 얼마나 길어지나

439
최장 세션 스텝 수
레이트레이싱 FPS를 한 세션에서 완주
38
중앙값(median) 스텝
평균 77.8 — 소수 초장기가 견인

도구 분포 — 89%가 파일·셸 조작

Bash
1,544
Edit
960
Read
443
Write
311
PowerShell
136
WebSearch
72
Preview MCP*
112
Task* / 기타
~121

Bash+Edit+Read+Write+PowerShell = 3,394건(전체 tool_use의 89%). 압도적으로 코딩/개발 에이전트. *Preview MCP = 브라우저 직접 검증 계열 합산

"쓰고 끝"이 아니라 "돌려본다"

86.7% 코드 작성·수정(Write/Edit) 1,271스텝 중
10스텝 안에 실행·검증이 따라온 비율
(검증까지 중앙값 단 2스텝 · 3스텝 내 57.2%)
Read Edit Bash 실행 Preview 검증

코드를 작성한 뒤 직접 실행하고, 브라우저로 playtest하며(Preview MCP 112건) 결과를 보고 고치는 검증 내장 루프가 관찰된다.

세션 길이 분포 (60개 세션, 스텝 수)

median 38
max 439
1 스텝← 짧은 작업이 다수, 초장기 세션이 꼬리 →439 스텝
min1
p2521
median38
mean77.8
p90206
max439

작업 도메인 (60개 세션 분류)

데이터·ML
19
웹 풀스택
12
3D 그래픽스
6
게임 개발
6
툴·스크립팅
6
시뮬레이션
1
기타
10

웹/3D 게임(FPS 클론·WebGL 레이트레이서), 물리 시뮬, 디지털 트윈 지구, 풀스택 앱까지 — 빌드→실행→검증 end-to-end 개발이 주류.

다음 행동은 무엇인가 — 도구 전이 확률 (현재 도구 → 바로 다음 도구)

현재 ↓ / 다음 → BashEditReadWritePowerShellPreview/기타
Bash .66.11.11.04·.05
Edit .24.66.02.02.03.03
Read .27.21.43.04·.05
Write .23.13.02.50.08.04
PowerShell ·.11.17.21.45.06
전이 확률 낮음높음각 행의 확률 합 = 1.0 · 상위 6개 도구열만 표시(나머지는 Preview/기타로 묶음)

대각선(같은 도구 반복)이 가장 진하다 — 한 종류 작업을 연달아 처리하는 "배치" 성향. 그다음으로 진한 칸은 Edit→Bash(.24)·Read→Bash(.27)·Read→Edit(.21), 즉 "고치거나 읽은 뒤 곧장 실행"으로 가는 경로다. 같은 도구 반복을 걷어낸 전환 흐름으로 보면 Bash→Edit→Bash(141)·Edit→Bash→Edit(104)가 1·2위 — 수정↔실행을 끈질기게 오가는 디버그 루프다(대표 4연속 Edit→Bash→Edit→Bash 94회).

⚠ 정직하게 — 이 데이터를 읽을 때 반드시 알아야 할 한계

  • CoT(사고 과정)는 합성(synthetic)이다. Fable 5는 Claude Code에서 추론을 저장하지 않았다. cot 컬럼은 데이터 저자가 최종 행동을 보고 다른 모델(gpt-oss:120b)로 사후 역생성한 것 — Fable의 진짜 사고가 아니다. 모델이 실제로 남긴 1차 자료는 output(행동·도구 호출)뿐이다.
  • "Fable의 추론을 증류한다"는 표현은 과장. 행동은 진짜지만, 사고는 타 모델의 사후 정당화다. 행동 패턴 분석·교육 사례로는 유효하나, "사고 품질"을 논할 근거는 약하다.
  • 작고(4,665행)·단일 모델·재현 불가. 사전학습엔 턱없이 작고 모델 비교엔 부적합. 대신 "사라진 단일 모델의 행동 화석"이라는 희소가치가 있다. 라이선스 AGPL-3.0(강한 카피레프트) — 상업적 distillation 전 검토 필수.