Data Story · 에이전트 trace 해부

프런티어 에이전트는 어떻게 일하는가
사라진 모델 Claude Fable 5의 실행 궤적을 뜯어보다

공개 3일 만에 접근이 차단된 단명 프런티어 모델이 Claude Code 위에서 수행한 자율 코딩 4,665스텝. 한 행 = 한 스텝의 [맥락 → 사고 → 다음 액션] 기록.

4,665 스텝(행) 60 세션 31 종 도구 모델 claude-fable-5 단일 67MB · JSONL · AGPL-3.0

액션의 81%는 "말"이 아니라 "행동"

tool_use 81.4%

text 18.6%

도구 호출 (3,799건) 텍스트 응답 (866건)

에이전트는 사용자에게 설명하기보다 직접 도구를 호출해 작업을 밀어붙인다. 대화형 챗봇과 가장 다른 지점.

세션은 얼마나 길어지나

439

최장 세션 스텝 수

레이트레이싱 FPS를 한 세션에서 완주

중앙값(median) 스텝

평균 77.8 — 소수 초장기가 견인

도구 분포 — 89%가 파일·셸 조작

Bash

1,544

Edit

960

Read

443

Write

311

PowerShell

136

WebSearch

Preview MCP*

112

Task* / 기타

~121

Bash+Edit+Read+Write+PowerShell = 3,394건(전체 tool_use의 89%). 압도적으로 코딩/개발 에이전트. *Preview MCP = 브라우저 직접 검증 계열 합산

"쓰고 끝"이 아니라 "돌려본다"

86.7% 코드 작성·수정(Write/Edit) 1,271스텝 중
10스텝 안에 실행·검증이 따라온 비율
(검증까지 중앙값 단 2스텝 · 3스텝 내 57.2%)

Read→ Edit→ Bash 실행→ Preview 검증

코드를 작성한 뒤 직접 실행하고, 브라우저로 playtest하며(Preview MCP 112건) 결과를 보고 고치는 검증 내장 루프가 관찰된다.

세션 길이 분포 (60개 세션, 스텝 수)

median 38

max 439

1 스텝← 짧은 작업이 다수, 초장기 세션이 꼬리 →439 스텝

min1

p2521

median38

mean77.8

p90206

max439

작업 도메인 (60개 세션 분류)

데이터·ML

웹 풀스택

3D 그래픽스

게임 개발

툴·스크립팅

시뮬레이션

기타

웹/3D 게임(FPS 클론·WebGL 레이트레이서), 물리 시뮬, 디지털 트윈 지구, 풀스택 앱까지 — 빌드→실행→검증 end-to-end 개발이 주류.

다음 행동은 무엇인가 — 도구 전이 확률 (현재 도구 → 바로 다음 도구)

현재 ↓ / 다음 →	Bash	Edit	Read	Write	PowerShell	Preview/기타
Bash	.66	.11	.11	.04	·	.05
Edit	.24	.66	.02	.02	.03	.03
Read	.27	.21	.43	.04	·	.05
Write	.23	.13	.02	.50	.08	.04
PowerShell	·	.11	.17	.21	.45	.06

전이 확률 낮음높음각 행의 확률 합 = 1.0 · 상위 6개 도구열만 표시(나머지는 Preview/기타로 묶음)

대각선(같은 도구 반복)이 가장 진하다 — 한 종류 작업을 연달아 처리하는 "배치" 성향. 그다음으로 진한 칸은 Edit→Bash(.24)·Read→Bash(.27)·Read→Edit(.21), 즉 "고치거나 읽은 뒤 곧장 실행"으로 가는 경로다. 같은 도구 반복을 걷어낸 전환 흐름으로 보면 Bash→Edit→Bash(141)·Edit→Bash→Edit(104)가 1·2위 — 수정↔실행을 끈질기게 오가는 디버그 루프다(대표 4연속 Edit→Bash→Edit→Bash 94회).

⚠ 정직하게 — 이 데이터를 읽을 때 반드시 알아야 할 한계

CoT(사고 과정)는 합성(synthetic)이다. Fable 5는 Claude Code에서 추론을 저장하지 않았다. cot 컬럼은 데이터 저자가 최종 행동을 보고 다른 모델(gpt-oss:120b)로 사후 역생성한 것 — Fable의 진짜 사고가 아니다. 모델이 실제로 남긴 1차 자료는 output(행동·도구 호출)뿐이다.
"Fable의 추론을 증류한다"는 표현은 과장. 행동은 진짜지만, 사고는 타 모델의 사후 정당화다. 행동 패턴 분석·교육 사례로는 유효하나, "사고 품질"을 논할 근거는 약하다.
작고(4,665행)·단일 모델·재현 불가. 사전학습엔 턱없이 작고 모델 비교엔 부적합. 대신 "사라진 단일 모델의 행동 화석"이라는 희소가치가 있다. 라이선스 AGPL-3.0(강한 카피레프트) — 상업적 distillation 전 검토 필수.