CLAUDE CODE · 토큰 절약 · OMC 완벽 가이드

토큰을 아끼고 oh-my-claudecode
200% 활용하는 실무 매뉴얼

Anthropic 공식 문서, OMC 공식 docs(허예찬 / Yeachan Heo), 카파시 CLAUDE.md, 그리고 지피터스·요즘IT·로보코 등 국내외 개발자 커뮤니티 자료를 종합했습니다. "메시지를 아끼자"가 아니라 "토큰을 아끼자"로 관점을 바꾸는 것이 핵심입니다.

컨텍스트 윈도우 관리 CLAUDE.md 다이어트 CLI · MCP · LSP /goal 자율 실행 OMC 멀티에이전트
SECTION 00

시작하기 전에 — 이 매뉴얼의 한 줄 요약

Claude(Claude Code 포함)는 메시지 개수가 아니라 토큰(token) 누적량으로 사용량을 측정합니다. 따라서 토큰을 아끼는 모든 방법은 결국 세 가지 원칙으로 수렴합니다.

CONTEXT

컨텍스트를 작게

대화 이력·파일·도구 정의가 매 요청마다 다시 토큰으로 계산됩니다. 컨텍스트가 작을수록 싸고 빠르고 정확합니다.

MODEL

모델을 의식적으로

단순 작업은 Haiku, 실무는 Sonnet, 깊은 추론만 Opus. 작업 규모에 맞는 모델 선택이 가장 큰 절감을 만듭니다.

REUSE

다시 배우게 하지 않기

Claude가 이미 알 수 있는 것을 매번 다시 탐색·재학습하게 만들지 마세요. 캐싱·메모리·스킬을 활용합니다.

📌 이 문서를 이렇게 쓰세요

1~8장은 모든 Claude Code 사용자를 위한 토큰 절약 핵심(8장 /goal 포함)이고, 9~15장은 oh-my-claudecode(OMC)를 얹어 한 단계 더 자동화하려는 사람을 위한 심화 섹션입니다. 16~17장은 둘을 합친 실전 워크플로와 체크리스트입니다.

SECTION 01

토큰의 기본 이해

절약하려면 먼저 "무엇이 토큰을 먹는지" 알아야 합니다.

토큰이란?

AI는 텍스트를 그대로 처리하지 않고 토크나이저(tokenizer)로 단어·기호·공백을 잘게 쪼갠 최소 단위, 즉 토큰으로 변환합니다. 대략적인 환산은 이렇습니다.

한국어

1글자 ≈ 2~3 토큰. 조사·어미·복합어가 분리되어 영어보다 토큰이 많아집니다.

영어

1단어 ≈ 1~2 토큰. 같은 의미라도 짧고 명확한 문장이 토큰 효율이 좋습니다.

⚡ 핵심 — AI에게 주는 지침은 영어로

같은 내용이라도 한글이 영어보다 토큰을 3~5배 더 소비합니다. CLAUDE.md·스킬·시스템 지침처럼 반복 로드되는 텍스트는 반드시 영어로 작성하세요. (4장에서 상세히 — 이 매뉴얼에서 가장 중요한 규칙입니다.)

입력 토큰 vs 출력 토큰

한 번의 요청에는 눈에 보이는 내 메시지보다 훨씬 많은 정보가 함께 전송됩니다. 아래가 전부 입력 토큰으로 계산됩니다.

입력 토큰에 포함되는 것출력 토큰에 포함되는 것
내 요청 메시지Claude의 응답 문장
세션 대화 이력 전체자동 생성된 코드
CLAUDE.md · 시스템 프롬프트분석 결과문
MCP 도구 정의(스키마)수정된 diff
@로 참조한 파일·문서 내용확장 사고(thinking) 토큰 ※ 출력으로 청구
⚠️ 짧은 요청 ≠ 적은 토큰

"이 함수 고쳐줘"라는 다섯 글자 요청도 대화 이력·CLAUDE.md·도구 정의·참조 파일이 함께 실리면 실제 입력 토큰은 수만 개일 수 있습니다.

컨텍스트 윈도우 — 작업 메모리

컨텍스트 윈도우는 모델이 한 번에 "볼 수 있는" 모든 정보의 한계치입니다. 시스템 프롬프트, 대화 내역, 파일 읽기 결과, 도구 출력이 모두 이 안에 들어갑니다.

  • 표준 모델: 200K 토큰 (책 한 권 분량)
  • Opus 4.6/4.7 등 확장 컨텍스트: 최대 1M 토큰
  • 대화가 누적될수록 매 턴 전체 이력을 다시 읽으므로 비용이 기하급수적으로 증가합니다.
누적 메시지 수누적 토큰 (평균 500토큰/회 기준)비고
5개약 7,500가벼움
10개약 27,500
20개약 105,000주의 구간
30개약 232,00030번째는 1번째의 약 31배 비쌈
🕐 5시간 롤링 윈도우

구독 사용 한도는 자정에 리셋되는 게 아니라 최근 5시간 사용 토큰만 한도에 포함됩니다. 5시간 전 토큰은 자동으로 빠지므로, 작업을 시간대별로 분산하면 같은 요금제로 더 많이 쓸 수 있습니다. (한국 업무시간은 대체로 미국 비피크 시간대라 유리한 편)

SECTION 02

토큰 사용량 확인하기

"디스크 공간처럼" 컨텍스트가 채워지므로, 정기적으로 확인하는 습관이 절약의 출발점입니다.

명령 / 도구역할대상
/context시스템 프롬프트·도구·메모리·메시지 등 컴포넌트별 토큰 사용량 표시전체 사용자
/usage현재 세션의 토큰 사용량 빠른 확인전체 사용자
/cost현재 세션의 API 토큰 비용·시간·코드 변경량API 사용자
/stats구독자용 사용 패턴 보기 (Max/Pro는 /cost가 청구와 무관)구독자
상태줄(statusline)컨텍스트 사용률을 항상 표시하도록 구성 가능전체 사용자
ccusage로컬 JSONL 로그를 일·월·세션별로 집계, 실시간 burn rate까지 (5장 참고)전체 사용자
웹 토크나이저token-counter.app, claude-tokenizer.vercel.app로 텍스트 토큰 추정전체 사용자
기준선

200K 윈도우에서 기본 세션은 보통 약 20K(10%)를 시스템이 차지하고, 나머지 180K가 실제 작업용입니다. /context로 이 비율을 자주 점검하세요.

🔌 인증 경로 착각 주의

환경에 API key가 있으면 Claude Code가 구독이 아니라 API 종량제로 동작할 수 있습니다. "갑자기 토큰을 너무 먹는다"는 체감은 사실 청구 면(billing surface)이 바뀐 경우가 많습니다.

SECTION 03

토큰 절약 10대 습관

커뮤니티(특히 X @0x_kaize 스레드, 지피터스 정리본)에서 화제가 된 즉시 적용 가능한 습관들입니다. 채팅 UI와 Claude Code 양쪽에 통용됩니다.

1

후속 메시지 대신 원본을 편집한다

"아니 그게 아니라…"를 보낼 때마다 이전 대화 전체가 다시 읽힙니다. 대신 원본 메시지의 편집(Edit) 버튼으로 수정·재생성하면 쓸모없는 이력이 쌓이지 않습니다.

2

15~20 메시지마다 새 세션을 연다

100+ 메시지 채팅은 250만 토큰 이상을 소모하고, 그중 대부분이 이전 대화 재읽기입니다. "지금까지 내용을 요약해줘" → 요약본을 새 채팅 첫 메시지로 붙여넣기.

3

질문은 하나로 묶는다

3개를 따로 보내면 컨텍스트 로딩 3회, 한 번에 묶으면 1회. 토큰도 아끼고 전체 맥락 파악이 좋아져 품질도 올라갑니다.

4

반복 파일은 Projects에 올린다

같은 PDF를 여러 채팅에 올리면 매번 토큰 변환됩니다. Projects에 한 번만 올리면 캐시되어 추가 소모가 없습니다. (계약서·스타일 가이드·브리핑 등)

5

Memory / 사용자 설정을 저장한다

"나는 ~야, 캐주얼하게, 짧게…"를 매번 쓰면 3~5 메시지를 잡아먹습니다. Settings의 Memory·User Settings에 한 번만 저장하세요.

6

안 쓰는 기능은 끈다

웹 검색·커넥터·확장 사고는 켜져 있기만 해도 매 응답에 토큰을 추가합니다. 내가 직접 켠 게 아니면 끈다가 기본 규칙.

7

단순 작업은 Haiku로

맞춤법·포맷팅·짧은 번역·초안은 Haiku로 충분합니다. 모델 선택만으로 예산의 50~70%를 아낄 수 있습니다. (7장에서 상술)

8

하루를 2~3 세션으로 분산한다

5시간 롤링 윈도우를 활용해 오전/오후/저녁으로 무거운 작업을 나누면 체감 한도가 훨씬 넉넉해집니다.

9

피크 시간대를 피한다

2026년 3월 정책 변경 이후 피크 시간엔 한도가 더 빨리 소모됩니다. (미국 업무시간 ≈ 한국 밤 10시~새벽 4시). 한국 낮 시간 작업은 대체로 유리합니다.

10

Extra Usage를 안전장치로

Pro/Max는 Settings → Usage에서 Overage(초과 사용)를 켤 수 있습니다. 절약법은 아니지만 중요한 작업 중 갑자기 막히는 상황을 방지합니다(월 지출 한도 설정 가능).

💡 명확한 요청이 가장 강력한 절약 도구

모호한 요청은 광범위한 코드 스캔을 유발합니다. "로그인 기능 수정해줘"(×) → "auth.py에서 JWT 만료 시간을 1h→24h로 늘려줘"(○). 구체적일수록 Claude가 최소한의 파일만 읽습니다.

SECTION 04

CLAUDE.md 작성법 — 가장 효과 큰 다이어트

CLAUDE.md는 매 세션 시작 시 컨텍스트에 자동 로드됩니다. 길수록 모든 요청의 초기 비용이 불필요하게 커집니다. 관건은 "성장"이 아니라 "거버넌스"입니다.

⚡ 가장 중요한 규칙 · #1 MOST IMPORTANT RULE
CLAUDE.md · 스킬 · 지침은 반드시 영어로 작성하세요

한국어는 1글자당 2~3토큰, 영어는 1단어당 1~2토큰입니다. 같은 내용이라도 한글이 영어보다 토큰을 3~5배 더 소비합니다. 특히 CLAUDE.md는 매 세션·매 요청마다 컨텍스트에 다시 실리므로, 여기서의 언어 선택이 전체 비용에 가장 크게, 가장 반복적으로 누적됩니다.

✗ 한글 지침 (낭비)
"수정 요청한 파일 외에는
절대 건드리지 마세요"
✓ 영어 지침 (3~5배 절약)
"NEVER touch files
not mentioned in the task"

👉 규칙·지침·프롬프트의 "내용"은 영어로 작성하고, 사람이 볼 메모만 한글로 다세요. Claude는 영어 지시를 100% 이해하며 답변은 한국어로 받을 수 있습니다. 이 매뉴얼의 모든 절약법 중 투입 노력 대비 효과가 가장 큰 단 하나가 바로 이것입니다.

원칙 1 — 짧게, 구조화해서

  • "이 프로젝트는…" 같은 서술형 문장 제거
  • 헤딩·리스트·테이블로 구조화
  • 규칙은 최소 단위로 축약, 코드 예시는 과하게 넣지 않기
  • Anthropic 공식 권장: 필수 항목만, 약 500줄(또는 그 이하) 유지
✗ 비효율 (약 5,000토큰)

프로젝트 설명을 장황하게 서술하고, 기술 스택을 여러 문단에 중복하고, 코딩 규칙을 장문으로 상세히 기술.

✓ 개선 (약 700토큰)

기술 스택·폴더 구조·핵심 규칙만 헤딩/리스트로 요약. 불필요한 문장 제거.

효과

이 원칙만 적용해도 문서 크기를 80~90%까지 줄일 수 있습니다.

⭐ 카파시(Karpathy) 4원칙 — 복붙용 CLAUDE.md GitHub 220,000+ ★

안드레이 카파시가 "AI 코딩 에이전트가 반복적으로 저지르는 실수"로 지적한 내용을, 개발자 Forrest Chang이 단 4개의 짧은 행동 원칙으로 정리한 CLAUDE.md입니다. 의존성·빌드 단계 없이 단 한 파일로 GitHub 역사상 가장 빠르게 성장한 리포지토리 중 하나가 되었습니다(MIT 라이선스).

핵심은 이 4개의 짧은 문구입니다. 아래 블록을 그대로 복사해 프로젝트 루트의 CLAUDE.md에 붙여넣으면 됩니다.

CLAUDE.md — copy & paste (KEEP IT IN ENGLISH)# Behavioral Guidelines (Karpathy 4)

## 1. Think Before Coding
Don't assume. Don't hide confusion. Surface tradeoffs.
- State assumptions explicitly. If uncertain, ask.
- If multiple interpretations exist, present them — don't pick silently.
- If a simpler approach exists, say so. Push back when warranted.

## 2. Simplicity First
Minimum code that solves the problem. Nothing speculative.
- No features beyond what was asked.
- No abstractions for single-use code.
- If you write 200 lines and it could be 50, rewrite it.

## 3. Surgical Changes
Touch only what you must. Clean up only your own mess.
- Don't "improve" adjacent code, comments, or formatting.
- Don't refactor things that aren't broken. Match existing style.
- Every changed line should trace directly to the user's request.

## 4. Goal-Driven Execution
Define success criteria. Loop until verified.
- "Add validation" → "Write tests for invalid inputs, then make them pass"
- "Fix the bug" → "Write a test that reproduces it, then make it pass"
- For multi-step tasks, state a brief plan first.

⚠️ 위 블록을 한글로 번역하지 마세요. 영어 그대로 두어야 토큰이 3~5배 절약됩니다. 위 4문구는 영어 원문이며, Claude는 영어 지시를 완벽히 이해하고 한국어로 답합니다.

30초 설치 — 방법 A · 이 프로젝트에만 (curl)

터미널 — 프로젝트 루트에서echo "" >> CLAUDE.md && \
curl https://raw.githubusercontent.com/forrestchang/andrej-karpathy-skills/main/CLAUDE.md >> CLAUDE.md

방법 B · 모든 프로젝트에 (플러그인/스킬, 호출 시에만 로드 → 토큰 절약)

Claude Code 세션 안에서 — 한 줄씩/plugin marketplace add forrestchang/andrej-karpathy-skills
/plugin install andrej-karpathy-skills@karpathy-skills
🔗 출처 & 메모

리포지토리: github.com/forrestchang/andrej-karpathy-skills (조직 미러: multica-ai/andrej-karpathy-skills). 전체 파일은 약 65줄로 짧아서 "그대로 따르는 템플릿"이 아니라 입맛대로 고치는 메뉴로 쓰는 것이 권장됩니다. OpenCode/Hermes 등 다른 도구에서는 파일명을 AGENTS.md로 바꾸면 됩니다.

⚠️ 보안 한 줄

스킬 생태계 전반에 보안 결함이 보고된 사례가 있습니다(2026년 2월 Snyk 감사). 외부 스킬/플러그인은 설치 전 출처와 내용을 확인하세요. 카파시 스킬은 단순 텍스트 가이드라인이라 위험이 낮은 편입니다.

원칙 2 — 분산 메모리 구조 (2-Tier)

CLAUDE.md가 길어지면 보조 문서로 쪼개고, 필요할 때만 불러오게 합니다. 기본 컨텍스트는 가볍게 유지됩니다.

디렉토리CLAUDE.md            # 핵심 규칙·스택·구조만 (가볍게)
docs/
 ├─ api-guide.md     # 필요할 때만 참조
 ├─ db-guide.md
 └─ deploy-guide.md
  • 토큰 절약: 기본 컨텍스트가 가벼워짐
  • 유지보수: 기능·역할별로 나뉘어 부분 수정 용이
  • 가독성: 필요한 정보를 빠르게 탐색

원칙 3 — 특화 지침은 CLAUDE.md → Skills로 이동

PR 검토, DB 마이그레이션처럼 특정 워크플로에서만 필요한 긴 지침을 CLAUDE.md에 두면, 무관한 작업을 할 때도 그 토큰이 항상 존재합니다. Skills는 호출될 때만 로드되므로 기본 컨텍스트를 작게 유지합니다.

SKILL.md (예시)---
name: pr-review
description: 우리 팀 PR 리뷰 규칙 적용
---
# 호출 시에만 컨텍스트로 로드되는 상세 지침
1. 변경 범위 요약
2. 보안 체크리스트 적용
3. 테스트 커버리지 확인
compaction 동작도 커스터마이즈 가능

CLAUDE.md에 압축 지침을 넣어 요약 시 보존할 내용을 지정할 수 있습니다. 예: /compact Focus on code samples and API usage 또는 CLAUDE.md에 "When you use compact, focus on test output and code changes".

SECTION 05

MCP · CLI · 외부 도구 — 도구 정의의 숨은 비용

각 MCP 서버는 유휴 상태에서도 도구 정의를 컨텍스트에 올립니다. GitHub·Web Search·Database·Playwright를 모두 켜면 시스템 영역에 1만 토큰 이상이 추가될 수 있습니다.

가능하면 MCP보다 CLI를 선호

이게 공식 문서의 첫 번째 권장사항입니다. CLI 도구는 지속적인 도구 정의를 컨텍스트에 추가하지 않으므로 MCP보다 효율적입니다. Claude가 오버헤드 없이 명령을 직접 실행합니다.

✗ 항상 켜진 MCP

GitHub MCP 서버를 상시 연결 → 안 쓸 때도 스키마가 컨텍스트 점유.

✓ CLI 직접 실행

Claude가 필요할 때 gh pr list를 그냥 실행. 도구 정의 오버헤드 0.

🧰 토큰 절약에 쓰는 CLI 도구 모음

아래 CLI들은 ① MCP 스키마 오버헤드가 없고 ② "파일 통째 읽기" 대신 정밀 탐색/필터링을 가능하게 해 컨텍스트를 크게 아낍니다. Claude가 직접 실행하므로, 미리 설치만 해두면 됩니다. (설치 명령은 macOS Homebrew 기준이며 다른 OS는 각 공식 안내 참고)

도구용도 / 토큰 절약 포인트설치 명령
ghGitHub CLI. PR·이슈·릴리스·workflow 조회/조작을 MCP 없이 직접brew install gh
glabGitLab CLI. gh의 GitLab 버전brew install glab
ripgrep (rg)초고속 코드 검색. 필요한 라인만 뽑아 파일 전체 읽기를 회피brew install ripgrep
fd빠른 파일 찾기(find 대체). 탐색 토큰 절약brew install fd
ast-grep (sg)정규식이 아닌 코드 구조(AST) 기반 검색·치환. 정밀하고 토큰 효율적brew install ast-grep
jqJSON을 grep·필터링해 필요한 필드만 반환(대용량 응답 다이어트)brew install jq
tokei / cloc코드 통계를 한 번에. 디렉토리 다 읽지 않고 규모 파악brew install tokei
tree디렉토리 구조를 한 번에 요약(여러 ls 호출 대체)brew install tree
aws / gcloud / az클라우드 CLI. 인프라 조회/조작을 MCP 없이 직접 (공식 문서 권장)각 공식 설치 스크립트
sentry-cli에러/릴리스 조회를 CLI로 (Sentry MCP 대체)brew install getsentry/tools/sentry-cli
ccusage토큰 사용량·비용 분석. 설치 없이 즉시 실행 가능npx ccusage / bunx ccusage
ccusage 자주 쓰는 명령

ccusage daily 일별 · ccusage monthly 월별 · ccusage session 세션별 · ccusage blocks --live 실시간 burn rate 대시보드 · --json 자동화 연동. 모델(Opus/Sonnet/Haiku)별 비용 분류와 --offline 캐시 모드도 지원합니다.

MCP 관리 3원칙

  • 필요한 것만 활성화: 프런트엔드 작업엔 Playwright만, 백엔드엔 Database MCP만.
  • 사용 안 하는 서버 비활성화: /mcp로 구성 확인 후 끄기. /context로 점유량 확인.
  • Tool Search 자동화: MCP 도구 설명이 컨텍스트의 10%를 넘으면 자동으로 도구를 연기(defer)하고 필요 시에만 로드합니다. ENABLE_TOOL_SEARCH=auto:5처럼 임계값을 더 낮출 수도 있습니다.
즉시 효과

안 쓰는 MCP 정리만으로 컨텍스트 공간 5~7%를 즉시 회수할 수 있습니다.

코드 인텔리전스 플러그인 (LSP)

타입 언어를 다룬다면 코드 인텔리전스 플러그인 설치를 강력 권장합니다. 텍스트 grep 대신 정확한 기호 탐색을 제공합니다.

  • "정의로 이동" 한 번이 grep + 여러 후보 파일 읽기를 대체 → 불필요한 파일 읽기 감소
  • 편집 후 자동 타입 오류 보고 → 컴파일러를 매번 돌리지 않고도 실수 포착

Hooks로 전처리 오프로드

Hook은 Claude가 데이터를 보기 전에 가공합니다. 1만 줄 로그를 통째로 읽는 대신, hook이 ERROR만 grep해 수백 토큰으로 줄일 수 있습니다.

settings.json — 테스트 실패만 통과시키는 PreToolUse hook{
  "hooks": {
    "PreToolUse": [{
      "matcher": "Bash",
      "hooks": [{ "type":"command",
        "command":"~/.claude/hooks/filter-test-output.sh" }]
    }]
  }
}

스크립트는 명령이 테스트 러너(npm test, pytest, go test)일 때 grep -E '(FAIL|ERROR)'로 실패 라인만 반환하도록 명령을 수정합니다.

Skills로 도메인 지식 주입

"codebase-overview" 같은 skill에 아키텍처·주요 디렉토리·네이밍 규칙을 적어두면, Claude가 구조 파악을 위해 여러 파일을 읽는 대신 즉시 컨텍스트를 획득합니다.

📚 함께 알아두면 좋은 외부 생태계

스펙 기반 개발을 자동화하는 spec-kit, 품질 가드레일 중심의 Everything Claude Code(ECC), 그리고 본 문서의 주인공인 자동 오케스트레이션형 oh-my-claudecode(OMC)가 대표적인 확장 패키지입니다. OMC + ECC 규칙을 함께 쓰는(자동화 + 품질 가드레일) 조합도 커뮤니티에서 인기입니다.

Claude Code의 3-Layer 구조 (왜 위임이 싼가)

Core Layer

기본 대화. 모든 메시지·파일·도구 출력이 공유 윈도우를 쓰며 토큰당 비용 발생. 가득 차면 품질 저하.

Delegation Layer

서브에이전트가 깨끗한 컨텍스트에서 집중 작업 후 요약만 반환. 탐색 결과가 본 대화를 키우지 않음.

Extension Layer

MCP가 외부 서비스(DB·GitHub·Sentry)를 연결. 강력하지만 도구 정의 비용 주의 → 가능하면 CLI로.

SECTION 06

서브에이전트 · 에이전트 팀

대량 출력 작업(테스트 실행, 문서 가져오기, 로그 처리)은 본 대화를 오염시킵니다. 이를 서브에이전트에 위임하면 상세 출력은 서브에이전트 안에 남고 요약만 본 대화로 돌아옵니다.

서브에이전트의 토큰 이점

  • 각 서브에이전트는 자체 컨텍스트 윈도우를 가짐 → 대형 코드베이스 탐색 시 사실상 추가 윈도우 확보
  • 탐색·로그 분석 같은 작업을 더 저렴한 모델 티어로 라우팅 가능 (예: model: haiku)
  • 여러 서브에이전트를 병렬로 실행 가능 ("4개 task로 디렉토리를 나눠 탐색")
서브에이전트 구성 — 단순 작업은 haiku로---
name: explorer
model: haiku   # 탐색은 가벼운 모델로 비용 절감
---

에이전트 팀 (실험 기능) — 강력하지만 비싸다

에이전트 팀은 각자 컨텍스트 윈도우를 가진 여러 Claude 인스턴스를 띄웁니다. plan mode에서 표준 세션의 약 7배 토큰을 쓸 수 있습니다.

settings.json — 에이전트 팀 활성화(기본 비활성){ "env": { "CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS": "1" } }
비용 관리 원칙이유
팀원은 Sonnet 사용기능·비용 균형
팀을 작게 유지토큰 사용량이 팀 규모에 대략 비례
spawn 프롬프트를 집중적으로spawn 프롬프트의 모든 내용이 처음부터 컨텍스트에 추가됨
완료 후 팀 정리활성 팀원은 유휴 상태에서도 토큰 소비
SECTION 07

모델 선택 & 확장 사고 조정

"매일 내리는 가장 중요한 결정"은 모델 선택입니다.

모델용도비용
Haiku파일 검색·맞춤법·포맷팅·짧은 번역·초안낮음
Sonnet대부분의 코딩·글쓰기·디버깅·실무중간
Opus복잡한 아키텍처 결정·다단계 추론·보안 리뷰높음
  • 세션 중 전환: /model · 기본값 설정: /config
  • 서브에이전트 단순 작업: 구성에서 model: haiku
  • Sonnet이 대부분의 코딩을 잘 처리합니다. Opus는 정말 깊은 추론에만 예약하세요.

확장 사고(Extended Thinking) 조정

확장 사고는 기본 약 32,000 토큰 예산으로 활성화되어 있고, 사고 토큰은 출력 토큰으로 청구됩니다. 깊은 추론이 필요 없는 작업이라면:

  • /effort 또는 /model에서 노력 수준 낮추기
  • /config에서 사고 비활성화
  • 예산 직접 축소: MAX_THINKING_TOKENS=8000
프롬프트 캐싱은 자동

Claude Code는 시스템 프롬프트 등 반복 콘텐츠에 프롬프트 캐싱을 자동 적용합니다. 캐시 적중 시 기본 입력가의 10%만 청구 → 최대 90% 비용 절감, 지연 85% 감소. 또한 컨텍스트 한도 근처에서 auto-compaction으로 이력을 자동 요약합니다.

SECTION 08 · 자율 실행

/goal 명령어 — 자율 실행 루프

2026년 5월 등장한 가장 화제의 명령어입니다. "한 턴 일하고 멈춰서 사용자에게 넘기는" 기존 방식을 끝내고, 완료 조건(completion condition)을 정의하면 그 조건이 충족될 때까지 Claude가 스스로 계획·작성·테스트·검증·반복을 이어갑니다.

🌊 트렌드 배경

먼저 OpenAI Codex CLI가 실험 기능으로 /goal을 출시했고(목표를 설정하면 confident한 정지 조건에 도달할 때까지 여러 턴 작동), 곧이어 Anthropic이 Claude Code v2.1.139(2026년 5월 12~13일)에 같은 개념을 추가했습니다. 현재는 Codex · Claude Code · Hermes 그리고 Claude Code 모바일까지 확산된 플랫폼 공통 기능입니다. "Keep Going"을 수동으로 누르던 시대를 끝냈다는 평가를 받습니다.

핵심 동작

  • 완료 조건을 자연어로 정의하면, 경량 완료 검증 모델(evaluator)이 매 반복마다 "목표가 객관적으로 충족됐는지" 평가합니다.
  • 충족될 때까지 여러 턴(때로는 수 시간~수 일) 자율 진행하며 경과 시간·턴 수·토큰을 추적합니다.
  • 목표가 달성되면 자동으로 goal이 해제됩니다.
  • 대화형 모드, -p 플래그(헤드리스), Remote Control에서 모두 동작합니다.

명령어 레퍼런스 (v2.1.139+)

명령동작
/goal <condition>활성 목표 설정/교체 (즉시 한 턴 시작). 조건은 최대 4,000자
/goal show상태 확인: 조건, 턴 수, 토큰, 마지막 평가 사유
/goal clear활성 목표 해제 (별칭: stop, off, reset, none, cancel)
/clear새 대화 시작 → 활성 목표도 함께 해제
--resume / --continue세션 재개 시 활성 목표 복원(턴/타이머/토큰 기준선은 리셋)
claude -p "/goal <condition>"비대화형으로 완료까지 루프 실행 (Ctrl+C로 중지)
전제 조건

Claude Code v2.1.139 이상, 워크스페이스 신뢰(trust) 다이얼로그 수락 필요(평가기가 hooks 시스템의 일부). disableAllHooks가 켜져 있거나 관리 설정에 allowManagedHooksOnly가 설정되면 사용 불가(명령이 이유를 알려줌). 세션당 목표는 하나이며, 새 /goal은 기존 목표를 대체합니다.

좋은 목표 vs 나쁜 목표 (4장 카파시 4원칙과 직결)

"강한 완료 조건"이 핵심입니다. 모호하면 검증이 불가능해 무한 루프나 "그럴듯한 엉망"으로 끝납니다. 4장의 Goal-Driven Execution 원칙이 그대로 적용됩니다.

✗ 약한 조건 (검증 불가)

막연해서 평가기가 판단 못 함./goal make it work

✓ 강한 조건 (검증 가능)

객관적 통과 기준이 명확./goal all tests pass and `npm run build` succeeds with no type errors

실전 예시/goal pytest 전체 통과 + ruff 린트 0 에러 + 커버리지 80% 이상
/goal /auth 모듈의 보안 취약점을 수정하고 회귀 테스트를 추가해 모두 통과시킨다
/goal show          # 진행 상황·토큰 점검
/goal clear         # 중단

⚠️ 토큰 관점에서의 주의

자율 루프 = 토큰 소모도 자율

/goal은 수 시간 자율 실행이 가능한 만큼, 약한 조건이나 넓은 범위로 돌리면 할당량을 빠르게 소진할 수 있습니다. 안전하게 쓰려면 — ① 조건을 좁고 검증 가능하게, ② 작업당 범위를 작게 분리, ③ /goal show로 토큰을 주기적으로 점검, ④ 무거운 작업은 모델/노력 수준을 낮춰서, ⑤ 이상하면 Ctrl+C//goal clear로 즉시 중단. 즉 5~7장의 절약 원칙을 켜둔 채로 /goal을 쓰는 것이 정석입니다.

OMC에도 /goal이 있나? — 개념적 등가물

OMC 공식 문서에 동일한 이름의 /goal 명령은 (현재 확인 범위에선) 없습니다. 다만 "완료될 때까지 멈추지 않는 자율 실행"이라는 개념은 OMC가 이미 다른 이름으로 제공합니다.

개념네이티브 Claude CodeOMC 등가물
완료까지 지속 실행/goal <condition>ralph (완료까지 루프)
계획→실행 자동 전 과정autopilot (5단계 파이프라인)
완료 검증경량 evaluator 모델QA/Validation 단계 + verifier 에이전트
정리

네이티브 /goal은 "조건 하나로 자율 루프", OMC ralph/autopilot은 "역할 분업 + 완료 보증"입니다. 단순·단일 목표면 /goal, 멀티 역할 대형 작업이면 OMC가 더 자연스럽습니다. 둘 다 자율 실행이라 토큰 모니터링은 필수라는 점은 동일합니다.

SECTION 09 · OMC

oh-my-claudecode(OMC)란 무엇인가

허예찬(Yeachan Heo)이 만든 OMC는 Claude Code 위에 얹는 멀티 에이전트 오케스트레이션 레이어입니다. 한 줄 요약은 — "Don't learn Claude Code. Just use OMC."

핵심 1 · 자동 위임

"복잡한 작업"이라고 말하면 설계·리서치·실행·QA 등 전문 역할로 쪼개 병렬로 실행합니다.

핵심 2 · 자동 모드 전환

"plan this", "don't stop until done" 같은 표현을 감지해 계획 인터뷰나 지속 실행 모드를 자동으로 켭니다.

OMC의 작동 철학 — 스킬 합성(Skill Synthesis)

Claude Code는 마스터 에이전트를 교체하지 않고 고정된 마스터에 스킬을 주입(inject)해 행동을 바꿉니다. OMC는 이를 레이어로 정리합니다.

Execution Skill+ 0~N Enhancement Skills+ Optional Guarantee

예: "UI 작업 + 여러 파일 수정 + 커밋"이면 실행 레이어 위에 frontend-ui-ux, git-master를 얹습니다. 모드를 '갈아타는' 게 아니라 행동을 '겹겹이 쌓는' 방식이라 맥락이 끊기지 않습니다.

패키지 구성 (버전에 따라 수치 변동)

19~27
SPECIALIZED AGENTS

architect, explore, researcher, executor, designer, writer, vision, critic, analyst, planner, qa-tester 등 역할별 분업

28~37
SKILLS

autopilot, ralph, ultrawork, team, planner, git-master, frontend-ui-ux, learner 등 자동화 워크플로

HUD Statusline

오케스트레이션 진행 상황을 상태바에 요약 표시 [OMC] autopilot:planning | agents:2 | ctx:32%

메모리/노트 시스템

컨텍스트 압축 이후에도 핵심 정보를 남기는 3-Tier 메모리(우선순위 / 작업 / 수동 노트)

⚠️ 트레이드오프 (커뮤니티 평가)

OMC는 속도·편의성이 강점이지만, 병렬화와 보강 스킬은 본질적으로 더 많은 호출/사고를 유도합니다. 즉 토큰·시간·비용 증가자동화의 불투명성이 명확한 비용입니다. 작은 프로젝트엔 과잉 설계가 될 수 있습니다.

SECTION 10 · OMC

설치 & 첫 세션 (약 30초)

Step 1 — 설치 (슬래시 명령은 한 줄씩 입력)

Claude Code 세션 안에서# 1) 마켓플레이스 추가
/plugin marketplace add https://github.com/Yeachan-Heo/oh-my-claudecode

# 2) 플러그인 설치
/plugin install oh-my-claudecode

npm CLI 경로를 선호하면(패키지명 주의 — 브랜드는 oh-my-claudecode지만 npm 패키지는 oh-my-claude-sisyphus):

터미널npm i -g oh-my-claude-sisyphus@latest

Step 2 — 설정 (CLAUDE.md 갱신)

세션 안 / 터미널/setup            # 또는  /omc-setup
omc setup         # 터미널에서

Step 3 — 무언가 만들기

자연어로autopilot build me a todo CLI app
/autopilot "build a REST API for managing tasks"

CLI 명령 vs 세션 내 스킬

기능터미널 CLI세션 내 스킬
설정omc setup/setup, /omc-setup
다른 모델에 질의omc ask codex "…"/ask codex "…"
팀 오케스트레이션omc team 2:codex (tmux 워커)/team 3:executor (네이티브)
Autopilot/Ralph 등/autopilot /ralph /ultrawork

요구사항이 막연할 때 — Deep Interview

소크라테스식 질문으로 요구사항 명료화/deep-interview "I want to build a task management app"

업데이트 & 문제 해결

유지보수# npm 설치 시
npm i -g oh-my-claude-sisyphus@latest

# 마켓플레이스 설치 시
/plugin marketplace update omc
/setup

# 문제 발생 시 캐시 진단
/omc-doctor
SECTION 11 · OMC

매직 키워드 — 파이프라인을 한 마디로

대부분 자동이지만, 필요하면 키워드로 모드를 강제할 수 있습니다.

키워드효과
ralph완료될 때까지 멈추지 않는 지속 실행 (네이티브 /goal과 유사한 개념)
ralplan여러 관점의 합의를 만들며 반복 계획
ulw / ultrawork최대 병렬 실행
plan계획 인터뷰 시작
autopilot / ap자율 실행 플로우
analyze / deep-analyzedebugger 에이전트 즉시 호출(원인 분석)
cancelomc / stop / abort맥락에 맞춰 진행 중단(진행분은 보존)
중단해도 안전

cancelomc로 멈춰도 그때까지의 진행 상황은 보존되어 나중에 이어서 재개할 수 있습니다.

SECTION 12 · OMC

Autopilot · Team 모드

Autopilot — 5단계 자동 파이프라인

아이디어 하나를 주면 완성 코드까지 자동으로 만듭니다.

Expansion Planning Execution QA Validation
  1. Expansion — analyst·architect가 아이디어를 기능 요구사항·기술 스펙으로 확장 (.omc/autopilot/spec.md)
  2. Planning — planner가 구현 계획 작성, critic이 빈틈 검토 (.omc/plans/autopilot-impl.md)
  3. Execution — executor가 ralph+ultrawork 모드로 완료까지 코딩(필요 시 병렬)
  4. QA — 빌드·테스트 검증, 실패 시 자동 수정·재검증(최대 5회)
  5. Validation — 기능·보안·품질 3관점 최종 리뷰. 모두 APPROVED여야 완료(최대 3라운드)
옵션기본값설명
parallelExecutors5병렬 executor 수
maxQaCycles5QA 재시도 횟수
maxValidationRounds3최종 검증 라운드
skipQa / skipValidationfalse단계 스킵(토큰 절약용)

Team 모드 — 여러 에이전트 동시 실행

형식: N:agent-type "작업"/team 3:executor "fix all TypeScript errors"
omc team 2:codex "review auth module for security"   # tmux 워커
team ralph 3:executor "implement full auth system"   # team + ralph
구분autopilotteam
자동화완전 자동(5단계)반자동(방향 지시 필요)
에이전트 수자동 결정사용자 지정(2~5 권장)
적합엔드투엔드 자동 실행특정 단계 병렬 처리
🔥 토큰 경고

Team 모드는 여러 에이전트를 동시에 굴려 토큰 비용이 높습니다. 단순 작업엔 단일 에이전트가 훨씬 효율적입니다.

계획 워크플로 선택

워크플로적합비용
/plan빠른 계획이 필요할 때낮음
/ralplan여러 관점의 합의가 필요할 때(Planner→Architect→Critic 반복)중간
autopilot계획부터 실행까지 자동화높음
SECTION 13 · OMC

OMC 내장 MCP 도구 — 토큰을 아끼는 무기들

OMC는 에이전트가 내부적으로 쓰는 MCP 도구를 제공합니다. 이 중 상당수가 직접적인 토큰 절약 장치입니다.

📝 Notepad

컨텍스트 압축에도 살아남는 노트 시스템. 긴 세션에서 윈도우 밖으로 밀려나도 핵심 정보가 보존됨. /note로 저장.

🧠 Project Memory

프로젝트 구조·규칙·학습한 지식을 세션 간 유지. 매번 다시 탐색할 필요 없음.

🔎 LSP

lsp_goto_definition, lsp_find_references 등. 타입 정보·정의 이동·참조 찾기로 파일 통째 읽기를 대체.

🌳 AST Grep

ast_grep_search/replace. 정규식이 아니라 코드 구조 패턴으로 검색·치환 → 정확하고 토큰 효율적.

🐍 Python REPL

세션 간 상태가 유지되는 영속 Python 환경에서 데이터 분석 수행.

🗂 State / Shared Memory

autopilot·ralph 등 실행 모드의 상태 저장, 팀 간 교차 공유 메모리로 협업 조율.

왜 토큰을 아끼나

LSP·AST Grep·Notepad·Project Memory는 모두 "같은 정보를 다시 읽지 않게" 만드는 장치입니다. 즉 5장의 "코드 인텔리전스로 불필요한 파일 읽기 줄이기" 원칙을 OMC가 내장 제공하는 셈입니다.

SECTION 14 · OMC

OMC 비용 최적화 — Haiku-First 원칙

OMC는 3개 모델 티어를 쓰며, 적절한 티어 선택만으로 토큰 30~50%를 절감한다고 공식 문서가 안내합니다. 핵심은 "가장 가벼운 모델로 시작하고 필요할 때만 올린다".

작업 유형권장 모델이유
파일 검색·코드 탐색haiku단순 작업
문서 작성haiku구조화된 텍스트 생성
일반 코드 구현sonnet품질-비용 균형
디버깅sonnet코드 이해 필요
아키텍처 설계opus깊은 추론 필요
보안 리뷰opus철저한 분석 필요

고비용 작업 (꼭 필요할 때만)

  • team — 여러 에이전트 동시 실행
  • ralph — 완료까지 루프
  • autopilot — 5단계 풀 파이프라인
  • qa-tester — tmux 세션 기반 검증

검증 비용 최적화 (싼 것부터)

우선순위방법비용
1기존 테스트 실행낮음
2명령 직접 실행(curl, CLI)낮음
3qa-tester (tmux)높음 — 정말 필요할 때만

일반 팁

  1. 작게 시작: 단일 에이전트로 시작해 필요 시 team/autopilot으로 확장
  2. 계획 먼저: 복잡한 작업은 /plan·ralplan으로 먼저 계획
  3. 노트 활용: /note로 핵심 정보를 컴팩션에서 살리기
  4. 상태 모니터링: HUD·상태 파일로 진행 추적
  5. 중단 타이밍: cancelomc로 불필요한 작업 빠르게 중지
SECTION 15 · OMC

안티패턴 — 토큰을 태우는 흔한 실수

✗ 단순 작업에 무거운 모드

오타 하나 고치는데 autopilot 호출.autopilot fix the typo in README.md

✓ 직접 요청

그냥 바로 시킨다.Fix the typo in README.md

✗ 모든 에이전트를 opus로

explore / writer / executor 전부 opus

✓ 기본값 유지, 필요한 곳만

executor만 opus (복잡한 프로젝트)

✗ 테스트 있는데 qa-tester

qa-tester verify the login feature

✓ 기존 테스트 실행

npm test -- --grep "login"

✗ /goal에 약한 조건

검증 불가 → 무한 루프로 토큰 소진./goal make it better

✓ 검증 가능한 조건

/goal all tests pass and build succeeds

✗ 검증 없이 "완료" 선언

에이전트가 "done"이라고 해도 바로 넘어가지 마세요. 항상 빌드/테스트 결과를 증거 기반(evidence-based)으로 먼저 확인합니다 — 이것이 재작업으로 인한 토큰 낭비를 막는 핵심입니다.

SECTION 16

실전 워크플로 — 토큰 의식 + OMC + /goal

큰 작업을 토큰 효율적으로 끝내는 표준 흐름입니다.

1

계획부터 (Plan Mode)

아키텍처 변경·인증 교체처럼 범위가 큰 작업은 바로 수정하지 말고 Shift+Tab으로 plan mode 진입. 또는 OMC ralplan으로 변경 파일·순서·리스크 정리. 초기 방향 오류로 인한 값비싼 재작업을 방지합니다.

2

/context로 점검

작업 시작 전 컨텍스트 사용률 확인. 무관한 MCP는 /mcp로 끄고, 가능하면 CLI(gh·rg·ast-grep)를 쓰도록 유도.

3

구체적으로 지시 + 검증 대상 제공

"auth.ts 로그인 함수에 입력 검증 추가"처럼 구체적으로. 테스트 케이스·예상 출력·스크린샷을 함께 주면 Claude가 스스로 검증합니다. (카파시 4원칙을 CLAUDE.md에 깔아두면 이 습관이 강제됩니다)

4

긴 작업은 /goal 또는 OMC에 위임

검증 가능한 완료 조건이 명확하면 /goal로 자율 루프. 멀티 역할 대형 작업이면 OMC autopilot. 대량 출력(로그·테스트)은 서브에이전트로 격리해 요약만 받기.

5

토큰 모니터링 + 조기 방향 수정

자율 실행 중에는 /goal show·ccusage blocks --live로 소모를 주시. 방향이 틀리면 Esc/Ctrl+C로 즉시 중지, /rewind 또는 Esc Esc로 체크포인트 복원.

6

문서화 후 /clear, 다음 단계로

대규모 작업은 진행 상황을 마크다운으로 저장 → /clear로 초기화 → 새 세션에서 그 파일을 읽어 이어가기. 작업 전환 시 /rename/resume로 복귀.

멀티 터미널 전략

터미널1=백엔드, 터미널2=프런트엔드, 터미널3=문서/배포처럼 물리적으로 분리하면 컨텍스트 충돌을 막고 메모리 효율이 올라갑니다.

OMC 스킬 파이프라인 예시

deep-interview omc-plan autopilot

요구사항을 deep-interview로 명료화 → omc-plan으로 계획 → autopilot으로 실행. 막연한 아이디어를 토큰 낭비 없이 완성으로 가져가는 안전한 경로입니다.

SECTION 17

최종 체크리스트

🪙 토큰 절약 (모든 사용자)

  • 후속 메시지 대신 편집하기
  • 15~20 메시지마다 새 세션·요약 인계
  • 질문은 하나로 묶기
  • 반복 파일은 Projects·메모리에
  • 안 쓰는 기능·MCP 끄기
  • 단순 작업은 Haiku
  • 하루 2~3 세션으로 분산
  • 요청은 구체적으로

⚙️ Claude Code 설정

  • CLAUDE.md 500줄 이하·구조화
  • 카파시 4원칙 깔기(forrestchang)
  • 특화 지침은 Skills로 이동
  • 긴 CLAUDE.md는 분산 메모리
  • MCP보다 CLI 선호(gh·rg·ast-grep…)
  • 타입 언어엔 코드 인텔리전스(LSP)
  • 전처리는 Hooks로 오프로드
  • 확장 사고 예산 조정(MAX_THINKING_TOKENS)

🤖 자율 실행 (/goal · OMC)

  • /goal검증 가능한 조건으로만
  • 자율 루프 중 /goal show로 토큰 점검
  • Haiku-first, 필요할 때만 승급
  • 단순 작업에 autopilot/team 금지
  • 검증은 기존 테스트→CLI→qa-tester
  • 완료 후 팀 정리(유휴도 과금)
  • 막힐 때 Ctrl+C·cancelomc로 즉시 중단

🔍 점검 명령 & 도구

  • /context · /usage — 사용량
  • /cost · /stats — 비용/패턴
  • ccusage daily|monthly|blocks --live
  • /mcp — 활성 MCP 점검
  • /clear · /compact — 비우기/요약
  • /rewind — 체크포인트 복원
  • /model · /effort — 모델·노력
  • /omc-doctor — OMC 진단
🎯 한 문장 결론

컨텍스트를 줄이고, 모델을 의식적으로 선택하고, Claude가 이미 알 수 있는 것을 다시 배우게 하지 마라. 이 세 가지가 가장 크게 먹힙니다. /goal·OMC 같은 자율 도구는 이 원칙을 자동화하지만, 자동화 자체가 토큰을 더 쓸 수 있으니 "작업 규모에 맞는 도구"를 고르고 "검증 가능한 목표"를 주는 판단은 여전히 사람의 몫입니다.