본문 바로가기
AI

Claude Code 쿼터시스템 완전 해부 — 토큰이 예상보다 빨리 사라지는 진짜 이유

by 심독 2026. 5. 7.

핵심 주제: 5시간 창, 캐시 소실, 버전 회귀


들어가며: "짧은 질문 2개만 했는데도 토큰 100%가 소진됐다"

"Claude Haiku에 짧은 질문 두 개를 보냈는데 토큰 사용량이 100%까지 치솟았다."
최근 해외 커뮤니티를 달군 주제다.
저장소와 무관한 단순한 질문이었다.

 

Faros.ai의 2026 AI Engineering Report에 따르면 같은 문제를 겪은 개발자들의 패턴을 수집할 수 있다고 한다.
"4시간 분량의 쿼터가 프롬프트 3개에 사라졌다",
"Max 20x를 구독 중인데 5시간 창이 70분 만에 소진된다."

 

왜 이런 일이 일어나는가?
Claude Code의 쿼터 시스템은 대부분의 사용자가 생각하는 것보다
훨씬 복잡하고, Anthropic 공식 문서도 그것을 명확하게 설명하지 않는다.


1. 쿼터 시스템의 실제 구조

5시간 창이 리셋되는 방식

2026년 4월 기준 Anthropic 공식 Help Center는 다음을 확인한다.

  • Free는 5시간마다 리셋,
  • Pro와 Max는 더 많은 헤드룸 + 주간 한도 추가이다.

"Claude 하루 토큰 한도"라는 표현은 잘못된 프레임이다.
일일 한도가 아니라 5시간 창 기반이다.

 

실제 계층 구조:

  • Free: 5시간마다 리셋, 가장 낮은 헤드룸
  • Pro ($20/월): 세션당 Free 대비 5배 + 주간 한도
  • Max 5x ($100/월): Pro보다 추가 확장 + 주간 한도
  • Max 20x ($200/월): 최대 헤드룸 + 주간 한도, 초과 시 API 가격으로 추가 사용 가능

중요한 점: "토큰 한도"는 메시지 수가 아니라 총 토큰 소비량으로 계산된다.
당신의 질문 + 대화 전체 히스토리 + 첨부 파일 + Claude 응답 + 시스템 프롬프트 + 툴 정의가 모두 포함된다.

주간 한도의 존재

2025년 8월 Anthropic은 5시간 창 위에 주간 한도를 추가하였다.
소수의 사용자가 지속 불가능한 수준으로 자원을 소비하는 것에 대한 대응이었다.
이 주간 한도는 공식 문서에 상세히 설명되어 있지 않으며, 이것이 사용자 혼란의 주요 원인이다.

 

▲ Claude Code의 쿼터는 5시간 리셋 창과 주간 한도의 이중 레이어로 구성된다


2. 토큰이 예상보다 빨리 사라지는 5가지 원인

① 1시간 유휴 후 캐시 소실 — 같은 비용을 두 번 낸다

가장 실질적인 함정이다.


finout.io 분석에 따르면 1시간 이상 유휴 후 돌아오면
대화 전체가 cache_creation으로 재전송된다.
캐시 읽기 요율이 아닌 일반 입력 요율로 다시 청구된다.

 

점심 먹고 돌아온 개발자는

  • "이미 로딩된" 세션에서 첫 메시지를 보내는 순간
  • 전체 컨텍스트를 다시 로딩하는 비용을 낸다.

이것이 "짧은 질문 하나가 토큰을 대량 소진하는" 현상의 핵심 원인이다.

해결책: 쉬기 전 /clear로 대화를 리셋하고 압축된 컨텍스트로 재시작한다.

② Opus는 Sonnet보다 약 1.7배 비싸고 주간 한도도 더 빡빡하다

Opus 4.7을 기본 모델로 사용하면 Sonnet 대비 토큰 비용이 높고,
Anthropic은 Opus에 더 빡빡한 주간 한도를 설정한다.


Anthropic 공식 Help Center도 이를 명시한다.

  • "Opus는 대형 크로스파일 리팩터링, 어려운 디버깅, 아키텍처 결정에 사용하고,
  • 그 외 대부분의 코딩 작업에는 Sonnet을 사용하라."

③ ultrathink 모드는 토큰을 5배 소비한다

Extended thinking(ultrathink) 모드는 기본으로 활성화될 수 있으며,
토큰 소비를 최대 5배까지 늘린다.

 

thinking 토큰이 출력 토큰으로 과금되기 때문이다.
Opus 4.7 기준 출력 $25/1M이므로 기본 thinking 예산이 수만 토큰에 달하면 요청당 비용이 급격히 올라간다.

 

해결책: MAX_THINKING_TOKENS=8000, /effort 조정, /config에서 단순 작업 시 thinking 비활성화.

④ 피크 시간대 1.3~1.5배 소비 가속

Anthropic이 공식 공개하지 않았지만 이미 널리 알려진 사실이다.

 

평일 오전 5~11시 Pacific(한국 시각 오후 9시~새벽 3시) 에 동일 작업의 토큰 소비가 1.3~1.5배 빠르다.
이 시간대에 무거운 작업을 집중하면 쿼터가 빨리 소진된다.

⑤ 버전 회귀 버그 — v2.1.89(2026.04.01)

GitHub Issue #41788에서 대규모로 보고된 버그이다.


Claude Code v2.1.89 이후 동일한 작업이 3~50배 빠른 토큰 소비를 유발하기 시작하였다.
$200/월 Max 20x 구독자가 5시간 창을 70분 만에 소진하는 사례가 다수 보고되었다.


3. 실전 최적화: 토큰을 아끼는 방법

  1. 모델 분기 전략:
    단순 편집·로컬 작업은 Haiku,
    일반 코딩은 Sonnet,
    복잡한 리팩터링·디버깅만 Opus.
    이것이 Anthropic 공식 권장사항이기도 하다.
  2. CLAUDE.md 최적화:
    이 파일은 매 턴에 prepend된다.
    200줄 이하로 유지하고 불필요한 내용은 제거한다.
  3. 컨텍스트 트리밍:
    로그·스택 트레이스는 관련 20~30줄만 붙여넣는다.
    대용량 파일은 경로 참조로 대체한다.
    @ 접두사로 파일 주입 시 전체 CLAUDE.md 트리가 포함되므로 주의한다.
  4. 세션 관리:
    1시간 이상 쉬기 전 반드시 /clear.
    돌아올 때 압축된 컨텍스트로 재시작한다.

사례: 주간 한도를 깨달은 후 전략 변경
개발자는 Pro 구독으로 월요일~화요일에 집중적으로 Opus를 사용하면
수요일부터 주간 한도에 걸리기 시작하게 된다.
Opus→Sonnet 전환, ultrathink 비활성화, CLAUDE.md 200줄 이하로 정리하면
주간 한도 내에서 5일 내내 작업을 할 수 있다.


마치며

Claude Code의 쿼터 시스템은 단순해 보이지만 실제로는

  • 5시간 창
  • 주간 한도
  • 캐시 소실
  • 모델별 차등 한도
  • 버전별 회귀 가능성이 모두 겹쳐 있다.

이 구조를 이해하지 못하면 "짧은 질문 두 개만으로도 100%를 소진"하는 경험을 반복하게 된다.

  • 모델을 작업 유형에 맞게 분기하고,
  • 캐시 소실 패턴을 인식하며,
  • 버전 업데이트 후 비정상적 소비가 없는지 확인하는 것이 2026년 Claude Code 운영의 핵심이다.

📎 참고 출처

반응형