어제까지 Claude Code가 1등이었다 — 2026년 5월 기준 진짜 우열을 가르는 3가지 진실

Opus 4.7 토크나이저 변경부터 사고 깊이 67% 감소까지, 균열의 실체를 정리한다

문제 제기: 지난주까지 잘 쓰던 게 오늘부터 아쉬워졌다

2026년 4월 16일 Anthropic이 Claude Opus 4.7을 출시하고,
정확히 7일 뒤 OpenAI가 GPT-5.5를 발표하였다.

그 사이 에이전트 코딩 커뮤니티에 조용한 균열이 생겼다.

"Claude한테 복잡한 프롬프트 하나 던지면 5시간 한도 절반이 그 자리에서 빠진다."
"Codex Plus $20는 종일 돌려도 막히지 않더라."

수백 개의 Reddit 댓글은 같은 방향을 가리키고 있다.
이제는 대세가 되어가는 것 같았던 Claude Code의 우위가 흔들리기 시작하였다.

균열의 실체는 세 가지이다.

공감: 균열을 만든 3가지 원인

원인 1. 토크나이저 변경 — 같은 돈으로 덜 쓸 수 있게 됐다

Opus 4.7의 새 토크나이저는 같은 영문 텍스트를 더 많은 토큰으로 매핑한다.

공식 가이드는 1.0~1.35배라고 했지만,
ClaudeCodeCamp의 외부 측정 결과 영문·코드 기준으로 1.20~1.47배까지 올라갔다.

주간 한도가 더 빨리 찬다는 의미이다.

반면 GPT-5.5는 GPT-5.4 대비 약 40% 토큰 효율이 향상됐다.
Opus 4.7 대비 동일 작업에서 약 72% 적은 토큰을 쓴다는 수치도 있다.
같은 월 구독료로 Codex를 쓰면 더 많은 작업을 처리할 수 있다는 계산이 성립한다.

원인 2. Codex가 따라잡았다

4월~5월 사이 Codex CLI에 새 기능들이 차례로 업데이트됐다.

4월 30일 (0.128.0): 여러 세션에 걸친 목표를 설정하는 /goal 워크플로
5월 7일 (0.129.0): /hooks 브라우저, Vim 모드, Chrome 확장, 플러그인 워크스페이스 공유
5월 8일 (0.130.0): codex remote-control(모바일·데스크톱 인계), AWS Bedrock 자격증명

hooks·Vim 모드와 Chrome 확장은 Claude Code가 먼저 도입한 기능을 Codex가 따라잡은 것이다.
/goal 워크플로는 Codex가 먼저 만들고 Claude Code가 뒤따라 출시하였다.

원인 3. 사고 깊이가 줄었다는 측정값

AMD 시니어 디렉터 Stella Laurenzo는
Opus 4.7 출시 이후 6,852개 세션, 234,760번의 도구 호출을 분석하였다.

사고 깊이 중앙값이 67% 감소하였고, 편집 1회당 읽기 파일 수가 6.6에서 2.0으로 줄었다.
GitHub Issue #42796로 공개됐다.

해결: 작업 유형별로 가리는 진짜 우열

Codex가 더 나은 영역

일상 코딩 (명확한 스펙이 있을 때)

dev.to 메타분석(500개 이상 댓글 분석) 결과 65%가 데일리 코딩에 Codex를 선호하였다.
같은 작업에 Claude Code가 토큰을 4배 더 쓴다는 직접 비교 결과도 있다.
"Codex는 권한 묻느라 멈추는 일 없이 끝까지 간다"는 Hacker News 평가도 이 영역을 지지한다.

구조가 잘 잡힌 코드베이스의 멀티 파일 변환

타입과 테스트 등 가드레일이 확실한 환경에서 여러 파일을 자율로 변환할 때 Codex가 강하다.
"잘 구조화된 코드베이스에서 다중 파일 변경을 자율적으로 잘 처리한다(sitepoint)"는 일관된 평가가 나오는 이유다.

PR 리뷰·샌드박스 격리

커널 레벨 격리(Seatbelt + Landlock/seccomp)에 Codex Cloud 격리 컨테이너까지 더해 기본 보안이 강하다.

Claude Code가 더 나은 영역

다중 파일·8시간 이상 장기 리팩터링

SWE-bench Pro(64.3% vs 57.7%), SWE-bench Verified(87.6% vs 74.9%)에서 Opus 4.7이 앞선다.

한 사용자는 다음과 같이 말했다.
"지저분한 요구사항을 끌고 가는 장기 작업은 Opus 4.7이 답을 보여주고, Codex는 빠르고 짧은 루프에서 빛난다."

1M 컨텍스트가 필요한 대형 코드베이스

Claude Code는 1M 컨텍스트를 추가 요금 없이 정식 지원한다.
Codex는 400K까지이고 1M은 opt-in 요청 단계이다.

막연한 UI·디자인·시각적 조정

"UI나 디자인 시스템처럼 사람이 직접 마주하는 영역이면 Claude Code가 자연스러운 선택이다."
한 사용자의 언급처럼,
Codex 결과물이 디자인은 더 세련됐지만 오류가 나거나 동작이 어긋나는 경우가 있다.

작업별 추천 요약

작업 유형	추천
명확한 스펙의 일상 코딩	Codex
토큰 한도 중심 헤비 유저	Codex
PR 리뷰·샌드박스 격리	Codex
장기 리팩터링·복잡한 버그	Claude Code
1M 컨텍스트 대형 코드베이스	Claude Code
UI·디자인·시각적 세부 조정	Claude Code

사례:
개발팀은 이제 워크플로를 바꿀 필요가 있다.
"백엔드 리팩터링은 Claude Code로 유지하는데,
프론트엔드 기능 구현처럼 스펙이 명확한 건 Codex로 넘는 것이다.
이렇게 함으로써 토큰 한도 스트레스 역시 절반으로 줄일 수 있다."

마치며

균열은 갑자기 생긴 것이 아니다.

토크나이저 변경,
기능 업데이트,
사고 깊이 감소
세 가지가 겹쳐 만들어진 것이다.

그리고 이 균열이 절대 우열이 아닌 이유도 있다.
SWE-bench 수치가 보여주듯 Claude Code는 여전히 깊은 작업에서 앞선다.
작업에 따라 도구를 고르는 것이 지금 시점에서 가장 합리적인 전략이다.

📎 참고 출처

요즘IT 원문: https://yozm.wishket.com/magazine/detail/3771/

GitHub Issue #42796: https://github.com/anthropics/claude-code/issues/42796

MindStudio 분석: https://mindstudio.ai/blog/codex-vs-claude-code-2026

저작자표시 (새창열림)

'AI' 카테고리의 다른 글

"틀려도 좋으니 지적해 줘" — AI 반론 요청법이 답변 품질을 바꾸는 이유 (1)	2026.05.28
AI를 검색 엔진처럼 쓰는 사람과 전략 파트너로 쓰는 사람의 3단계 차이 (1)	2026.05.26
IDE 시대가 끝났다 — 구글 안티그래비티 2.0이 선언한 에이전트 우선 개발의 의미 (0)	2026.05.24
AI 파워유저 5가지 공통점 - Claude로 다른 결과를 만드는 실전 가이드 (0)	2026.05.22
AI 모델 시장 점유율 전쟁 — OpenAI 매출 3배 급증, Anthropic 지출 우위, Google 사용량 폭발 (0)	2026.05.20

마음 읽기

어제까지 Claude Code가 1등이었다 — 2026년 5월 기준 진짜 우열을 가르는 3가지 진실

Opus 4.7 토크나이저 변경부터 사고 깊이 67% 감소까지, 균열의 실체를 정리한다

문제 제기: 지난주까지 잘 쓰던 게 오늘부터 아쉬워졌다