본문 바로가기
AI

AI가 초반엔 잘 하다가 뒤에서 무너지는 느낌, 이유가 있었다

by 심독 2026. 6. 15.
반응형

Context Drift (컨텍스트 유실) — ALE 벤치마크가 데이터로 확인한 Claude 장기 에이전트의 구조적 문제

핵심 요약

  • ALE 벤치마크(2026.06.11)에서 Claude 계열의 최고 난도 영역 통과율이 0%를 기록한 원인으로 Context Drift(컨텍스트 유실)가 지목됐다.
    (출처: RDI, 2026)
  • Context Drift는 장기 에이전트 작업에서 컨텍스트 윈도우 내 초기 지시가 희석되어 후반부 지시가 이행되지 않는 현상이다.
  • 이 현상은 수천 단계를 넘나드는 자율 에이전트 작업에서 특히 치명적이며, 단순히 "모델이 나빠진 것"이 아니라 아키텍처 수준의 과제이다.
  • GPT-5.5는 선형적 추론 유지 능력으로 같은 환경에서 24.0% 통과율을 기록했다. (출처: ALE 리더보드, 2026)

목차

  1. 문제 제기 — "잘 하다가 뒤에서 이상해진다"는 경험
  2. Context Drift란 무엇인가
  3. ALE가 이것을 어떻게 측정했는가
  4. Context Drift가 발생하는 조건
  5. 실무에서 Context Drift를 줄이는 방법
  6. 구조적 혁신 없이는 해결되지 않는다
  7. 마치며

1. 문제 제기 — "잘 하다가 뒤에서 이상해진다"는 경험

Claude Code나 Claude 에이전트로 긴 작업을 맡겨봤다면 이런 경험이 있을 것이다.
처음 10~20단계는 정확하게 수행된다.


그런데 어느 시점부터

  • 에이전트가 초기에 설정한 조건을 무시하거나,
  • 중간 단계를 건너뛰거나,
  • 이미 처리한 것을 다시 하는 이상한 동작을 보이기 시작한다.

이것을 경험한 사람이 적지 않다.
2026년 6월 11일 공개된 ALE 벤치마크에서
Claude Opus 4.8이 최고 난도 영역 통과율 0%를 기록한 것은
이 현상이 개인 경험이 아닌 측정 가능한 구조적 문제임을 보여준다. (출처: ALE 리더보드, 2026)

 

이 글에서는

  • Context Drift의 작동 원리,
  • ALE가 이것을 어떻게 측정했는지,
  • 그리고 실무에서 완화하는 방법을 다룬다.

2. Context Drift란 무엇인가

Context Drift는
대화나 프로젝트가 진행됨에 따라
AI가 초기 요청의 맥락, 설계 의도, 또는 세부 규칙을 점차 잊어버리거나 일관성을 잃는 현상
을 말한다.

 

메커니즘을 단계별로 따라가면 이렇다.

[초기 상태]
컨텍스트 윈도우: [지시문 → 응답1 → 응답2]
에이전트 동작: 정확

[중반]
컨텍스트 윈도우: [지시문 → 응답1~10 → 도구결과1~5]
에이전트 동작: 대체로 정확, 일부 조건 무시 시작

[후반]
컨텍스트 윈도우: [지시문 → 응답1~30 → 도구결과1~20]
에이전트 동작: 초기 조건 무시, 단계 생략, 반복 오류

 

초기 상태에서 지시문의 의도는 명확하게 전달되지만,
후반으로 갈수록 지시문의 의도가 정확하게 전달되지 않는다.

 

이런 현상의 주요 원인은 다음과 같다.

  • 메모리 한계:
    AI는 특정 분량(토큰) 이상의 이전 대화나 전체 프로젝트 구조를 한 번에 기억하기 어렵기 때문이다.
    대화의 양이 많아지면 기억력도 희미해진다.
  • 최신성 가중치 편향:
    AI는 가장 최근에 나눈 대화에 더 큰 가중치를 둔다.
    따라서 초기의 핵심 지시사항은 뒤로 밀려나게 된다.

3. ALE가 이것을 어떻게 측정했는가

ALE(Agents' Last Exam)는
기존 벤치마크와 달리 실제 전문가 업무 환경에서 AI를 평가한다. (출처: UC 버클리 RDI, 2026)

Context Drift가 치명적으로 드러나는 이유가 ALE의 채점 방식에 있다.

항목 일반 벤치마크 ALE
채점 방식 최종 결과물만 평가 결정론적 중간 단계 검증
LLM-as-a-Judge 비율 높음 6.8%만 사용
작업 단계 단일 또는 소수 수십~수백 단계 연속
검증 시점 작업 완료 후 각 단계별 실시간

 

ALE에서 AI는 OS 커맨드, CAD 도구, 전문 소프트웨어를 순서대로 조작해야 한다.
중간에 한 단계라도 이전 지시를 잊으면 이후 단계 전체가 오염된다.
"그럴듯한" 결과물이 나와도 중간 단계가 틀렸으면 감점이다.

 

Claude 계열이 이 환경에서 특히 취약한 이유이다.

GPT-5.5가 같은 환경에서 24.0%를 기록할 때
Claude 최고 난도 영역 통과율은 0%였다. (출처: ALE 리더보드, 2026)

▲ 장기 에이전트 작업에서 초기 지시문이 희석되면 후반 단계가 무너진다


4. Context Drift가 발생하는 조건

Context Drift는 모든 작업에서 동일하게 발생하지 않는다.
발생 확률이 높아지는 조건이 있다.

 

조건 1. 단계 수가 30개를 초과할 때

  • 단계가 많아질수록 컨텍스트 윈도우에서 초기 지시의 상대적 위치가 멀어진다.
  • 실무 경험상 30단계를 넘어가면 이상 동작이 시작되는 경우가 많다.

조건 2. 도구 출력이 길 때

  • 웹 검색 결과, 파일 내용, API 응답 등 도구 출력이 길면 컨텍스트를 빠르게 채운다.
  • 초기 지시가 더 빨리 희석된다.

조건 3. 초기 지시가 복잡할 때

  • "A이면서 B이고 C하지 않는 방식으로 D를 수행하라"처럼
    복잡한 지시는 단순한 지시보다 더 빨리 희석된다.

조건 4. 에이전트가 스스로 판단하는 분기가 많을 때

  • 각 분기마다 판단 내용이 컨텍스트에 쌓인다.
  • 분기가 많은 작업일수록 Context Drift가 빠르게 발생한다.

5. 실무에서 Context Drift를 줄이는 방법

완전히 없애는 것은 아키텍처 수준의 변화가 필요하다.
그러나 실무에서 완화하는 방법이 있다.

 

방법 1. 지시를 주기적으로 상기시켜라

  • 긴 작업에서 핵심 지시를 시스템 프롬프트에 넣는 것 외에,
  • 중간 지점에 "여기까지 진행 상황을 요약하고 초기 지시를 다시 확인한 뒤 계속해라"는 체크포인트를 설정한다.

방법 2. 큰 작업을 작은 세션으로 분리하라

  • 30단계 이상의 작업은 10단계 단위로 나누고,
  • 각 세션이 끝나면 결과를 검토하고 다음 세션을 시작한다.
  • 자율 에이전트에게 100단계를 한 번에 맡기는 것보다 효과적이다.

방법 3. CLAUDE.md에 핵심 제약을 간결하게 작성하라

  • 프로젝트의 핵심 제약을 간결하게 CLAUDE.md에 적어두면 매 세션에서 자동으로 로드된다.

방법 4. 에이전트의 중간 산출물을 체크포인트로 저장하라

  • 파일·Git 커밋·로그로
    중간 결과를 저장하면 에이전트가 "현재 어디에 있는지"를 재확인하기 쉽다.

사례:
Claude Code로 100+ 파일 리팩터링 작업을 진행하는 경우 후반부에서 반복 실패를 경험할 수 있다.
따라서 20파일 단위로 세션을 나누고 각 세션 시작 시
"이전 세션 결과 요약 + 핵심 제약 재확인"을 첫 프롬프트로 넣는 방식으로 전환하면 완료율이 크게 향상된다.


6. 구조적 혁신 없이는 해결되지 않는다

RDI 연구진은 ALE 결과를 발표하며 이렇게 밝혔다. (출처: RDI, 2026)

"AI가 인간의 진짜 동료이자 에이전트로서 경제적 가치를 창출하기 위해서는
단순 체급 확장뿐만 아니라 장기 워크플로우를 통제하는 구조적 혁신이 선행돼야 할 것이다."

 

Context Drift는 컨텍스트 윈도우를 키운다고 해결되지 않는다.
초기 지시를 "기억"하는 방식 자체가 바뀌어야 한다.
이것은 LLM 아키텍처 수준의 변화이다.

 

현재 가장 현실적인 접근은 Anthropic이 Claude Code에서 적용하는 방향이다

  • 자동 체크포인트,
  • 컨텍스트 압축,
  • 서브에이전트 분리.
    그러나 ALE의 결과는 이것만으로는 아직 부족하다는 것을 보여준다.

FAQ

Q: Context Drift는 Claude에만 발생하는 현상인가?
A: 아니다.
모든 LLM 기반 에이전트에서 정도의 차이는 있지만 발생한다.
ALE 결과는 Claude 계열이 특히 장기 작업의 결정론적 환경에서 더 취약함을 보여줄 뿐이다.

 

Q: 컨텍스트 윈도우를 1M으로 늘리면 해결되는가?
A: 윈도우 크기를 늘리는 것만으로는 해결되지 않는다.
어텐션 메커니즘의 특성상 최근 토큰이 더 큰 영향을 받기 때문에 초기 지시의 상대적 희석은 계속 발생한다.
장기 워크플로우 통제 구조 자체가 달라져야 한다.

 

Q: GPT-5.5는 Context Drift가 없는가?
A: GPT-5.5도 장기 작업에서 Context Drift가 발생한다.
다만 ALE 결과는 Claude 계열보다 선형적 추론 유지 능력이 강해
같은 조건에서 더 높은 통과율을 보였음을 보여준다.


마치며

"AI가 초반엔 잘 하다가 뒤에서 무너지는 느낌"은 착각이 아니다.

Context Drift라는 측정 가능한 현상이고, ALE 벤치마크가 데이터로 확인했다.
완전한 해결은 아키텍처 수준의 혁신이 필요하지만,
실무에서는 작업을 나누고 체크포인트를 설정하는 것으로 상당히 완화할 수 있다.

반응형