한 줄씩 지시하던 사람이 병렬 3개 세션으로 바뀌는 Anthropic 엔지니어의 위임 전략
큰 작업 위임 병렬 세션 검증 구조 설계
문제 제기: AI에게 "이거 전체 다 해줘"가 왜 안 되는가
"이 평가 세트 전체를 격리된 컨테이너에서 빌드하고,
테스트 돌리고,
결과 분석하고,
리포트 만들어서 슬랙으로 보내줘."
이런 요청을 AI에게 해봤는가? 대부분은 중간에 막힌다.
AI가 방향을 잃거나, 에러가 쌓이면서 흐려지거나,
내가 결국 개입해서 다시 처음부터 설명해야 하는 상황이 된다.
그래서 많은 사람이 AI를 한 줄씩 지시하는 방식으로 쓴다.
안전하지만 느리다. AI의 진짜 능력을 10분의 1도 못 쓰는 것이다.
오늘은 Anthropic의 Technical Staff인 Eugene Yan의 해결책을 통해
AI를 진짜 능력을 극대화하는 법을 다루겠다.
"더 큰 단위로 위임하되, 검증 구조를 먼저 만들어라"
공감: 위임을 못 하는 이유는 두 가지이다
AI에게 큰 작업을 맡기지 못하는 이유는 크게 두 가지이다.
- 첫째, 결과를 어떻게 검증할지 모른다.
AI가 알아서 했다고 하는데, 그것이 맞는지 어떻게 확인하는가?
검증 방법이 없으면 위임할 수 없다. - 둘째, 긴 작업에서 AI가 방향을 잃는 경험을 했다.
처음에는 잘 가다가 중간에 엉뚱한 방향으로 가버리거나, 에러가 쌓이면서 전혀 다른 해결책을 택한다.
이 두 가지를 해결하는 구조가 있다.
해결책: 위임을 가능하게 하는 3가지 구조
구조 1. 검증 사다리를 먼저 만들어라
검증은 사다리와 같은 모양으로 하라.
- 아래쪽은 빠르고 저렴하고(자동 포맷팅, 린트),
- 위쪽은 비싸고 판단이 필요하다(테스트, LLM 리뷰).
검증 사다리 (낮은 것부터 실행)
1단계 [자동·무료] 린트, 포맷팅, 타입 체크
2단계 [자동·빠름] 단위 테스트, 통합 테스트
3단계 [자동·느림] E2E 테스트, 빌드 검증
4단계 [AI 판단] LLM이 결과물 품질 검토
5단계 [사람 판단] 최종 승인
가능한 한 낮은 단계에서 잡아내라.
4단계까지 갔을 때 발견하는 것보다 2단계에서 잡는 게 10배 빠르다.
핵심은 AI가 스스로 검증할 수 있게 만드는 것이다.
결과물이 숫자로 평가되면
- AI가 직접 평가를 돌려 최적화하게 두고,
- 브라우저에서 렌더링되면 AI가 직접 화면을 확인하게 한다.
구조 2. 병렬 세션으로 규모를 확장하라
Eugene Yan은 평소에 3~6개 세션을 동시에 돌린다.
병목이 "작업하는 것"에서 "명확한 명세 쓰기와 빠르게 결과 검토하기"로 옮겨간다.
같은 코드 저장소에서 여러 세션을 돌릴 때는 git worktree로 분리한다.
# 각 기능 개발을 독립된 작업 공간에서 병렬 실행
git worktree add ../feature-a feature/user-auth
git worktree add ../feature-b feature/payment
git worktree add ../feature-c feature/dashboard
# 각 worktree에서 별도 Claude 세션 실행
# → 세 기능이 동시에 개발됨
사례:
git worktree로 여러 개의 feature를 병렬로 개발할 수 있다.
예전에는 하나씩 순서대로 했다면,
이제 각 feature별로 AI 세션이 돌아가는 동안
다음 feature의 명세를 작성하면 된다.
이렇게 하면 하루 처리량이 훨씬 늘어나게 된다."
구조 3. 감시 세션으로 방향 이탈을 잡아라
긴 작업에서 AI가 방향을 잃는 경우 다음과 같이 터미널 두 개를 활용하라.
터미널 1: 작업 세션 (실행 차원)
→ "이 기능을 구현하라"
터미널 2: 감시 세션 (방향 차원)
→ "터미널 1에서 작업 중인 내용을 주기적으로 확인하고,
원래 목표에서 벗어나고 있으면 즉시 알려라"
- 작업을 제대로 하고 있는가(실행)와
- 옳은 작업을 하고 있는가(방향)를 따로 점검하는 것이다.

▲ 터미널 두 개로 작업 세션과 감시 세션을 분리하면 긴 작업에서도 AI가 방향을 잃지 않는다
큰 작업 위임 프롬프트 템플릿
큰 작업을 위임하기 위한 필수 3요소를 포함한 템플릿은 다음과 같다.
## 위임 명세 템플릿
### 의도 (무엇을, 왜)
이 평가 묶음 전부에 대해 격리된 컨테이너를 만들어 실행한다.
목적: 모델 성능을 신뢰구간 포함한 수치로 팀에 공유하기 위해.
### 제약조건 (절대 하지 말 것)
- 기존 프로덕션 DB에 접근하지 않는다
- 외부 API 실제 호출 금지 (mock 사용)
- 하나의 파일에 300줄 이상 작성 금지
### 성공 기준 (완료 판단 기준)
- 모든 테스트가 통과됨
- 신뢰구간 95%로 결과 표가 생성됨
- 슬랙 #ml-results 채널에 리포트가 전송됨
마치며
AI에게 큰 작업을 맡기지 못하는 것은 AI의 한계가 아니다.
검증 구조와 위임 명세가 없는 것이 문제이다.
- 검증 사다리를 만들고,
- git worktree로 병렬 세션을 운영하고,
- 감시 세션으로 방향을 잡으면
AI는 생각보다 훨씬 큰 단위의 작업을 완주할 수 있다.
📎 참고 출처
- Eugene Yan 원문: https://eugeneyan.com/writing/working-with-ai/
- SETUP.txt: https://eugeneyan.com/assets/SETUP.txt
'AI' 카테고리의 다른 글
| 월 100달러 AI 구독 전쟁 — Google AI Ultra, Claude Max, ChatGPT Pro 중 무엇을 골라야 하는가? (0) | 2026.06.02 |
|---|---|
| '동료'를 만드는가 vs '일꾼'을 만드는가 — Anthropic과 OpenAI의 철학이 만든 다른 AI 도구 (1) | 2026.05.31 |
| 어제까지 Claude Code가 1등이었다 — 2026년 5월 기준 진짜 우열을 가르는 3가지 진실 (1) | 2026.05.29 |
| "틀려도 좋으니 지적해 줘" — AI 반론 요청법이 답변 품질을 바꾸는 이유 (1) | 2026.05.28 |
| AI를 검색 엔진처럼 쓰는 사람과 전략 파트너로 쓰는 사람의 3단계 차이 (1) | 2026.05.26 |