본문 바로가기
반응형

전체 글112

AI 에이전트에게도 예외 없다 — 명세서 기반 개발이 무너지는 경우(Garbage In, Garbage Out) Symphony SPEC.md로 드러난 슬롭(Slop) 명세의 실체와 신뢰할 수 없는 코드 생성의 원인쓰레기가 들어가면 쓰레기가 나온다문제 제기: AI 에이전트는 불명확한 명세를 "알아서" 채워주지 않는다에이전틱 코딩 도구를 쓰는 개발자들은 은연중에 다음과 같이 기대한다."명세에 빠진 부분이 있어도 AI가 알아서 채워줄 것이다." 이 기대는 틀렸다.Gabriel Gonzalez는 haskellforall.com에서 내린 결론이다."코딩 에이전트는 마음을 읽는 존재가 아니며,설령 그렇다 하더라도 사고 자체가 혼란스러우면 할 수 있는 것이 없다." "Garbage in, garbage out" 원칙은 AI 에이전트에도 그대로 적용된다.불명확한 명세를 입력하면 신뢰할 수 없는 코드가 나온다. AI가 빠진 부분.. 2026. 6. 19.
이 작업에서 Claude를 쓰면 GPT-5.5 대비 손해다 - ChatGPT vs Claude 실전 선택 가이드 2026 ALE 데이터로 보는 ChatGPT vs Claude 실전 선택 가이드 2026핵심 요약2026년 6월 ALE 벤치마크에서 GPT-5.5(Codex) 24.0% vs Claude Fable 5(Claude Code) 22.0%로 GPT-5.5가 앞섰다. (출처: ALE 리더보드, 2026)GPT-5.5의 강점: 50단계 이상 장기 자율 에이전트, OS·전문 소프트웨어 자동화, 코딩 에이전트(DeepSWE 70% 1위)Claude의 강점: 단일 대화 추론, 창의적 분석, 코드 리뷰·설명, 문서 작성어느 모델이 "더 낫다"는 질문보다 "어떤 작업에 어느 모델을 쓰는가"가 더 올바른 질문이다.목차문제 제기 — GPT-5.5와 Claude, 무엇을 기준으로 골라야 하는가ALE 벤치마크가 보여준 성능 격차GPT-.. 2026. 6. 17.
AI가 초반엔 잘 하다가 뒤에서 무너지는 느낌, 이유가 있었다 Context Drift (컨텍스트 유실) — ALE 벤치마크가 데이터로 확인한 Claude 장기 에이전트의 구조적 문제핵심 요약ALE 벤치마크(2026.06.11)에서 Claude 계열의 최고 난도 영역 통과율이 0%를 기록한 원인으로 Context Drift(컨텍스트 유실)가 지목됐다.(출처: RDI, 2026)Context Drift는 장기 에이전트 작업에서 컨텍스트 윈도우 내 초기 지시가 희석되어 후반부 지시가 이행되지 않는 현상이다.이 현상은 수천 단계를 넘나드는 자율 에이전트 작업에서 특히 치명적이며, 단순히 "모델이 나빠진 것"이 아니라 아키텍처 수준의 과제이다.GPT-5.5는 선형적 추론 유지 능력으로 같은 환경에서 24.0% 통과율을 기록했다. (출처: ALE 리더보드, 2026)목차문제.. 2026. 6. 15.
같은 AI를 써도 결과가 160배 다른 이유 — AI는 덧셈이 아니라 곱셈이다 Motion 개발자 Matt Perry가 1분기에 160개의 프로그램을 완성한 것은 AI 덕분이 아니다문제 제기: AI를 쓰면 누구나 Matt Perry처럼 될 수 있는가2026년 초부터 반복되는 주장이 있다."AI가 개발자를 대체한다.""코딩을 배울 필요가 없다.""AI에게 시키면 된다." 이 주장을 뒷받침하는 사례로 자주 인용되는 것 중 하나가바로 Motion 개발자 Matt Perry 같은 사람의 이야기다.그는 2026년 1분기에 목표였던 깃허브 이슈 60개를 넘어 160개를 닫았다. 이런 식의 이야기를 들으면 자연스럽게 이런 결론이 나온다."AI가 대단하다." 그러나 Josh Comeau는 완전히 반대 방향의 결론을 내린다.핵심은 AI가 아니라 Matt Perry에 있다는 것이다.공감: AI가 .. 2026. 6. 13.
순차적으로 하면 10분, 병렬로 하면 90초 — 에이전트 속도를 10배 높이는 프롬프트 설계 병렬 도구 호출·서브에이전트 오케스트레이션 Anthropic 공식 가이드문제 제기: 에이전트가 파일을 하나씩 읽고 있다에이전트를 써보면 이런 상황이 있다.10개 파일을 분석해달라고 했는데 하나씩 순서대로 읽는다.3개의 API를 동시에 호출할 수 있는데 하나씩 기다린다. 이것이 왜 문제인가.파일 하나 읽는 데 1초라면, 10개를 순차로 읽으면 10초, 병렬로 읽으면 1초다.복잡한 리서치 작업에서 이 차이는 수분 단위가 된다. Anthropic 공식 문서에 따르면Claude 최신 모델들은 병렬 도구 실행을 뛰어나게 잘 한다. 다만 최적화하려면 프롬프트 설정이 필요하다.공감: "병렬로 해줘"라고 말해도 잘 안 된다단순히 "병렬로 실행해줘"라고 지시하면 잘 작동하지 않는 경우가 있다.Claude가 어떤 작업을 .. 2026. 6. 12.
Anthropic이 공식으로 밝힌 프롬프트 품질을 3배 높이는 5가지 기법 - 실전 예제 포함 XML 태그·역할 부여·예시·명확성·컨텍스트 — 더 이상 감으로 쓰지 않아도 된다문제 제기: 프롬프트를 열심히 썼는데 왜 결과가 다를까두 개발자가 Claude API를 쓴다.한 명은 "이 코드 리뷰해줘"라고 하고,다른 한 명은 역할을 부여하고 XML로 구조화하고 예시를 3개 넣는다.결과는 완전히 다르다. 프롬프트 엔지니어링이 "감"의 영역처럼 느껴지는 이유가 있다.어떤 기법이 왜 효과가 있는지,얼마나 넣어야 하는지에 대한 명확한 기준이 없기 때문이다.이러한 막막함을 풀어주고자 Anthropic이 공식 가이드를 통해 다섯 가지 가이드를 제시하였다.공감: 예시를 넣었는데 오히려 이상해진다예시를 넣으면 좋다고 해서 10개를 넣었더니Claude가 예시의 패턴을 과도하게 따라가 실제 작업에서 이상한 결과가 나왔다.. 2026. 6. 10.
반응형