본문 바로가기
반응형

전체 글115

CLAUDE.md에 이 한 문장을 안 넣으면 같은 실수를 계속 반복하게 된다 Claude Code 창시자가 공개한 CLAUDE.md 지속 투자법과 Skill 만들기핵심 요약Claude Code 창시자 Boris Cherny는 매번 수정할 때마다 "CLAUDE.md를 업데이트해서 같은 실수를 반복하지 않도록 해라"라고 지시한다고 공개했다. (출처: Boris Cherny X, 2026.02)Claude는 스스로 지켜야 할 규칙을 매우 잘 문서화하는 특성이 있어, 이 한 문장만으로도 효과적인 자기 개선이 이뤄진다.한 엔지니어는 모든 작업·프로젝트에 대해 notes 디렉토리를 유지하고 PR마다 업데이트하도록 지시한 뒤, CLAUDE.md가 이를 참조하도록 설정했다.하루에 한 번 이상 반복하는 작업은 Skill 또는 Slash Command로 만들어 git에 커밋하는 것이 클로드 코드 .. 2026. 6. 26.
세계 4위 AI LLM 모델 - 중국 오픈소스 모델 최초로 지능 지수 50점을 넘은 GLM-5.2 완전 분석 11점 올랐을 뿐인데 세계 4위가 됐다 — GLM-5.2가 보여준 오픈소스의 진짜 실력핵심 요약GLM-5.2는 Artificial Analysis 지능 지수 v4.1에서 51점을 기록하며 세계 4위에 올랐다. (출처: Artificial Analysis, 2026.06.17)1위 Claude Fable 5(60점), 2위 Claude Opus 4.8(56점), 3위 GPT-5.5(55점)에 이은 4위이며, 오픈웨이트 모델 중에서는 1위다.매개변수 구조(총 7,440억·활성 400억개)를 그대로 유지한 채 지능 지수만 11점 끌어올렸다.중국 오픈소스 경쟁 모델인 MiniMax-M3(44점), DeepSeek V4 Pro(44점), Kimi K2.6(43점)을 모두 앞섰다.목차문제 제기 — 오픈소스는 항상 .. 2026. 6. 24.
effort 파라미터를 잘못 쓰고 있는 이유 - max~low 5단계 실전 선택 기준 토큰을 10배 쓰는데 답변이 나빠진다 — Anthropic 공식 가이드로 정리한 max~low 5단계 실전 선택 기준문제 제기: effort를 높이면 항상 좋아질 것이라는 착각Claude API를 쓰는 개발자들이 자주 하는 실수가 있다."성능을 최대화하려면 effort를 max로 설정하면 된다"는 생각이다.Anthropic 공식 문서는 이것을 명확하게 경고한다.**max 설정은 일부 use case에서 성능을 높이지만token 사용량이 증가해도 수익이 감소하는 지점이 있으며,과도한 thinking에 빠질 수 있다.단순한 질문에 max effort를 설정하면모델이 불필요하게 길게 생각하고,토큰을 10배 쓰면서 오히려 답변이 이상해지는 경우가 생긴다. effort는 지능 vs 토큰 비용의 트레이드오프를 조절.. 2026. 6. 22.
AI 에이전트에게도 예외 없다 — 명세서 기반 개발이 무너지는 경우(Garbage In, Garbage Out) Symphony SPEC.md로 드러난 슬롭(Slop) 명세의 실체와 신뢰할 수 없는 코드 생성의 원인쓰레기가 들어가면 쓰레기가 나온다문제 제기: AI 에이전트는 불명확한 명세를 "알아서" 채워주지 않는다에이전틱 코딩 도구를 쓰는 개발자들은 은연중에 다음과 같이 기대한다."명세에 빠진 부분이 있어도 AI가 알아서 채워줄 것이다." 이 기대는 틀렸다.Gabriel Gonzalez는 haskellforall.com에서 내린 결론이다."코딩 에이전트는 마음을 읽는 존재가 아니며,설령 그렇다 하더라도 사고 자체가 혼란스러우면 할 수 있는 것이 없다." "Garbage in, garbage out" 원칙은 AI 에이전트에도 그대로 적용된다.불명확한 명세를 입력하면 신뢰할 수 없는 코드가 나온다. AI가 빠진 부분.. 2026. 6. 19.
이 작업에서 Claude를 쓰면 GPT-5.5 대비 손해다 - ChatGPT vs Claude 실전 선택 가이드 2026 ALE 데이터로 보는 ChatGPT vs Claude 실전 선택 가이드 2026핵심 요약2026년 6월 ALE 벤치마크에서 GPT-5.5(Codex) 24.0% vs Claude Fable 5(Claude Code) 22.0%로 GPT-5.5가 앞섰다. (출처: ALE 리더보드, 2026)GPT-5.5의 강점: 50단계 이상 장기 자율 에이전트, OS·전문 소프트웨어 자동화, 코딩 에이전트(DeepSWE 70% 1위)Claude의 강점: 단일 대화 추론, 창의적 분석, 코드 리뷰·설명, 문서 작성어느 모델이 "더 낫다"는 질문보다 "어떤 작업에 어느 모델을 쓰는가"가 더 올바른 질문이다.목차문제 제기 — GPT-5.5와 Claude, 무엇을 기준으로 골라야 하는가ALE 벤치마크가 보여준 성능 격차GPT-.. 2026. 6. 17.
AI가 초반엔 잘 하다가 뒤에서 무너지는 느낌, 이유가 있었다 Context Drift (컨텍스트 유실) — ALE 벤치마크가 데이터로 확인한 Claude 장기 에이전트의 구조적 문제핵심 요약ALE 벤치마크(2026.06.11)에서 Claude 계열의 최고 난도 영역 통과율이 0%를 기록한 원인으로 Context Drift(컨텍스트 유실)가 지목됐다.(출처: RDI, 2026)Context Drift는 장기 에이전트 작업에서 컨텍스트 윈도우 내 초기 지시가 희석되어 후반부 지시가 이행되지 않는 현상이다.이 현상은 수천 단계를 넘나드는 자율 에이전트 작업에서 특히 치명적이며, 단순히 "모델이 나빠진 것"이 아니라 아키텍처 수준의 과제이다.GPT-5.5는 선형적 추론 유지 능력으로 같은 환경에서 24.0% 통과율을 기록했다. (출처: ALE 리더보드, 2026)목차문제.. 2026. 6. 15.
반응형