본문 바로가기
반응형

전체 글114

세계 4위 AI LLM 모델 - 중국 오픈소스 모델 최초로 지능 지수 50점을 넘은 GLM-5.2 완전 분석 11점 올랐을 뿐인데 세계 4위가 됐다 — GLM-5.2가 보여준 오픈소스의 진짜 실력핵심 요약GLM-5.2는 Artificial Analysis 지능 지수 v4.1에서 51점을 기록하며 세계 4위에 올랐다. (출처: Artificial Analysis, 2026.06.17)1위 Claude Fable 5(60점), 2위 Claude Opus 4.8(56점), 3위 GPT-5.5(55점)에 이은 4위이며, 오픈웨이트 모델 중에서는 1위다.매개변수 구조(총 7,440억·활성 400억개)를 그대로 유지한 채 지능 지수만 11점 끌어올렸다.중국 오픈소스 경쟁 모델인 MiniMax-M3(44점), DeepSeek V4 Pro(44점), Kimi K2.6(43점)을 모두 앞섰다.목차문제 제기 — 오픈소스는 항상 .. 2026. 6. 24.
effort 파라미터를 잘못 쓰고 있는 이유 - max~low 5단계 실전 선택 기준 토큰을 10배 쓰는데 답변이 나빠진다 — Anthropic 공식 가이드로 정리한 max~low 5단계 실전 선택 기준문제 제기: effort를 높이면 항상 좋아질 것이라는 착각Claude API를 쓰는 개발자들이 자주 하는 실수가 있다."성능을 최대화하려면 effort를 max로 설정하면 된다"는 생각이다.Anthropic 공식 문서는 이것을 명확하게 경고한다.**max 설정은 일부 use case에서 성능을 높이지만token 사용량이 증가해도 수익이 감소하는 지점이 있으며,과도한 thinking에 빠질 수 있다.단순한 질문에 max effort를 설정하면모델이 불필요하게 길게 생각하고,토큰을 10배 쓰면서 오히려 답변이 이상해지는 경우가 생긴다. effort는 지능 vs 토큰 비용의 트레이드오프를 조절.. 2026. 6. 22.
AI 에이전트에게도 예외 없다 — 명세서 기반 개발이 무너지는 경우(Garbage In, Garbage Out) Symphony SPEC.md로 드러난 슬롭(Slop) 명세의 실체와 신뢰할 수 없는 코드 생성의 원인쓰레기가 들어가면 쓰레기가 나온다문제 제기: AI 에이전트는 불명확한 명세를 "알아서" 채워주지 않는다에이전틱 코딩 도구를 쓰는 개발자들은 은연중에 다음과 같이 기대한다."명세에 빠진 부분이 있어도 AI가 알아서 채워줄 것이다." 이 기대는 틀렸다.Gabriel Gonzalez는 haskellforall.com에서 내린 결론이다."코딩 에이전트는 마음을 읽는 존재가 아니며,설령 그렇다 하더라도 사고 자체가 혼란스러우면 할 수 있는 것이 없다." "Garbage in, garbage out" 원칙은 AI 에이전트에도 그대로 적용된다.불명확한 명세를 입력하면 신뢰할 수 없는 코드가 나온다. AI가 빠진 부분.. 2026. 6. 19.
이 작업에서 Claude를 쓰면 GPT-5.5 대비 손해다 - ChatGPT vs Claude 실전 선택 가이드 2026 ALE 데이터로 보는 ChatGPT vs Claude 실전 선택 가이드 2026핵심 요약2026년 6월 ALE 벤치마크에서 GPT-5.5(Codex) 24.0% vs Claude Fable 5(Claude Code) 22.0%로 GPT-5.5가 앞섰다. (출처: ALE 리더보드, 2026)GPT-5.5의 강점: 50단계 이상 장기 자율 에이전트, OS·전문 소프트웨어 자동화, 코딩 에이전트(DeepSWE 70% 1위)Claude의 강점: 단일 대화 추론, 창의적 분석, 코드 리뷰·설명, 문서 작성어느 모델이 "더 낫다"는 질문보다 "어떤 작업에 어느 모델을 쓰는가"가 더 올바른 질문이다.목차문제 제기 — GPT-5.5와 Claude, 무엇을 기준으로 골라야 하는가ALE 벤치마크가 보여준 성능 격차GPT-.. 2026. 6. 17.
AI가 초반엔 잘 하다가 뒤에서 무너지는 느낌, 이유가 있었다 Context Drift (컨텍스트 유실) — ALE 벤치마크가 데이터로 확인한 Claude 장기 에이전트의 구조적 문제핵심 요약ALE 벤치마크(2026.06.11)에서 Claude 계열의 최고 난도 영역 통과율이 0%를 기록한 원인으로 Context Drift(컨텍스트 유실)가 지목됐다.(출처: RDI, 2026)Context Drift는 장기 에이전트 작업에서 컨텍스트 윈도우 내 초기 지시가 희석되어 후반부 지시가 이행되지 않는 현상이다.이 현상은 수천 단계를 넘나드는 자율 에이전트 작업에서 특히 치명적이며, 단순히 "모델이 나빠진 것"이 아니라 아키텍처 수준의 과제이다.GPT-5.5는 선형적 추론 유지 능력으로 같은 환경에서 24.0% 통과율을 기록했다. (출처: ALE 리더보드, 2026)목차문제.. 2026. 6. 15.
같은 AI를 써도 결과가 160배 다른 이유 — AI는 덧셈이 아니라 곱셈이다 Motion 개발자 Matt Perry가 1분기에 160개의 프로그램을 완성한 것은 AI 덕분이 아니다문제 제기: AI를 쓰면 누구나 Matt Perry처럼 될 수 있는가2026년 초부터 반복되는 주장이 있다."AI가 개발자를 대체한다.""코딩을 배울 필요가 없다.""AI에게 시키면 된다." 이 주장을 뒷받침하는 사례로 자주 인용되는 것 중 하나가바로 Motion 개발자 Matt Perry 같은 사람의 이야기다.그는 2026년 1분기에 목표였던 깃허브 이슈 60개를 넘어 160개를 닫았다. 이런 식의 이야기를 들으면 자연스럽게 이런 결론이 나온다."AI가 대단하다." 그러나 Josh Comeau는 완전히 반대 방향의 결론을 내린다.핵심은 AI가 아니라 Matt Perry에 있다는 것이다.공감: AI가 .. 2026. 6. 13.
반응형