본문 바로가기
반응형

전체 글106

인코더를 없앴더니 성능은 올라가고 메모리는 절반이 됐다 — Gemma 4 12B 아키텍처의 진짜 의미 이미지·오디오를 직접 처리하는 방식이 왜 기존 구조보다 훨씬 나은가문제 제기: 멀티모달 모델이 무거운 근본 원인은 아키텍처에 있었다"왜 멀티모달 모델은 이렇게 무거운가?" 이 질문의 답은 아키텍처에 있다. 기존 멀티모달 AI 모델의 구조를 따라가 보자.이미지 입력 → 비전 인코더 (CLIP, ViT 등 — 별도 모델) → 프로젝션 레이어 (인코더 출력을 LLM 차원으로 변환) → LLM 백본 → 텍스트 출력오디오 입력 → 오디오 인코더 (Whisper 등 — 또 다른 별도 모델) → 프로젝션 레이어 → LLM 백본 → 텍스트 출력 이 구조에서 메모리는 세 층에서 동시에 잡는다.비전 인코더 파라미터,오디오 인코더 파라미터,LLM 백본 파라미터.그리고 각 단계를 거칠 때마다 지연시간이 누적된다.. 2026. 6. 8.
클라우드 없이도 된다 — Gemma 4 12B, 16GB 노트북에서 돌아가는 멀티모달 AI의 실체 이미지·오디오를 별도 인코더 없이 처리하면서 26B 모델 성능에 근접한 12B의 등장문제 제기: 멀티모달 AI를 쓰려면 항상 클라우드가 필요했다이미지와 오디오를 동시에 처리하는 AI를 쓰려면 지금까지 선택지가 제한적이었다.Claude API를 호출하거나,GPT-4o를 사용하거나,Google Cloud에 올리거나.모두 외부 서버가 필요했다.왜인가?멀티모달 모델은 구조적으로 무겁기 때문이다.이미지를 처리하는 비전 인코더,오디오를 처리하는 오디오 인코더,그것을 언어 모델과 연결하는 레이어까지 쌓이면메모리 요구량이 급격히 올라간다.16GB RAM 노트북에서 돌리기에는 너무 크다.그러나 Google이 Gemma 4 12B를 발표하면서 이 구조적 제약은 사라지게 되었다. Gemma 4 12B, 16GB 노트북에서 .. 2026. 6. 6.
'이거 전체 다 해줘' — AI에게 큰 작업을 통째로 맡기는 사람들의 비밀 한 줄씩 지시하던 사람이 병렬 3개 세션으로 바뀌는 Anthropic 엔지니어의 위임 전략큰 작업 위임 병렬 세션 검증 구조 설계문제 제기: AI에게 "이거 전체 다 해줘"가 왜 안 되는가"이 평가 세트 전체를 격리된 컨테이너에서 빌드하고,테스트 돌리고,결과 분석하고,리포트 만들어서 슬랙으로 보내줘."이런 요청을 AI에게 해봤는가? 대부분은 중간에 막힌다.AI가 방향을 잃거나, 에러가 쌓이면서 흐려지거나,내가 결국 개입해서 다시 처음부터 설명해야 하는 상황이 된다. 그래서 많은 사람이 AI를 한 줄씩 지시하는 방식으로 쓴다.안전하지만 느리다. AI의 진짜 능력을 10분의 1도 못 쓰는 것이다. 오늘은 Anthropic의 Technical Staff인 Eugene Yan의 해결책을 통해AI를 진짜 능력을 .. 2026. 6. 4.
월 100달러 AI 구독 전쟁 — Google AI Ultra, Claude Max, ChatGPT Pro 중 무엇을 골라야 하는가? Google I/O 2026에서 등장한 신규 요금제를 포함한 2026년 5월 AI 구독 완전 비교문제 제기: $100짜리 AI 구독이 세 개가 됐다2026년 5월 기준, 개발자 앞에 세 개의 $100 AI 구독이 놓여 있다.Claude Max ($100/월): Claude Opus 4.7 무제한 + Claude CodeGoogle AI Ultra ($100/월): 안티그래비티 2.0 Pro 대비 5배 사용량ChatGPT Pro ($200/월): GPT-5.5 Pro 무제한이중 하나만 선택해야 한다면, 또는 두 개를 조합해야 한다면, 기준은 무엇인가.벤치마크 점수만으로는 답이 나오지 않는다.어떤 작업을 주로 하는가,어떤 도구와 연동이 필요한가가 핵심이다.공감: 이전과 달리 "에코시스템"이 선택 기준이 됐다.. 2026. 6. 2.
'동료'를 만드는가 vs '일꾼'을 만드는가 — Anthropic과 OpenAI의 철학이 만든 다른 AI 도구 Claude Code와 Codex의 차이는 모델이 아니라 설계 철학에서 시작되었다문제 제기: Claude Code와 Codex는 왜 같은 작업에서 다르게 행동하는가Claude Code와 Codex를 모두 써본 개발자들이 반복적으로 말하는 차이가 있다."Claude는 자꾸 묻다가 멈춘다.""Codex는 권한 경계만 잡아두면 끝까지 알아서 간다." 처음에는 모델의 차이처럼 보인다.Opus 4.7과 GPT-5.5의 성능 차이가 이 동작을 만드는 것 같다.그러나 더 들여다보면 모델보다 더 근본적인 곳에서 차이가 시작되었음을 알게 된다. 도구를 만든 회사의 철학이다.공감: 도구는 철학을 담는다새 도구를 도입할 때 개발자는 기능 목록을 본다.벤치마크 점수를 비교한다.그런데 실제로 매일 쓰다 보면 기능 목록에는 없는.. 2026. 5. 31.
어제까지 Claude Code가 1등이었다 — 2026년 5월 기준 진짜 우열을 가르는 3가지 진실 Opus 4.7 토크나이저 변경부터 사고 깊이 67% 감소까지, 균열의 실체를 정리한다문제 제기: 지난주까지 잘 쓰던 게 오늘부터 아쉬워졌다2026년 4월 16일 Anthropic이 Claude Opus 4.7을 출시하고,정확히 7일 뒤 OpenAI가 GPT-5.5를 발표하였다.그 사이 에이전트 코딩 커뮤니티에 조용한 균열이 생겼다."Claude한테 복잡한 프롬프트 하나 던지면 5시간 한도 절반이 그 자리에서 빠진다.""Codex Plus $20는 종일 돌려도 막히지 않더라."수백 개의 Reddit 댓글은 같은 방향을 가리키고 있다.이제는 대세가 되어가는 것 같았던 Claude Code의 우위가 흔들리기 시작하였다.균열의 실체는 세 가지이다.공감: 균열을 만든 3가지 원인원인 1. 토크나이저 변경 — 같.. 2026. 5. 29.
반응형