본문 바로가기
AI

구글 젬마 4(Gemma4) 완전분석 벤치마크 모델선택 — 31B 모델이 400B 라이벌을 이기는 방법

by 심독 2026. 4. 17.

Apache 2.0 오픈 웨이트, 멀티모달, 에지 AI까지 — 2026년 4월 최신판


1. Gemma 4란 무엇인가

2026년 4월 2일, Google DeepMind는 젬마(Gemma) 4를 공개하였다.


젬마는 Google의 오픈 웨이트(open-weight) AI 모델 패밀리이다.
오픈 웨이트란 실제 모델 파일(AI 모델의 가중치를 공개)이 공개되어
누구나 다운로드해 자신의 하드웨어에서 직접 실행할 수 있다는 의미이다.

데이터가 Google로 전송되는 염려를 하지 않아도 된다.

 

젬마 4의 핵심 차별점은 세 가지이다.

  • 첫째, Gemini 3 연구 기반:
    젬마 4는 Google의 최신 독점 모델인 Gemini 3과 동일한 연구 인프라를 기반으로 만들어졌다.
    클라우드 전용 유료 서비스인 Gemini의 핵심 연구 성과를 로컬 실행 가능한 형태로 제공하는 것이다.
  • 둘째, Apache 2.0 라이선스:
    젬마 시리즈 최초로 완전한 Apache 2.0 라이선스가 적용되었다.
    사용 제한 없이 무료로 다운로드하고 상업 제품에도 활용할 수 있다.
    Meta의 Llama 라이선스처럼 사용자 수 제한 조항이 없다.
  • 셋째, 출시 24시간 내 커뮤니티 반응:
    공개 이후 24시간 안에 개발자들이 라즈베리 파이부터 고사양 워크스테이션까지
    다양한 환경에서 젬마 4를 실행하기 시작하였다.

▲ 젬마 4는 2026년 4월 2일 Apache 2.0 라이선스로 공개되었으며, 24시간 내에 전 세계 개발자들이 실행하기 시작하였다


2. 4가지 모델 라인업 — 무엇을 골라야 하는가

젬마 4는 단일 모델이 아니라 4개의 다른 트레이드오프 선택지이다.
(표에서 B는 10억을 의미, billion)

모델 실제 파라미터 컨텍스트 오디오 적합 환경
E2B ~2.3B 유효 128K 라즈베리 파이, 스마트폰
E4B ~4.5B 유효 128K 엣지 기기, 8GB 노트북
26B A4B 3.8B 활성 / 26B 전체 256K 소비자 GPU, 단일 A100
31B 31B Dense 256K H100, RTX 4090
  • E2B·E4B:
    "E"는 Effective(유효) 파라미터를 의미한다.
    Per-Layer Embeddings(PLE) 기법으로
    실제 추론 시 더 적은 파라미터를 활성화하여 엣지 디바이스에서 동작한다.
    두 모델 모두 오디오 입력을 지원한다.
  • 26B A4B: MoE(Mixture of Experts) 아키텍처이다.
    "A"는 Active(활성) 파라미터를 의미한다.
    26B 전체 파라미터 중 실제 추론 시 3.8B만 활성화되므로
    약 4B 모델 수준의 속도로 실행되면서 품질은 훨씬 높다.
  • 31B:
    Dense 모델로 최고 품질이다.
    단일 H100 80GB에서 풀 bfloat16으로 실행 가능하며,
    RTX 4090에서는 4비트 양자화로 실행된다.

실전 선택 기준:
스마트폰·라즈베리 파이·젯슨 나노라면 → E2B (Q4 양자화 시 ~2GB RAM)
8GB 노트북이라면 → E4B
단일 소비자 GPU(24GB)라면 → 26B A4B (8GB RAM에서도 Q4로 실행 가능)
최고 품질이 필요하거나 파인튜닝 목적이라면 → 31B


3. 벤치마크 — 숫자로 보는 젬마 4의 실력

젬마 4와 전 세대 젬마 3 27B의 성능 비교이다.

벤치마크 젬마 3 27B 젬마 4 31B 변화
AIME 2026 (수학) 20.8% 89.2% +330%
LiveCodeBench v6 (코딩) 29.1% 80.0% +175%
Codeforces ELO 110 2,150 20배
GPQA Diamond (과학 추론) 42.4% 84.3% +99%
MMLU Pro 67% 85.2% +27%
τ2-bench 에이전틱 (도구 사용) 6.6% 86.4% +1,200%

 

특히 주목할 벤치마크는 두 가지이다.

  • Codeforces ELO 2,150:
    경쟁 프로그래밍 플랫폼에서 ELO 2,150은 "Candidate Master" 레벨이다.
    Gemma 3의 ELO 110은 사실상 초보 수준이었는데, 한 세대 만에 이 격차를 뛰어넘었다.
  • τ2-bench 에이전틱 도구 사용 +1,200%:
    에이전트가 도구를 호출하고 다단계 작업을 처리하는 능력이 폭발적으로 향상되었다.
    이것이 실제 AI 애플리케이션 개발에서 가장 중요한 지표이다.
  • 26B A4B의 경쟁력:
    MoE 모델임에도 31B와 거의 비슷한 성능을 낸다.
    MMLU Pro 82.6% (31B는 85.2%), AIME 2026 88.3% (31B는 89.2%).
    실질적인 비용 효율 측면에서 대부분의 개발자에게 가장 실용적인 선택이다.

4. 멀티모달 기능 — 텍스트 그 이상

젬마 4는 전 세대와 달리 모든 크기에서 멀티모달을 지원한다.

  • 모든 모델 공통:
    텍스트, 이미지(가변 해상도·비율), 비디오(프레임 시퀀스), OCR, 차트 이해
  • E2B·E4B 추가 지원:
    오디오 입력 — 음성 인식, 다국어 음성→텍스트 변환

이미지 처리는 가변 시각 토큰 예산을 사용한다.
70, 140, 280, 560, 1120 토큰 중 선택 가능하며,
토큰이 많을수록 더 세밀한 이미지 이해가 가능하지만 컴퓨팅 비용도 높아진다.

 

▲ 젬마 4는 텍스트·이미지·오디오를 통합 처리하는 멀티모달 오픈 모델이다


5. 젬마 4 vs Llama 4 vs Qwen 3.5 — 2026년 오픈 모델 삼파전

항목 Gemma 4 Llama 4 Scout Qwen 3.5 27B
라이선스 Apache 2.0 Llama 4 커스텀 Apache 2.0
컨텍스트 256K (대형) 10M 128K
엣지 모델 ✅ E2B (2.3B)
오디오 지원 ✅ E2B·E4B
GPQA Diamond 84.3% 74.3% 85.8%
AIME 2026 89.2% 88.3% -
  • 젬마 4는 엣지 배포와 수학·코딩·에이전틱 작업에서 강점을 가진다.
  • Llama 4 Scout는 10M 토큰 초장문 컨텍스트가 필요한 작업에 유리하다.
  • Qwen 3.5는 다국어와 코딩 특화 모델이 강점이다.

마치며

젬마 4는 오픈 웨이트 모델의 경계를 다시 설정하였다.

  • Apache 2.0의 완전한 상업 자유도,
  • 라즈베리 파이부터 H100까지 아우르는 4가지 모델,
  • Gemini 3 연구 기반의 성능.
    이 세 가지가 합쳐진 결과가 τ2-bench 에이전틱 도구 사용 +1,200%라는 숫자로 나타난다.

Google AI Studio에서 브라우저로 바로 시작하거나,
Ollama로 로컬에서 명령어 단 한 줄로 실행할 수 있다.
지금 당장 시작하기에 이보다 낮은 장벽은 없다.

 

젬마 4 설치 및 프로젝트 생성에 대해 알고 싶으면 다음 글을 참고하기 바란다.
구글 젬마 4(Gemma 4) 무작정 따라하기 - 초보자용 AI 스튜디오부터 로컬 구동까지


📎 참고 출처

반응형