Apache 2.0 오픈 웨이트, 멀티모달, 에지 AI까지 — 2026년 4월 최신판
1. Gemma 4란 무엇인가
2026년 4월 2일, Google DeepMind는 젬마(Gemma) 4를 공개하였다.
젬마는 Google의 오픈 웨이트(open-weight) AI 모델 패밀리이다.
오픈 웨이트란 실제 모델 파일(AI 모델의 가중치를 공개)이 공개되어
누구나 다운로드해 자신의 하드웨어에서 직접 실행할 수 있다는 의미이다.
데이터가 Google로 전송되는 염려를 하지 않아도 된다.
젬마 4의 핵심 차별점은 세 가지이다.
- 첫째, Gemini 3 연구 기반:
젬마 4는 Google의 최신 독점 모델인 Gemini 3과 동일한 연구 인프라를 기반으로 만들어졌다.
클라우드 전용 유료 서비스인 Gemini의 핵심 연구 성과를 로컬 실행 가능한 형태로 제공하는 것이다. - 둘째, Apache 2.0 라이선스:
젬마 시리즈 최초로 완전한 Apache 2.0 라이선스가 적용되었다.
사용 제한 없이 무료로 다운로드하고 상업 제품에도 활용할 수 있다.
Meta의 Llama 라이선스처럼 사용자 수 제한 조항이 없다. - 셋째, 출시 24시간 내 커뮤니티 반응:
공개 이후 24시간 안에 개발자들이 라즈베리 파이부터 고사양 워크스테이션까지
다양한 환경에서 젬마 4를 실행하기 시작하였다.

▲ 젬마 4는 2026년 4월 2일 Apache 2.0 라이선스로 공개되었으며, 24시간 내에 전 세계 개발자들이 실행하기 시작하였다
2. 4가지 모델 라인업 — 무엇을 골라야 하는가
젬마 4는 단일 모델이 아니라 4개의 다른 트레이드오프 선택지이다.
(표에서 B는 10억을 의미, billion)
| 모델 | 실제 파라미터 | 컨텍스트 | 오디오 | 적합 환경 |
| E2B | ~2.3B 유효 | 128K | ✅ | 라즈베리 파이, 스마트폰 |
| E4B | ~4.5B 유효 | 128K | ✅ | 엣지 기기, 8GB 노트북 |
| 26B A4B | 3.8B 활성 / 26B 전체 | 256K | ❌ | 소비자 GPU, 단일 A100 |
| 31B | 31B Dense | 256K | ❌ | H100, RTX 4090 |
- E2B·E4B:
"E"는 Effective(유효) 파라미터를 의미한다.
Per-Layer Embeddings(PLE) 기법으로
실제 추론 시 더 적은 파라미터를 활성화하여 엣지 디바이스에서 동작한다.
두 모델 모두 오디오 입력을 지원한다. - 26B A4B: MoE(Mixture of Experts) 아키텍처이다.
"A"는 Active(활성) 파라미터를 의미한다.
26B 전체 파라미터 중 실제 추론 시 3.8B만 활성화되므로
약 4B 모델 수준의 속도로 실행되면서 품질은 훨씬 높다. - 31B:
Dense 모델로 최고 품질이다.
단일 H100 80GB에서 풀 bfloat16으로 실행 가능하며,
RTX 4090에서는 4비트 양자화로 실행된다.
실전 선택 기준:
스마트폰·라즈베리 파이·젯슨 나노라면 → E2B (Q4 양자화 시 ~2GB RAM)
8GB 노트북이라면 → E4B
단일 소비자 GPU(24GB)라면 → 26B A4B (8GB RAM에서도 Q4로 실행 가능)
최고 품질이 필요하거나 파인튜닝 목적이라면 → 31B
3. 벤치마크 — 숫자로 보는 젬마 4의 실력
젬마 4와 전 세대 젬마 3 27B의 성능 비교이다.
| 벤치마크 | 젬마 3 27B | 젬마 4 31B | 변화 |
| AIME 2026 (수학) | 20.8% | 89.2% | +330% |
| LiveCodeBench v6 (코딩) | 29.1% | 80.0% | +175% |
| Codeforces ELO | 110 | 2,150 | 20배 |
| GPQA Diamond (과학 추론) | 42.4% | 84.3% | +99% |
| MMLU Pro | 67% | 85.2% | +27% |
| τ2-bench 에이전틱 (도구 사용) | 6.6% | 86.4% | +1,200% |
특히 주목할 벤치마크는 두 가지이다.
- Codeforces ELO 2,150:
경쟁 프로그래밍 플랫폼에서 ELO 2,150은 "Candidate Master" 레벨이다.
Gemma 3의 ELO 110은 사실상 초보 수준이었는데, 한 세대 만에 이 격차를 뛰어넘었다. - τ2-bench 에이전틱 도구 사용 +1,200%:
에이전트가 도구를 호출하고 다단계 작업을 처리하는 능력이 폭발적으로 향상되었다.
이것이 실제 AI 애플리케이션 개발에서 가장 중요한 지표이다. - 26B A4B의 경쟁력:
MoE 모델임에도 31B와 거의 비슷한 성능을 낸다.
MMLU Pro 82.6% (31B는 85.2%), AIME 2026 88.3% (31B는 89.2%).
실질적인 비용 효율 측면에서 대부분의 개발자에게 가장 실용적인 선택이다.
4. 멀티모달 기능 — 텍스트 그 이상
젬마 4는 전 세대와 달리 모든 크기에서 멀티모달을 지원한다.
- 모든 모델 공통:
텍스트, 이미지(가변 해상도·비율), 비디오(프레임 시퀀스), OCR, 차트 이해 - E2B·E4B 추가 지원:
오디오 입력 — 음성 인식, 다국어 음성→텍스트 변환
이미지 처리는 가변 시각 토큰 예산을 사용한다.
70, 140, 280, 560, 1120 토큰 중 선택 가능하며,
토큰이 많을수록 더 세밀한 이미지 이해가 가능하지만 컴퓨팅 비용도 높아진다.

▲ 젬마 4는 텍스트·이미지·오디오를 통합 처리하는 멀티모달 오픈 모델이다
5. 젬마 4 vs Llama 4 vs Qwen 3.5 — 2026년 오픈 모델 삼파전
| 항목 | Gemma 4 | Llama 4 Scout | Qwen 3.5 27B |
| 라이선스 | Apache 2.0 | Llama 4 커스텀 | Apache 2.0 |
| 컨텍스트 | 256K (대형) | 10M | 128K |
| 엣지 모델 | ✅ E2B (2.3B) | ❌ | ❌ |
| 오디오 지원 | ✅ E2B·E4B | ❌ | ❌ |
| GPQA Diamond | 84.3% | 74.3% | 85.8% |
| AIME 2026 | 89.2% | 88.3% | - |
- 젬마 4는 엣지 배포와 수학·코딩·에이전틱 작업에서 강점을 가진다.
- Llama 4 Scout는 10M 토큰 초장문 컨텍스트가 필요한 작업에 유리하다.
- Qwen 3.5는 다국어와 코딩 특화 모델이 강점이다.
마치며
젬마 4는 오픈 웨이트 모델의 경계를 다시 설정하였다.
- Apache 2.0의 완전한 상업 자유도,
- 라즈베리 파이부터 H100까지 아우르는 4가지 모델,
- Gemini 3 연구 기반의 성능.
이 세 가지가 합쳐진 결과가 τ2-bench 에이전틱 도구 사용 +1,200%라는 숫자로 나타난다.
Google AI Studio에서 브라우저로 바로 시작하거나,
Ollama로 로컬에서 명령어 단 한 줄로 실행할 수 있다.
지금 당장 시작하기에 이보다 낮은 장벽은 없다.
젬마 4 설치 및 프로젝트 생성에 대해 알고 싶으면 다음 글을 참고하기 바란다.
구글 젬마 4(Gemma 4) 무작정 따라하기 - 초보자용 AI 스튜디오부터 로컬 구동까지
📎 참고 출처
- Google DeepMind Gemma 4 공식: https://deepmind.google/models/gemma/gemma-4/
- Hugging Face 모델 카드: https://huggingface.co/google/gemma-4-26B-A4B-it
- DEV Community Gemma 4 리뷰: https://dev.to/techsifted/google-gemma-4-review-2026-apache-20-license-benchmarks-commercial-use-3iea
- DataCamp Gemma 4 튜토리얼: https://www.datacamp.com/tutorial/gemma-4-tutorial
'AI' 카테고리의 다른 글
| 구글 젬마 4(Gemma 4) 무작정 따라하기 - 초보자용 AI 스튜디오부터 로컬 구동까지 (2) | 2026.04.15 |
|---|---|
| AGENTS.md 실전전략 - 헤매지 않는 에이전트를 만드는 컨텍스트 설계 (0) | 2026.04.14 |
| Codex Agent Skills 완전분석 스킬 구조와 동작 원리부터 실전 활용까지(2026년 4월 최신판) (0) | 2026.04.13 |
| 2026년 4월 Codex 요금제 완전 분석 — 바뀐 요금이 내 비용에 미치는 진짜 영향 (0) | 2026.04.11 |
| AI 에이전트는 어떻게 말할까? — 눈에 보이지 않는 IT 서비스의 대화법, API의 작동 원리 (0) | 2026.04.08 |