11점 올랐을 뿐인데 세계 4위가 됐다 — GLM-5.2가 보여준 오픈소스의 진짜 실력

핵심 요약

GLM-5.2는 Artificial Analysis 지능 지수 v4.1에서 51점을 기록하며 세계 4위에 올랐다. (출처: Artificial Analysis, 2026.06.17)

1위 Claude Fable 5(60점), 2위 Claude Opus 4.8(56점), 3위 GPT-5.5(55점)에 이은 4위이며, 오픈웨이트 모델 중에서는 1위다.

매개변수 구조(총 7,440억·활성 400억개)를 그대로 유지한 채 지능 지수만 11점 끌어올렸다.

중국 오픈소스 경쟁 모델인 MiniMax-M3(44점), DeepSeek V4 Pro(44점), Kimi K2.6(43점)을 모두 앞섰다.

1. 문제 제기 — 오픈소스는 항상 한 세대 뒤처진다는 가정

오픈소스 LLM을 검토할 때 흔히 따라붙는 전제가 있다.
"오픈소스는 폐쇄형 모델보다 한 세대 뒤처진다."

따라서 오픈소스 모델을 사용한다는 것은 비용을 아끼는 대신 성능을 포기한다는 의미였다.

2026년 6월 17일 Artificial Analysis(AA)가 발표한 지능 지수 v4.1은 이 전제를 흔들었다.
지푸 AI(Zhipu AI)의 GLM-5.2가 51점으로 세계 4위에 올랐고,
이는 오픈웨이트 모델 가운데 가장 높은 점수이자
오픈소스 진영 전체에서 처음으로 50점대를 넘은 기록이다. (출처: Artificial Analysis, 2026)

2. GLM-5.2가 기록한 정확한 수치

AA 지능 지수 v4.1 상위권 순위는 다음과 같다.

순위	모델	지능 지수	비고
1위	Claude Fable 5	60점	폐쇄형
2위	Claude Opus 4.8	56점	폐쇄형
3위	GPT-5.5	55점	폐쇄형
4위	GLM-5.2	51점	오픈웨이트 1위

GLM-5.2는 2026년 6월 14일 공식 출시됐다.
그러나 지푸 AI는 출시 당시 벤치마크를 공개하지 않았고,
이후 AA의 독립 평가를 통해 성능이 확인됐다.

Artificial Analysis 지능 지수 순위 - GLM-5.2 세계 4위

3. 같은 구조로 11점을 올린 방법

GLM-5.2가 주목받는 이유 중 하나는
매개변수 구조를 바꾸지 않고 성능만 끌어올렸다는 점이다.

이전 버전 GLM-5.1과 동일하게
총 매개변수 7,440억 개, 활성 매개변수 400억 개 구조를 유지했다.
그런데도 지능 지수는 11점 상승한 것이다.

성능 향상이 가장 두드러진 영역은 과학적 추론이다.

CritPt(과학 문제 해결 능력 평가): +16점
HLE: +12점
AA-LCR, 터미널벤치, SciCode(코딩·에이전트 벤치마크): 큰 폭 개선

에이전트 성능 평가인 GDPval-AA v2에서는 1,524점을 기록했다.
이는 MiniMax-M3의 1,418점, DeepSeek V4 Pro의 1,328점을 크게 앞서는 수치이며,
일부 폐쇄형 모델과도 경쟁이 가능한 수준이라는 평가다.

매개변수를 늘리지 않고 점수를 올렸다는 것은
사전학습 데이터 품질이나 학습 방법론의 개선이 핵심 요인이었음을 시사한다.

4. 컨텍스트 창 5배 확대가 의미하는 것

GLM-5.2의 또 다른 핵심 변화는 컨텍스트 창이다.

항목	GLM-5.1	GLM-5.2	변화
컨텍스트 창	20만 토큰	100만 토큰	5배 확대
비교 대상	—	GPT-5.5·Claude Opus 4.8과 동급	—

100만 토큰 컨텍스트는 장시간 코딩 작업과 복잡한 에이전트형 워크플로우 수행에 최적화된 규모다.
이전까지 대형 컨텍스트 창은 폐쇄형 최상위 모델의 차별점이었는데,
오픈웨이트 모델이 동급 규모를 확보한 것이다.

5. 중국 오픈소스 경쟁 구도에서의 위치

중국 오픈소스 모델 간 비교에서 GLM-5.2의 격차는 분명하다.

모델	지능 지수
GLM-5.2	51점
MiniMax-M3	44점
DeepSeek V4 Pro	44점
Kimi K2.6	43점

GLM-5.2는 가장 가까운 경쟁 모델 대비 7점 앞서 있다.
이 격차는 동일 국가·동일 오픈소스 생태계 내에서도 상당한 차이로,
지푸 AI가 단발성 성과가 아니라 일관된 기술 우위를 구축하고 있음을 보여준다.

GLM-5.2는 MIT 라이선스를 적용한 완전한 오픈웨이트 모델이며,
허깅페이스에서 직접 다운로드해 자체 서버에서 운영하거나 수정할 수 있다.

FAQ

Q: GLM-5.2의 지능 지수와 세계 순위는 어떻게 되는가?
A: Artificial Analysis 지능 지수 v4.1에서 51점을 기록해 세계 4위에 올랐다.
1위 Claude Fable 5(60점), 2위 Claude Opus 4.8(56점), 3위 GPT-5.5(55점)에 이은 순위이며
오픈웨이트 모델 중에서는 1위다.

Q: GLM-5.1에서 GLM-5.2로 무엇이 달라졌는가?
A: 매개변수 구조(총 7,440억·활성 400억개)는 동일하게 유지하면서
지능 지수가 11점 상승했고, 컨텍스트 창은 20만에서 100만 토큰으로 5배 확대됐다.

Q: GLM-5.2는 어떤 라이선스로 제공되는가?
A: MIT 라이선스의 완전한 오픈웨이트 모델로,
허깅페이스에서 다운로드해 자체 서버에서 자유롭게 운영하거나 수정할 수 있다.

Q: 중국 오픈소스 모델 중 GLM-5.2가 1위인가?
A: 그렇다.
MiniMax-M3(44점), DeepSeek V4 Pro(44점), Kimi K2.6(43점)을 모두 앞서며 중국 오픈소스 모델 가운데 최고 점수다.

마치며

GLM-5.2는 "오픈소스는 한 세대 뒤처진다"는 가정에 가장 강력한 반대되는 사례를 제시했다.

매개변수를 늘리지 않고도 11점을 올렸고,
세계 4위라는 순위로 폐쇄형 최상위 3개 모델 바로 다음 자리를 차지했다.
오픈소스와 폐쇄형 사이의 격차가 좁혀지고 있다는 신호를 가장 구체적인 숫자로 보여준 사례다.

참고자료

AI타임스: https://www.aitimes.com/news/articleView.html?idxno=211964
Artificial Analysis: https://artificialanalysis.ai
허깅페이스 GLM-5.2: https://huggingface.co/zai-org/GLM-5.2

저작자표시 (새창열림)

'AI 비교' 카테고리의 다른 글

이 작업에서 Claude를 쓰면 GPT-5.5 대비 손해다 - ChatGPT vs Claude 실전 선택 가이드 2026 (1)	2026.06.17
월 100달러 AI 구독 전쟁 — Google AI Ultra, Claude Max, ChatGPT Pro 중 무엇을 골라야 하는가? (0)	2026.06.02
어제까지 Claude Code가 1등이었다 — 2026년 5월 기준 진짜 우열을 가르는 3가지 진실 (1)	2026.05.29
AI 모델 시장 점유율 전쟁 — OpenAI 매출 3배 급증, Anthropic 지출 우위, Google 사용량 폭발 (0)	2026.05.20
ChatGPT Plus vs. Claude Pro 20달러 구독 실전비교 (0)	2026.05.08

마음 읽기

세계 4위 AI LLM 모델 - 중국 오픈소스 모델 최초로 지능 지수 50점을 넘은 GLM-5.2 완전 분석

11점 올랐을 뿐인데 세계 4위가 됐다 — GLM-5.2가 보여준 오픈소스의 진짜 실력

목차

1. 문제 제기 — 오픈소스는 항상 한 세대 뒤처진다는 가정

2. GLM-5.2가 기록한 정확한 수치

3. 같은 구조로 11점을 올린 방법

4. 컨텍스트 창 5배 확대가 의미하는 것

5. 중국 오픈소스 경쟁 구도에서의 위치

FAQ

마치며

참고자료

'AI 비교' 카테고리의 다른 글

티스토리툴바

세계 4위 AI LLM 모델 - 중국 오픈소스 모델 최초로 지능 지수 50점을 넘은 GLM-5.2 완전 분석

11점 올랐을 뿐인데 세계 4위가 됐다 — GLM-5.2가 보여준 오픈소스의 진짜 실력

목차

1. 문제 제기 — 오픈소스는 항상 한 세대 뒤처진다는 가정

2. GLM-5.2가 기록한 정확한 수치

3. 같은 구조로 11점을 올린 방법

4. 컨텍스트 창 5배 확대가 의미하는 것

5. 중국 오픈소스 경쟁 구도에서의 위치

FAQ

마치며

참고자료

'AI 비교' 카테고리의 다른 글

관련글

티스토리툴바