GPT 5.5와 Opus 4.7이 싸우는 동안 — 중국 AI 모델이 조용히 따라잡았다
Kimi K2.6·GLM-5.1·MiniMax M2.7·Qwen 3.6 Plus
들어가며: GPT 5.5와 Opus 4.7이 1주일 간격으로 출시된 사이
2026년 4월 Claude Opus 4.7와 GPT-5.5이 1주일 간격으로 출시되며 모든 관심이 쏠렸다.
그런데 같은 4월, 조용하지만 어쩌면 더 중요할 수 있는 사건이 동시에 일어났다.
중국 오픈 소스 AI 모델 4개가 SWE-bench Pro 상위권에 진입하였다.
각종 커뮤니티에서 떠돌던
"수개월 내에 중국 모델을 포함한 모든 모델이 Opus 4.6 수준 이상에 도달할 것"이라고
예측한 소문이 빠르게 현실이 되고 있는 것이다.
이 글은 중국 오픈 웨이트 모델 4개의 실체를 분석한다.
- 오픈 웨이트(Open Weights) 모델
학습이 완료된 AI 모델의 핵심 파라미터(가중치)를 공개하여 누구나 다운로드하고 사용할 수 있게 한 모델
모델의 '지능' 부분인 가중치만 제공하여,
기업이나 개인이 맞춤형 미세조정(Fine-tuning) 및 로컬 환경에서 실행할 수 있게 함- 오픈소스 모델
코드와 학습 데이터 전체를 공개
1. Kimi K2.6 — 장시간 에이전트 세션의 최강자
2026년 4월 20일, Moonshot AI가 Kimi K2.6을 Modified MIT 라이선스로 공개하였다.
K2.5 대비 핵심 개선은 장시간 세션에서의 에이전트 안정성이다.
주요 벤치마크:
- SWE-bench Verified: 80.2% (Claude Opus 4.6의 80.8%에 근접)
- SWE-bench Pro: 58.6% (Kimi K2.6이 4인방 중 1위)
- Terminal-Bench 2.0: 66.7%
- DeepSearchQA: 92.5% F1
- BenchLM 코딩 순위: 전체 115개 모델 중 7위
K2.6의 가장 강력한 특성은 다국어 스택 일관성이다.
대부분의 벤치마크가 Python에 편중되어 있는데,
K2.6은 Rust, Go, Python, 프론트엔드, DevOps 태스크에서 일관된 성능을 보인다.
실제 회사 코드베이스처럼 폴리글랏 환경에서 운영하는 팀에게 중요한 차이점이다.
단점: 입력 $0.95/1M 토큰으로 4인방 중 가장 비싸다. 대용량 컨텍스트 배치 처리에는 비용이 빠르게 쌓인다.
사례:
KiloClaw (OpenClaw AI 에이전트를 위한 완전 관리형 호스팅 서비스) AI는
자사 상시 가동 에이전트에 Kimi K2.6을 도입하였다.
"장시간 연속 처리에 필요한 내구성과 신뢰성이 탁월하다"고 밝혔다.

▲ 중국 오픈 웨이트 모델 4인방이 2026년 4월 동시에 SWE-bench 상위권에 진입하였다
2. GLM-5.1 — MIT 라이선스, NVIDIA 없이 만든 754B 모델
2026년 4월 7일, Z.ai(구 Zhipu AI)가 GLM-5.1을 MIT 라이선스로 공개하였다.
파라미터 수 754B, MoE 아키텍처.
그리고 NVIDIA GPU를 단 하나도 쓰지 않았다.
화웨이 Ascend 910B 칩 100,000개로만 훈련하였다.
주요 벤치마크:
- SWE-bench Pro: 58.4% (Kimi K2.6의 58.6%와 통계적으로 동일)
- Code Arena Elo: 1,530
MIT 라이선스라는 것이 GLM-5.1의 핵심 차별점이다.
- 상업 제품에 무제한 내장이 가능하고,
- 파인튜닝 후 재배포가 가능하며,
- 사용료가 없다.
현재까지 가장 허용적인 라이선스를 가진 프론티어급 모델이다.
단점:
실제 Rails + RubyLLM 벤치마크에서
GLM-5.1이 자체 DSL을 만들어내고 히스토리를 버리는 구조적 버그가 발견되었다.
Z.ai가 공식 벤치마크에서 주장하는 수치가 독립 테스트와 다른 경우가 있다.
3. MiniMax M2.7 — 멀티모달 + 최저 비용
2026년 3월 17일 출시된 MiniMax M2.7은 코딩 성능보다 비용 효율로 승부한다.
- SWE-bench Pro: 56.22% (GLM-5.1 94% 수준의 성능)
- 활성 파라미터: 10B (MoE)
- 입력 가격: $0.30/1M (K2.6의 1/3 수준)
- 컨텍스트: 197K~204K 토큰
M2.7의 실제 차별화는 다른 방향이다.
다른 모델들이 코딩과 추론을 강화하는 동안
M2.7은 네이티브 멀티모달 — 음성 입력, 음성 출력, 이미지, 비디오를 별도 TTS 없이 단일 모델에서 처리 — 에 집중하였다.
4. Qwen 3.6 Plus — 100만 토큰 컨텍스트가 필요할 때
Qwen 3.6 Plus는 단 하나의 스펙으로 자기 자리를 정의한다.
1M 토큰 컨텍스트이다.
4인방 중 유일하다.
- Terminal-Bench 2.0: 61.6% (4인방 중 1위)
- 컨텍스트: 1M 토큰
레거시 모놀리식 코드베이스, 수십만 줄의 문서, 긴 에이전트 루프가 필요한 작업에서
컨텍스트 한계로 오류가 발생하는 경우 Qwen 3.6 Plus가 답이 된다.
5. 4인방 비교표와 선택 기준
| 모델 | SWE-bench Pro | 입력 가격/1M | 컨텍스트 | 선택 기준 |
| Kimi K2.6 | 58.6% | $0.95 | 256K | 장시간 에이전트, 폴리글랏 |
| GLM-5.1 | 58.4% | ~$0.66 | 262K | 무제한 상업 내장, 파인튜닝 |
| MiniMax M2.7 | 56.2% | $0.30 | 204K | 최저 비용, 멀티모달 |
| Qwen 3.6 Plus | — (Terminal 61.6%) | — | 1M | 초대형 컨텍스트 필요 시 |

▲ 중국 오픈 웨이트 모델들은 GPT·Claude의 1/3~1/10 비용에 유사한 코딩 성능을 제공한다
6. 중국 모델이 무너뜨리는 AI 가격 방어선
"수개월 내에 중국 모델을 포함한 모든 모델이 Opus 4.6 수준 이상에 도달할 것이며,
더 낮은 가격에 제공될 가능성이 있다."
이미 많은 커뮤니티에서 예측한 부분이다.
Kimi K2.6은 SWE-bench Verified에서 Opus 4.6(80.8%)과 0.6포인트 차이(80.2%)이다.
- GPT-5.5나 Opus 4.7처럼 $20/월 구독 없이,
- API 가격 $0.95/M으로.
- GLM-5.1은 MIT 라이선스로 기업이 자유롭게 내장할 수 있다.
현시점에서도 코딩 에이전트 비용이 가장 중요한 팀에게
Kimi K2.6 또는 MiniMax M2.7은 진지하게 고려할 선택지이다.
마치며
GPT-5.5와 Opus 4.7 사이의 선택이 지금 당장 가장 중요한 결정처럼 보이지만,
실제로 더 중요한 흐름은 오픈 웨이트 진영의 빠른 추격이다.
장기적으로 접근성·가격·사용 제한이 순수 성능보다 더 중요한 차별화 요소가 된다.
중국 4인방은 그 흐름에서 이미 다른 모델을 추월했다고 볼 수도 있다.
📎 참고 출처
'AI' 카테고리의 다른 글
| 최소한의 작업만 하는 게으른 GPT 5.5와 Opus4.7 — 이제 이전 프롬프트는 더 이상 의미가 없다 (0) | 2026.05.03 |
|---|---|
| GPT 5.5 Opus 4.7 멀티모델 라우팅 전략(feat. 비용 최적화) (0) | 2026.05.01 |
| GPT-Image-2 완전분석 — 이미지 모델이 드디어 추론을 시작했다 (1) | 2026.04.30 |
| GPT 5.5 vs. Claude Opus 4.7 완전비교 - 7일 차이로 출시된 두 플래그십 모델의 벤치마크·요금·실전 비교 (0) | 2026.04.28 |
| OpenCode 메인 코딩 에이전트 실전 가이드 - 오픈 소스 + 75개 제공자 + 커스텀 에이전트 (0) | 2026.04.27 |