본문 바로가기
AI

중국 AI 모델 급부상 - 오픈 웨이트 모델 Kimi, GLM, MiniMax, Qwen

by 심독 2026. 5. 5.

GPT 5.5와 Opus 4.7이 싸우는 동안 — 중국 AI 모델이 조용히 따라잡았다

Kimi K2.6·GLM-5.1·MiniMax M2.7·Qwen 3.6 Plus


들어가며: GPT 5.5와 Opus 4.7이 1주일 간격으로 출시된 사이

2026년 4월 Claude Opus 4.7와 GPT-5.5이 1주일 간격으로 출시되며 모든 관심이 쏠렸다.


그런데 같은 4월, 조용하지만 어쩌면 더 중요할 수 있는 사건이 동시에 일어났다.

중국 오픈 소스 AI 모델 4개가 SWE-bench Pro 상위권에 진입하였다.


각종 커뮤니티에서 떠돌던
"수개월 내에 중국 모델을 포함한 모든 모델이 Opus 4.6 수준 이상에 도달할 것"이라고
예측한 소문이 빠르게 현실이 되고 있는 것이다.

 

이 글은 중국 오픈 웨이트 모델 4개의 실체를 분석한다.

  1. 오픈 웨이트(Open Weights) 모델
    학습이 완료된 AI 모델의 핵심 파라미터(가중치)를 공개하여 누구나 다운로드하고 사용할 수 있게 한 모델
    모델의 '지능' 부분인 가중치만 제공하여,
    기업이나 개인이 맞춤형 미세조정(Fine-tuning) 및 로컬 환경에서 실행할 수 있게 함
  2. 오픈소스 모델
    코드와 학습 데이터 전체를 공개

1. Kimi K2.6 — 장시간 에이전트 세션의 최강자

2026년 4월 20일, Moonshot AI가 Kimi K2.6을 Modified MIT 라이선스로 공개하였다.
K2.5 대비 핵심 개선은 장시간 세션에서의 에이전트 안정성이다.

 

주요 벤치마크:

  • SWE-bench Verified: 80.2% (Claude Opus 4.6의 80.8%에 근접)
  • SWE-bench Pro: 58.6% (Kimi K2.6이 4인방 중 1위)
  • Terminal-Bench 2.0: 66.7%
  • DeepSearchQA: 92.5% F1
  • BenchLM 코딩 순위: 전체 115개 모델 중 7위

K2.6의 가장 강력한 특성은 다국어 스택 일관성이다.


대부분의 벤치마크가 Python에 편중되어 있는데,
K2.6은 Rust, Go, Python, 프론트엔드, DevOps 태스크에서 일관된 성능을 보인다.
실제 회사 코드베이스처럼 폴리글랏 환경에서 운영하는 팀에게 중요한 차이점이다.

 

단점: 입력 $0.95/1M 토큰으로 4인방 중 가장 비싸다. 대용량 컨텍스트 배치 처리에는 비용이 빠르게 쌓인다.

사례:
KiloClaw (OpenClaw AI 에이전트를 위한 완전 관리형 호스팅 서비스) AI는
자사 상시 가동 에이전트에 Kimi K2.6을 도입하였다.
"장시간 연속 처리에 필요한 내구성과 신뢰성이 탁월하다"고 밝혔다.

 

▲ 중국 오픈 웨이트 모델 4인방이 2026년 4월 동시에 SWE-bench 상위권에 진입하였다


2. GLM-5.1 — MIT 라이선스, NVIDIA 없이 만든 754B 모델

2026년 4월 7일, Z.ai(구 Zhipu AI)가 GLM-5.1을 MIT 라이선스로 공개하였다.


파라미터 수 754B, MoE 아키텍처.
그리고 NVIDIA GPU를 단 하나도 쓰지 않았다.
화웨이 Ascend 910B 칩 100,000개로만 훈련하였다.

 

주요 벤치마크:

  • SWE-bench Pro: 58.4% (Kimi K2.6의 58.6%와 통계적으로 동일)
  • Code Arena Elo: 1,530

MIT 라이선스라는 것이 GLM-5.1의 핵심 차별점이다.

  • 상업 제품에 무제한 내장이 가능하고,
  • 파인튜닝 후 재배포가 가능하며,
  • 사용료가 없다.
    현재까지 가장 허용적인 라이선스를 가진 프론티어급 모델이다.

단점:
실제 Rails + RubyLLM 벤치마크에서
GLM-5.1이 자체 DSL을 만들어내고 히스토리를 버리는 구조적 버그가 발견되었다.
Z.ai가 공식 벤치마크에서 주장하는 수치가 독립 테스트와 다른 경우가 있다.


3. MiniMax M2.7 — 멀티모달 + 최저 비용

2026년 3월 17일 출시된 MiniMax M2.7은 코딩 성능보다 비용 효율로 승부한다.

  • SWE-bench Pro: 56.22% (GLM-5.1 94% 수준의 성능)
  • 활성 파라미터: 10B (MoE)
  • 입력 가격: $0.30/1M (K2.6의 1/3 수준)
  • 컨텍스트: 197K~204K 토큰

M2.7의 실제 차별화는 다른 방향이다.
다른 모델들이 코딩과 추론을 강화하는 동안
M2.7은 네이티브 멀티모달 — 음성 입력, 음성 출력, 이미지, 비디오를 별도 TTS 없이 단일 모델에서 처리 — 에 집중하였다.


4. Qwen 3.6 Plus — 100만 토큰 컨텍스트가 필요할 때

Qwen 3.6 Plus는 단 하나의 스펙으로 자기 자리를 정의한다.
1M 토큰 컨텍스트이다.
4인방 중 유일하다.

  • Terminal-Bench 2.0: 61.6% (4인방 중 1위)
  • 컨텍스트: 1M 토큰

레거시 모놀리식 코드베이스, 수십만 줄의 문서, 긴 에이전트 루프가 필요한 작업에서
컨텍스트 한계로 오류가 발생하는 경우 Qwen 3.6 Plus가 답이 된다.


5. 4인방 비교표와 선택 기준

모델 SWE-bench Pro 입력 가격/1M 컨텍스트 선택 기준
Kimi K2.6 58.6% $0.95 256K 장시간 에이전트, 폴리글랏
GLM-5.1 58.4% ~$0.66 262K 무제한 상업 내장, 파인튜닝
MiniMax M2.7 56.2% $0.30 204K 최저 비용, 멀티모달
Qwen 3.6 Plus — (Terminal 61.6%) 1M 초대형 컨텍스트 필요 시

 

▲ 중국 오픈 웨이트 모델들은 GPT·Claude의 1/3~1/10 비용에 유사한 코딩 성능을 제공한다


6. 중국 모델이 무너뜨리는 AI 가격 방어선

"수개월 내에 중국 모델을 포함한 모든 모델이 Opus 4.6 수준 이상에 도달할 것이며,
더 낮은 가격에 제공될 가능성이 있다."

이미 많은 커뮤니티에서 예측한 부분이다.

 

Kimi K2.6은 SWE-bench Verified에서 Opus 4.6(80.8%)과 0.6포인트 차이(80.2%)이다.

  • GPT-5.5나 Opus 4.7처럼 $20/월 구독 없이,
  • API 가격 $0.95/M으로.
  • GLM-5.1은 MIT 라이선스로 기업이 자유롭게 내장할 수 있다.

현시점에서도 코딩 에이전트 비용이 가장 중요한 팀에게
Kimi K2.6 또는 MiniMax M2.7은 진지하게 고려할 선택지이다.


마치며

GPT-5.5와 Opus 4.7 사이의 선택이 지금 당장 가장 중요한 결정처럼 보이지만,
실제로 더 중요한 흐름은 오픈 웨이트 진영의 빠른 추격이다.

 

장기적으로 접근성·가격·사용 제한이 순수 성능보다 더 중요한 차별화 요소가 된다.
중국 4인방은 그 흐름에서 이미 다른 모델을 추월했다고 볼 수도 있다.


📎 참고 출처

반응형