Qwen3.6-Plus가 Terminal-Bench에서 Claude를 꺾었다, 그런데 왜 클로즈드소스인가

Alibaba가 에이전틱 코딩 특화 모델 Qwen3.6-Plus를 공개했습니다. Terminal-Bench 2.0에서 Claude Opus 4.5를 넘어섰지만, 오픈소스 명가의 클로즈드소스 전환이라는 논란도 함께 가져왔습니다.

Alibaba가 4월 2일 Qwen3.6-Plus를 공개했습니다. "Towards Real World Agents"를 표방하는 이 모델은 1M 토큰 컨텍스트 윈도우, 최대 65,536 출력 토큰, 항시 활성화 Chain-of-Thought 추론, 네이티브 함수 호출을 기본 탑재한 에이전틱 코딩 특화 모델입니다. Terminal-Bench 2.0에서 61.6점을 기록하며 Claude Opus 4.5(59.3점)를 넘어섰고, SWE-bench Verified에서도 78.8점으로 2.1점 차이까지 좁혔습니다.

그런데 이 모델에는 벤치마크 수치만큼이나 중요한 이야기가 숨어 있습니다. Qwen3.6-Plus는 Alibaba의 세 번째 연속 클로즈드소스 모델입니다. 6억 다운로드를 넘기며 오픈소스 생태계의 대명사로 자리잡았던 Qwen 팀이, 왜 갑자기 문을 닫기 시작한 걸까요?

Qwen 팀의 격동기, 그리고 전략 전환

이 출시의 배경을 이해하려면 한 달 전으로 돌아가야 합니다.

2026년 3월 4일, Qwen의 기술 리더 Junyang "Justin" Lin이 퇴임을 발표했습니다. Qwen을 초기 실험 프로젝트에서 글로벌 플랫폼으로 성장시킨 핵심 인물이었습니다. 동료 2명도 함께 떠났습니다. Bloomberg은 이를 "Alibaba가 AI 수익에 초점을 맞추기 위한 대대적 개편의 일환"이라고 보도했습니다.

"증가하는 상업적 압박 속에서 오픈소스 전략을 재고하는 신호입니다."

— Digitimes 분석

실제로 Qwen3.6-Plus는 이미지 생성 플랫폼, 멀티모달 모델에 이어 3일 연속 출시된 세 번째 클로즈드소스 모델입니다. 이전까지 Alibaba는 Qwen 시리즈의 오픈소스 공개를 통해 개발자 생태계를 구축해왔습니다. Airbnb가 ChatGPT 대신 Qwen을 선택할 정도로 영향력 있는 전략이었습니다. Bloomberg은 이번 전환을 "수익에 초점을 맞춘 세 번째 비공개 AI 모델"이라 평가했으며, 이는 단순히 한 모델의 라이선스 변경이 아니라 중국 AI 업계 전체의 수익화 압박을 반영합니다.

한편, 중국 빅테크들의 AI 코딩 에이전트 경쟁도 가열되고 있습니다. ByteDance는 Trae, Baidu는 Comate, Tencent는 CodeBuddy와 QClaw, Zhipu는 CodeGeex를 각각 내세우며 개발자 유치전을 벌이고 있습니다. Alibaba의 Qwen Code와 Qoder는 이 전쟁에서 에이전틱 코딩이라는 차별점을 내세운 셈입니다.

모델 스펙, 에이전틱 코딩을 위한 설계

Qwen3.6-Plus의 기술적 세부 사항을 살펴보겠습니다.

사양	내용
아키텍처	하이브리드 Gated DeltaNet + 희소 MoE
컨텍스트 윈도우	1,000,000 토큰
최대 출력 토큰	65,536 (평가 시 최대 80K)
추론 방식	항시 활성화 CoT (Chain-of-Thought)
함수 호출	네이티브 내장 (프롬프트 해킹 불필요)
신규 API	`preserve_thinking` — 턴 간 추론 맥락 유지
멀티모달	텍스트 + 비전 (문서, 이미지, 비디오)
API 호환성	OpenAI chat completions + Anthropic API
제공 리전	베이징, 싱가포르, 미국 (버지니아)

아키텍처는 하이브리드 Gated DeltaNet을 채택했습니다. 효율적 선형 어텐션과 희소 MoE(Mixture-of-Experts) 라우팅을 결합한 구조로, Qwen 3.5 대비 "효율 중심 설계"를 지향합니다. 추론 에너지 소비를 줄이면서 안정성을 유지하고 더 빠르게 결론에 도달하는 것이 목표입니다. 파라미터 수는 Alibaba의 공식 비공개 정책에 따라 공개되지 않았습니다.

핵심적인 에이전틱 기능은 다음과 같습니다:

1M 토큰 컨텍스트 윈도우: 대규모 코드베이스 전체를 한 번에 읽어들이는 것이 가능합니다
65,536 출력 토큰: Terminal-Bench 평가에서는 최대 80K까지 사용했습니다
항시 활성화 CoT(Chain-of-Thought): 추론이 선택 옵션이 아닌 기본 동작입니다
네이티브 함수 호출: 도구 사용이 프롬프트 해킹이 아닌 핵심 기능으로 내장되었습니다
preserve_thinking API: 대화 턴 간 추론 콘텐츠를 유지하는 새로운 API로, 에이전틱 태스크에서 목표 이탈을 방지합니다
멀티모달: 텍스트와 비전을 함께 처리하며, 문서 파싱, 물리 세계 시각 분석, 장편 비디오 추론을 지원합니다

API는 OpenAI 호환 chat completions와 Anthropic API 프로토콜 모두를 지원하며, 베이징, 싱가포르, 미국(버지니아) 리전에서 제공됩니다. 이미 Claude Code, Cline, OpenClaw, Kilo Code, OpenCode 등 주요 AI 코딩 에이전트 도구와 호환이 확인되었습니다.

Alibaba가 Qwen3.6-Plus를 단순히 "더 좋은 LLM"이 아닌 "에이전틱 기능이 핵심 기본 기능으로 탑재된 최초의 Qwen 모델"로 포지셔닝하고 있다는 점이 주목할 만합니다. 인지-추론-행동(perceive-reason-act) 루프를 단일 워크플로우 내에서 실행하도록 최적화했다는 것이 공식 설명입니다.

벤치마크 분석, 숫자가 말하는 것과 말하지 않는 것

벤치마크 결과를 자세히 들여다보겠습니다.

벤치마크 비교

Terminal-Bench 2.0 (높을수록 우수)

Qwen3.6-Plus

61.6

1위

Claude Opus 4.5

59.3

GLM-5

56.2

Kimi K2.5

50.8

SWE-bench Verified (높을수록 우수)

Claude Opus 4.5

80.9

1위

Qwen3.6-Plus

78.8

SWE-bench Pro (높을수록 우수)

Claude Opus 4.5

57.1

1위

Qwen3.6-Plus

56.6

Qwen3.6-Plus 공식 벤치마크 결과 — 언어 이해, 코딩, 수학 등 주요 지표 비교

코딩 에이전트 벤치마크

Terminal-Bench 2.0에서 Qwen3.6-Plus는 61.6점으로 Claude Opus 4.5(59.3점)를 2.3점 앞섰습니다. 평가 조건은 3시간 타임아웃, 32 CPU/48GB RAM, 256K 컨텍스트, 5회 평균이었습니다. GLM-5(56.2점), Kimi K2.5(50.8점)와의 격차도 상당합니다.

SWE-bench Verified에서는 78.8점으로 Claude Opus 4.5(80.9점)에 2.1점 뒤졌지만, 역대 Qwen 모델 중 가장 좁은 격차입니다. SWE-bench Pro에서도 56.6점으로 Claude Opus 4.5(57.1점)와 0.5점 차이를 보여, 코딩 에이전트 영역에서 프론티어 모델과의 간극이 급격히 좁아지고 있음을 확인할 수 있습니다. SWE-bench Multilingual에서는 73.8점으로, 이 벤치마크에서는 Gemini 3 Pro(77.5점)가 선두를 달리고 있습니다.

멀티모달과 범용 성능

코딩 외 영역에서도 강점을 보입니다. OmniDocBench v1.5에서 91.2점(Claude Opus 4.5: 87.7점), RealWorldQA에서 85.4점(Claude Opus 4.5: 77.0점)으로 문서 파싱과 실세계 이해 능력에서 앞섰습니다. MMMU(86.0점)와 Video-MME(87.8점)에서는 Gemini 3 Pro에 약간 뒤처지는 모습입니다.

제3자 평가가 드러낸 약점

하지만 BridgeBench 등 제3자 평가에서는 다른 그림이 나타납니다.

처리량은 158 tok/s로 Claude Opus 4.6의 93.5 tok/s 대비 1.7배 빠릅니다. 그러나 무료 티어에서의 TTFT(Time To First Token)는 11,520ms로, 실시간 반복 작업에는 불리한 수치입니다. UI 생성에서는 80.2점으로 GPT-5.4에 이어 2위를 기록했습니다.

진짜 우려스러운 부분은 보안입니다. 보안 벤치에서 43.3%를 기록했는데, GPT-5.4 Mini(87.3%)와 Claude Sonnet 4.5(87.2%)의 절반 수준입니다. 코드 추론 환각률도 26.5%로 주의가 필요합니다. 에이전틱 코딩에서 보안과 정확성은 성능만큼이나 중요한 요소라는 점에서, 이 수치들은 프로덕션 배포 전 반드시 개선되어야 할 과제입니다.

벤치마크 비교 대상 논란

여기서 한 가지 짚고 넘어가야 할 점이 있습니다. Alibaba는 벤치마크 비교 대상으로 Claude Opus 4.5를 사용했습니다. 그러나 발표 시점 기준 최신 버전은 Claude Opus 4.6입니다. Opus 4.6은 두 달 전에 이미 출시되었습니다. HN 커뮤니티에서 이를 "의도적 오해 유발"이라 비판한 것은 당연한 반응입니다.

실제 경쟁 구도에서 Qwen3.6-Plus가 현재 최신 프론티어 모델들과 어떤 위치에 있는지는, Opus 4.6 기준의 독립적인 벤치마크 결과가 나온 후에야 정확히 평가할 수 있을 것입니다.

개발자에게 어떤 의미인가

모델	접근 방식	가격	비고
Qwen3.6-Plus	OpenRouter	무료	프리뷰 기간 한정
Qwen3.6-Plus	Qwen Code	무료	일 1,000회 무료 호출
Claude Opus 4.5	Anthropic API	유료	입력 $15 / 출력 $75 per M
GPT-4o	OpenAI API	유료	입력 $2.5 / 출력 $10 per M

무료 API의 파괴력

가장 직접적인 영향은 가격입니다. Qwen3.6-Plus는 현재 OpenRouter에서 완전 무료로 제공됩니다. 모델 ID는 qwen/qwen3.6-plus-preview:free입니다. Qwen Code에서도 일일 1,000회 무료 호출이 가능합니다. 프리뷰 기간 한정이지만, 공개 이틀 만에 약 40만 건의 요청과 4억 토큰 이상이 처리되었다는 것은 개발자들의 관심이 상당하다는 뜻입니다.

이것은 코딩 에이전트의 비용 구조에 직접적인 영향을 줍니다. 멀티 에이전트 시스템에서 비싼 SOTA 모델을 메인 에이전트로 두고, 저렴한(또는 무료인) Qwen3.6-Plus를 서브 에이전트로 활용하는 전략이 HN에서 활발히 논의되고 있습니다. 프론티어 모델보다 한 단계 아래라 하더라도, 비용 대비 충분한 성능을 제공한다면 서브 에이전트로서의 가치는 충분합니다.

실무 적용 시 주의점

하지만 무료라는 매력에 앞서 몇 가지 현실적인 문제를 인식해야 합니다.

첫째, 보안 벤치 43.3%라는 수치는 프로덕션 환경에서 이 모델이 생성한 코드를 무비판적으로 수용할 수 없다는 뜻입니다. 코드 리뷰 없이 Qwen3.6-Plus의 출력을 배포하는 것은 위험합니다.

둘째, 코드 추론 환각률 26.5%도 경계해야 합니다. 네 번에 한 번꼴로 잘못된 추론을 한다는 것은, 특히 복잡한 디버깅 작업에서 오히려 시간을 잡아먹을 수 있습니다. HN에서도 "지시를 일관되게 무시한다", "Sonnet보다 환각이 훨씬 많다"는 보고가 나오고 있습니다.

셋째, 무료 티어의 TTFT 11.5초는 빠른 반복이 필요한 개발 워크플로에서 체감 속도를 크게 떨어뜨립니다. 처리량 자체는 158 tok/s로 빠르지만, 첫 응답까지 11초를 기다려야 한다면 인터랙티브한 코딩 세션에서의 경험은 좋지 않을 것입니다.

호환 생태계

긍정적인 측면도 있습니다. OpenAI와 Anthropic API 프로토콜 모두와 호환되므로, 기존 도구 체인에 드롭인으로 투입할 수 있습니다. Claude Code, Cline, OpenClaw, Kilo Code, OpenCode 등 주요 코딩 에이전트에서 바로 사용할 수 있다는 점은 실험 진입 장벽을 크게 낮춥니다.

또한 Alibaba는 우공(Wukong) 플랫폼에 Qwen3.6-Plus를 핵심 모델로 통합하여, 복수 AI 에이전트를 활용한 엔터프라이즈 태스크 자동화를 제공합니다. 단순 API가 아닌 플랫폼 수준의 생태계를 구축하려는 전략입니다.

커뮤니티 반응, 기대와 회의 사이

Hacker News에서 이 뉴스는 70포인트, 30여 개의 댓글을 기록하며 활발한 토론이 이어졌습니다.

👍긍정적 반응

•비용 절감과 충분한 품질을 동시에 제공
•1M 컨텍스트로 대규모 코드베이스 처리 가능
•SOTA 모델의 서브 에이전트로 활용 전략
•도구 호출 일관성 Qwen 3.5 대비 개선

👎비판적 반응

•Opus 4.6이 있는데 4.5 비교 — "의도적 오해"
•실사용 처리량 15-30 tok/s, 공식 발표와 괴리
•지시 무시·환각이 Sonnet보다 많다는 보고
•클로즈드소스 전환은 "광고용 오픈소스"였다는 비판

긍정적 평가

가격 대비 성능에 대한 인정이 두드러집니다.

"프론티어보다 한 단계 아래지만, 비용 절감과 함께 충분한 품질을 제공합니다."

"B 티어 모델이 6개월 뒤처져 있다는 것 자체가 좋은 신호입니다."

멀티 에이전트 구성에서의 활용 가능성에 대한 기술적 논의도 활발했습니다. 비싼 SOTA 모델의 서브 에이전트로 활용하는 비용 최적화 전략, 1M 컨텍스트 윈도우 확장에 YaRN을 활용한 사례, Qwen 3.5 대비 멀티스텝 에이전트에서 재시도 횟수가 감소하고 도구 호출 일관성이 개선되었다는 보고가 나왔습니다.

비판적 시선

반면 날카로운 비판도 있었습니다.

벤치마크 비교 대상에 대한 불만이 가장 컸습니다. Opus 4.6이 두 달 전에 나왔는데 왜 4.5와 비교하는지에 대해, "오해를 유발하려는 의도 외에 이유가 없다"는 반응이 나왔습니다.

실사용 신뢰성에 대한 우려도 큽니다. 도구 호출 오류가 빈번하다는 보고, 무료 티어에서 처리량 15-30 tok/s로 "평범"하다는 평가가 있었습니다. 공식 발표의 158 tok/s와 실사용 체감 사이의 괴리가 존재하는 셈입니다.

클로즈드소스 전환에 대한 비판도 직설적이었습니다.

"작은 모델을 무료로 풀어준 건 광고였지, 관대해서가 아니었습니다."

오픈소스 생태계에서 Qwen이 누렸던 신뢰가 이 전환으로 인해 어떤 영향을 받을지는 지켜봐야 할 부분입니다.

에이전틱 코딩 시장의 새 판짜기

Qwen3.6-Plus의 출시가 가리키는 방향은 몇 가지로 정리할 수 있습니다.

첫째, 에이전틱 코딩의 주류화가 가속됩니다. 에이전틱 기능을 "추가 옵션"이 아닌 "핵심 기본 기능"으로 탑재한 모델이 등장했다는 것은, 이제 AI 코딩 도구 시장에서 에이전틱 능력이 기본 경쟁 요소가 되었다는 뜻입니다. Claude Code, Cursor, Copilot 모두 이 방향으로 진화하고 있으며, Qwen3.6-Plus의 무료 전략은 이 경쟁을 더욱 가열시킬 것입니다.

둘째, 프리뷰 종료 후 가격 정책이 관건입니다. 현재 무료는 프리뷰 기간 한정입니다. 정식 출시 시 어떤 과금 모델을 적용할지에 따라 시장 영향이 크게 달라집니다. 무료 기간에 개발자를 유인한 후 유료 전환하는 것은 클라우드 비즈니스의 전형적 전략이지만, 전환 시점의 가격이 경쟁력을 좌우합니다.

셋째, 오픈소스 Qwen의 미래에 물음표가 붙었습니다. 기술 리더 퇴임과 3연속 클로즈드소스 출시는 명확한 전략 전환의 신호입니다. Qwen 오픈소스 모델에 의존하는 프로젝트와 기업들은 대안을 준비해야 할 수 있습니다. 물론 Alibaba가 오픈소스를 완전히 포기했다고 단정하기는 이릅니다. 하지만 최소한 플래그십 모델의 오픈소스 공개는 더 이상 기본값이 아닙니다.

넷째, 보안과 환각률이 에이전틱 코딩의 핵심 과제로 떠오릅니다. Qwen3.6-Plus의 보안 벤치 43.3%, 환각률 26.5%는 이 모델만의 문제가 아닙니다. AI가 자율적으로 코드를 작성하고 실행하는 에이전틱 코딩에서, 보안과 정확성은 벤치마크 점수만큼이나 중요한 신뢰의 조건입니다. 이 영역에서의 개선 없이는 에이전틱 코딩의 프로덕션 채택에 한계가 있을 것입니다.

에이전틱 코딩 시장은 이제 성능만의 경쟁이 아닙니다. 가격, 보안, 생태계 개방성, 실사용 안정성이 모두 복합적으로 작용하는 다차원 경쟁으로 진화하고 있습니다. Qwen3.6-Plus는 이 경쟁의 복잡성을 한 모델 안에서 보여주는 흥미로운 사례입니다. Terminal-Bench 1위라는 성과와 클로즈드소스 전환이라는 논란, 무료 API라는 파격과 보안 취약점이라는 그림자가 공존합니다.

우리가 주목해야 할 것은 하나의 벤치마크 순위가 아니라, 이 출시가 보여주는 AI 코딩 시장의 구조적 변화입니다.