2개 H100의 Command A+, 소버린 AI의 비용 문턱

Cohere Command A+는 Apache 2.0 오픈소스 모델로 엔터프라이즈 에이전트와 소버린 AI 배포 비용을 정면으로 겨냥합니다.

AI 요약

무슨 일: Cohere가 Command A+를 Apache 2.0 라이선스로 공개했습니다.
- 218B total, 25B active의 MoE 모델이며 W4A4 기준 2개 H100 또는 1개 B200에서 실행 가능하다고 설명합니다.
핵심 숫자: 128K 입력, 64K 출력, 48개 언어, text/image/tool use를 한 모델에 묶었습니다.
의미: 오픈 모델 경쟁이 점수표보다 기업이 직접 운영할 수 있는 비용과 권한으로 이동합니다.
- 한국어 토큰 효율 16% 개선 주장도 있어 다국어 업무용 에이전트 비용 논쟁과 직접 연결됩니다.
주의점: 128K 컨텍스트와 대형 MoE의 실제 운영성은 커뮤니티 검증을 더 기다려야 합니다.

Cohere가 2026년 5월 20일 Command A+를 공개했습니다. 발표 문장만 보면 익숙한 모델 릴리스처럼 보입니다. 더 빠르고, 더 강하고, 더 많은 언어를 지원하고, 더 나은 에이전트 작업을 한다는 식입니다. 하지만 이번 소식의 핵심은 벤치마크 숫자 하나가 아니라 배포 조건입니다. Cohere는 이 모델을 Apache 2.0 라이선스로 공개했고, Hugging Face에 BF16, FP8, W4A4 양자화 버전을 올렸으며, W4A4 기준 최소 2개 H100 또는 1개 B200에서 실행할 수 있다고 설명합니다.

이 숫자가 중요한 이유는 간단합니다. 2026년의 AI 경쟁은 "누가 가장 똑똑한가"에서 "누가 실제 업무 데이터 안으로 들어갈 수 있는가"로 이동하고 있습니다. 금융, 공공, 제약, 제조, 통신 같은 산업은 모델 성능만으로 움직이지 않습니다. 데이터가 어디에 머무는지, 로그와 권한을 누가 보는지, 추론 비용이 예측 가능한지, 에이전트가 도구를 호출할 때 어떤 감사 경계가 남는지가 더 중요해집니다. Cohere가 계속 강조해 온 "sovereign AI"는 그래서 추상적인 정치 구호가 아니라 조달, 보안, 비용, 운영의 언어에 가깝습니다.

이번 Command A+는 그 전략을 모델 계층에서 다시 밀어붙입니다. Cohere는 이 모델이 218B total parameters와 25B active parameters를 가진 sparse Mixture-of-Experts 모델이라고 밝혔습니다. 한 번에 전체 218B를 모두 쓰는 dense 모델이 아니라, 토큰마다 일부 전문가만 활성화해 계산량을 줄이는 방식입니다. 이것이 발표의 첫 번째 후킹 포인트입니다. "218B급 모델"이라는 체급과 "25B active"라는 운영 비용의 언어가 동시에 등장합니다.

218B

총 파라미터

25B

활성 파라미터

지원 언어

2×

H100 최소 구성

왜 지금 Command A+인가

Cohere는 최근 몇 달 동안 엔터프라이즈 쪽으로 선명하게 움직였습니다. North는 기업용 AI 업무 공간이고, Compass는 엔터프라이즈 검색과 발견 시스템이며, Command 계열은 생성 모델, Embed와 Rerank는 검색 증강 생성의 기반입니다. 여기에 5월에는 Reliant AI를 인수하며 제약·생명과학 문헌 분석과 규제 산업 워크플로를 강화했습니다. Command A+는 이 흐름의 다음 조각입니다. 애플리케이션과 검색 계층만 잡는 것이 아니라, 그 아래에서 실제로 추론하는 모델도 기업이 직접 잡을 수 있게 하겠다는 방향입니다.

오픈 모델 시장의 배경도 달라졌습니다. Qwen, Mistral, DeepSeek, Z.ai, Reflection AI 같은 이름들이 이미 공개 모델과 오픈 웨이트 모델의 기대치를 끌어올렸습니다. 이제 "오픈"이라는 말만으로는 부족합니다. 라이선스가 상업적으로 쓸 수 있는지, vLLM이나 Transformers 같은 익숙한 런타임에서 돌아가는지, 양자화 버전이 실제로 제공되는지, 긴 문맥과 도구 호출이 에이전트 워크플로에 맞게 설계됐는지가 같이 평가됩니다.

Cohere의 발표는 이 질문에 맞춰져 있습니다. Command A+는 Apache 2.0 라이선스, vLLM과 Transformers 지원, Hugging Face 배포, 128K input context, 64K max generation, text와 image 입력, tool use, reasoning output을 전면에 세웁니다. 모델을 API로만 호출하는 고객이 아니라, 모델을 자기 환경에서 운영하고 싶어 하는 팀을 겨냥합니다.

218B 모델을 25B처럼 쓰는 계산

Command A+의 가장 흥미로운 부분은 dense 모델 경쟁과 다른 문법입니다. Cohere는 모델 크기를 218B total, 25B active로 표기합니다. Hugging Face 모델 카드에 따르면 Command A+는 decoder-only sparse MoE Transformer이며 128개 experts 중 8개가 토큰마다 활성화되고, 모든 토큰에 shared expert가 적용됩니다. attention layer는 sliding-window attention과 global attention을 섞어 사용합니다.

이 설계는 모델을 작게 만든다는 뜻이 아닙니다. 운영자가 다뤄야 할 전체 가중치와 메모리 문제는 여전히 큽니다. 다만 추론 시 실제로 활성화되는 계산량을 줄여, 대형 모델의 일부 장점을 유지하면서 latency와 처리량을 관리하려는 접근입니다. Cohere가 W4A4 양자화를 강조하는 것도 같은 맥락입니다. 발표에 따르면 Command A+는 BF16, FP8, W4A4로 제공되며, W4A4는 1개 B200 또는 2개 H100에서 실행 가능한 최소 구성을 목표로 합니다.

Hugging Face 모델 카드에는 조금 더 구체적인 구현 조건이 적혀 있습니다. W4A4 버전은 vLLM >=0.21.0이 필요하고, 정확한 응답 파싱과 도구 호출 처리를 위해 Cohere의 cohere_melody 라이브러리를 설치하라고 안내합니다. 이것은 "그냥 다운로드해서 노트북에서 돌리는" 종류의 오픈 모델은 아니라는 뜻입니다. 2개 H100은 개인 개발자에게는 여전히 높은 문턱입니다. 그러나 엔터프라이즈나 공공 기관 입장에서는 완전히 다른 계산서가 됩니다. 매 호출을 외부 API로 보내는 대신, 내부 GPU 자원 위에 모델을 올리고 권한, 로그, 데이터 경계를 통제할 수 있기 때문입니다.

vllm serve CohereLabs/command-a-plus-05-2026-w4a4 \
  -tp 1 \
  --tool-call-parser cohere_command4 \
  --reasoning-parser cohere_command4 \
  --enable-auto-tool-choice

위 예시는 Hugging Face 모델 카드가 안내하는 vLLM 실행 형태입니다. 중요한 부분은 모델 호출보다 주변 옵션입니다. tool call parser, reasoning parser, auto tool choice가 같이 붙어 있습니다. Command A+가 단순 채팅 모델이 아니라 도구 호출과 추론 흔적을 포함한 에이전트 실행을 염두에 둔 모델이라는 신호입니다.

벤치마크보다 업무형 지표를 앞세운 발표

Cohere는 Command A+가 이전 Command A 계열을 통합한다고 설명합니다. Command A, Command A Reasoning, Command A Vision, Command A Translate로 나뉘던 능력을 하나의 모델에 모았다는 주장입니다. 발표에 따르면 Command A+는 reasoning, multimodal, tool use, multilingual을 모두 지원하고, 지원 언어 수는 23개에서 48개로 늘었습니다. 한국어도 Hugging Face 모델 카드의 지원 언어 목록에 포함됩니다.

공식 발표의 벤치마크 이미지는 Cohere가 어디를 강조하는지 잘 보여줍니다.

Command A+와 Command A Reasoning 벤치마크 비교

발표 기준으로 Command A+는 Command A Reasoning 대비 Tau2-Bench Telecom에서 37%에서 85%로, Terminal-Bench Hard에서 3%에서 25%로 올랐습니다. IFBench는 36%에서 74%, AIME 25는 57%에서 90%, SciCode는 30%에서 38%로 개선됐다고 제시됩니다. 수치만 보면 "이전 세대보다 좋아졌다"는 평범한 이야기처럼 보일 수 있습니다. 그러나 Cohere가 선택한 지표는 꽤 노골적입니다. 통신 업무 시뮬레이션, 터미널 작업, instruction following, 수학, 과학 코딩이 섞여 있습니다. 채팅 모델의 일반 상식보다 에이전트가 실제 도구와 업무 흐름 안에서 버티는지를 보여주려는 구성입니다.

North 내부 평가도 같은 방향입니다. Cohere는 Command A+가 North 애플리케이션에서 Agentic Question Answering 정확도와 spreadsheet analysis quality를 각각 20%, 32% 개선했고, memory usage quality는 Command A Reasoning의 39%에서 Command A+의 54%로 올랐다고 밝혔습니다. 이 평가는 LLM-as-a-judge 방식이라고 명시되어 있어 독립 벤치마크처럼 받아들이면 안 됩니다. 하지만 Cohere가 스스로 어떤 문제를 풀고 있다고 보는지는 분명합니다. 기업 문서, 스프레드시트, 메모리, MCP로 연결된 파일 시스템, 이전 대화와 저장 데이터 위에서 이어지는 업무입니다.

한국어 16% 토큰 효율이라는 작은 숫자의 의미

Command A+ 발표에서 눈에 띄는 또 하나의 숫자는 토크나이저입니다. Cohere는 새 토크나이저가 이전 모델 대비 같은 응답을 더 적은 토큰으로 표현하며, Arabic 20%, Korean 16%, Japanese 18%의 토큰 효율 개선을 냈다고 설명합니다. 이 부분은 한국 독자에게 꽤 실무적입니다.

대부분의 모델 비교는 영어 벤치마크와 영어 비용표에 기대는 경향이 있습니다. 하지만 실제 한국어 고객 지원, 내부 문서 검색, 계약서 분석, 공공 민원, 의료·제약 문서 요약에서는 토큰화 효율이 비용과 지연시간에 직접 닿습니다. 같은 문장을 처리하는 데 필요한 토큰 수가 줄면, 입력 컨텍스트를 더 많이 담거나 같은 작업을 더 낮은 비용으로 반복할 여지가 생깁니다. 특히 에이전트는 한 번 답하고 끝나는 구조가 아닙니다. 계획, 검색, 도구 호출, 재검토, 요약, 후속 질의가 이어집니다. 토큰 효율 16%는 단일 프롬프트에서는 작아 보일 수 있지만, 장시간 워크플로에서는 누적됩니다.

물론 이 숫자 역시 Cohere의 자체 비교입니다. 실제 한국어 업무 문서에서 어떤 품질과 비용 차이가 나는지는 별도로 확인해야 합니다. 한국어 토큰 수가 줄어도 retrieval 품질, 표와 이미지 이해, 도구 호출 안정성, 존댓말·업무 문체 일관성이 같이 좋아진다는 보장은 없습니다. 다만 공개 모델이 한국어 비용을 별도 강조했다는 점은 의미가 있습니다. 영어권 모델 경쟁이 다국어 운영 비용의 문제로 내려오고 있다는 신호이기 때문입니다.

소버린 AI는 정치보다 운영의 문제

Cohere가 반복하는 "sovereign AI"는 쉽게 과장될 수 있는 표현입니다. 국가별 AI 독립성, 공공 데이터 통제, 규제 산업의 데이터 주권 같은 큰 말로 포장되기 쉽습니다. 하지만 개발자와 AI 플랫폼 팀 입장에서 더 현실적인 질문은 네 가지입니다.

첫째, 모델을 어디서 실행할 수 있습니까. Command A+는 Hugging Face와 Model Vault 양쪽 경로를 제시합니다. 자체 배포와 관리형 프라이빗 추론을 모두 열어 두는 셈입니다.

둘째, 라이선스가 무엇입니까. Apache 2.0은 기업이 검토하기 쉬운 라이선스입니다. 제한적 연구 라이선스나 비상업 조항이 붙은 모델과는 조달의 마찰이 다릅니다.

셋째, 기존 런타임과 얼마나 붙습니까. vLLM, Transformers, SGLang, Docker Model Runner 지원은 "모델은 좋지만 운영 스택이 낯설다"는 문제를 줄입니다.

넷째, 도구 호출과 감사 가능성이 있습니까. Command A+는 tool use와 reasoning, JSON schema 기반 도구 설명을 모델 카드에서 강조합니다. 에이전트가 API, 데이터베이스, 검색 엔진을 호출하는 상황에서는 자연어 답변보다 호출 구조와 로그가 더 중요해집니다.

이 네 가지를 묶으면 Command A+의 위치가 보입니다. 이것은 소비자 챗봇의 기본 모델을 바꾸려는 발표가 아닙니다. 기업이 "우리 데이터가 밖으로 나가면 안 된다", "우리 GPU에서 돌려야 한다", "우리 도구 호출 로그가 남아야 한다", "영어 외 언어 비용도 예측해야 한다"고 말할 때 선택지 하나를 더 늘리는 발표입니다.

오픈소스라는 말의 온도차

흥미로운 점은 커뮤니티 반응이 마냥 뜨겁지만은 않다는 것입니다. LocalLLaMA에는 Hugging Face 링크가 당일 공유됐고, Apache 2.0 공개와 Cohere의 이전 Command R/A 계열을 반기는 반응이 있었습니다. 하지만 회의도 분명합니다. 128K 컨텍스트가 이전 Command A의 256K보다 짧다는 지적, 218B total 모델이 일반 로컬 사용자에게는 여전히 무겁다는 반응, 차라리 Command A Reasoning 자체를 Apache 2.0으로 공개했으면 더 넓게 채택됐을 것이라는 의견이 나왔습니다.

이 반응은 중요합니다. "오픈소스 모델"이라는 말은 이제 하나의 시장을 설명하기에 너무 넓어졌습니다. MacBook에서 돌릴 수 있는 소형 모델, 24GB VRAM에서 긴 문맥을 다루는 모델, 2개 H100을 요구하지만 상업 배포가 쉬운 엔터프라이즈 모델, 연구용 공개 웨이트 모델은 서로 다른 기대를 받습니다. Command A+는 명백히 세 번째 쪽에 가깝습니다. 개인 로컬 LLM 커뮤니티의 기대와 기업 AI 인프라 팀의 기대가 갈릴 수밖에 없습니다.

그래서 이번 발표를 "오픈 모델의 대중화"로만 읽으면 절반만 보는 셈입니다. 더 정확한 표현은 "오픈 모델의 엔터프라이즈화"입니다. 공개는 됐지만 가볍지는 않습니다. 상업적으로 쓰기 쉽지만, 운영하려면 GPU와 런타임 역량이 필요합니다. 모델 성능을 강조하지만, 실제 메시지는 보안·비용·권한·배포입니다.

API 밖으로 나가는 에이전트 경쟁

최근 AI 에이전트 경쟁은 모델 API 안에서만 벌어지지 않습니다. Google은 Gemini API Managed Agents로 격리된 클라우드 샌드박스와 상태 보존 에이전트를 강조했습니다. Anthropic은 Stainless 인수로 SDK와 MCP 서버 생성, API 연결 배관을 끌어안았습니다. OpenAI는 Codex와 workspace agents를 통해 장시간 업무와 개발 워크플로를 플랫폼화하고 있습니다. 여기에 Cohere는 "그 모델을 네 환경에서 돌릴 수 있느냐"라는 질문을 던집니다.

이 경쟁 구도에서 Command A+의 상대는 단순히 Qwen이나 Mistral만이 아닙니다. 관리형 frontier API, 클라우드별 private endpoint, 기업용 agent platform, open-weight model serving stack이 모두 비교 대상입니다. 어떤 팀은 Claude나 Gemini의 최신 능력을 API로 쓰는 것이 더 합리적일 수 있습니다. 어떤 팀은 민감한 데이터와 규제 때문에 self-hosted open model을 고집해야 할 수 있습니다. 또 어떤 팀은 둘을 섞어 라우팅할 것입니다. 고난도 추론은 frontier API로 보내고, 반복적인 내부 문서 처리와 도구 호출은 자체 모델로 처리하는 방식입니다.

Command A+는 후자의 시나리오를 더 설득력 있게 만들려 합니다. 48개 언어, multimodal document processing, RAG, tool use, reasoning, 128K context는 모두 기업 내부 지식 작업의 재료입니다. "소버린 AI"라는 말은 크지만, 실제 현장에서는 "이 PDF 묶음과 스프레드시트를 외부로 보내지 않고 에이전트가 처리할 수 있느냐"라는 작은 질문으로 바뀝니다.

아직 확인해야 할 것들

Command A+의 발표에는 강한 주장과 신중하게 봐야 할 지점이 같이 있습니다. 먼저 성능 수치는 대부분 Cohere가 제시한 값입니다. Artificial Analysis Intelligence Index에서 37점을 받았다는 언급도 있지만, 실제 개발자가 궁금해할 것은 자기 워크로드에서의 안정성입니다. 특히 도구 호출 모델은 벤치마크 점수보다 실패 양상이 더 중요합니다. 잘못된 도구를 고르는지, JSON schema를 얼마나 안정적으로 따르는지, 긴 대화에서 이전 결정을 잊지 않는지, retrieval 결과와 자기 추론을 어떻게 구분하는지가 관건입니다.

두 번째는 하드웨어 문턱입니다. 2개 H100은 클라우드 API 비용을 줄이고 싶은 기업에는 현실적인 숫자일 수 있지만, 오픈소스 커뮤니티 전체에는 부담입니다. W4A4 양자화가 "거의 품질 저하 없음"을 주장하더라도, reasoning-heavy 모델은 낮은 비트 양자화에서 미세한 오류가 긴 추론 경로에 누적될 수 있습니다. Cohere도 모델 카드에서 reasoning 모델은 양자화 손실에 민감하다고 설명하며, MoE experts만 선택적으로 양자화하고 attention path와 KV cache 등은 full precision으로 둔다고 적었습니다. 이 설계가 실제 다양한 업무에서 얼마나 견고한지는 시간이 필요합니다.

세 번째는 컨텍스트입니다. 128K 입력은 충분히 길지만, 일부 커뮤니티 사용자는 이전 Command A의 256K와 비교해 아쉽다는 반응을 보였습니다. 엔터프라이즈 RAG에서는 모든 것을 긴 컨텍스트에 넣는 방식보다 검색, 요약, 메모리, 권한 필터링이 더 중요할 수 있습니다. 그래도 "긴 문서 묶음 전체를 한 번에 넣고 싶다"는 사용 사례에서는 128K가 경쟁 모델 대비 강점인지 약점인지 따져봐야 합니다.

개발자에게 남는 실무 질문

AI 개발자와 플랫폼 팀이 이번 발표에서 바로 가져갈 질문은 명확합니다.

첫째, 우리 조직의 AI 비용 병목은 모델 가격입니까, 데이터 이동 제한입니까, GPU 운영 역량입니까. Command A+는 세 번째 역량이 있는 조직에 더 큰 의미가 있습니다.

둘째, 에이전트가 호출하는 도구가 얼마나 민감합니까. CRM, ERP, 데이터베이스, 코드 저장소, 문서 저장소가 연결된다면 모델이 어디서 실행되는지가 중요해집니다.

셋째, 다국어 비용이 실제 문제입니까. 한국어, 일본어, 아랍어처럼 토큰화 효율이 비용에 영향을 주는 언어를 많이 다룬다면 Command A+의 토크나이저 개선 주장은 검증할 가치가 있습니다.

넷째, 공개 모델을 운영할 때 책임 경계는 누가 집니까. API 제공자가 모델 업데이트, 보안 패치, serving 안정성을 책임지는 구조와 달리, 자체 배포는 더 많은 통제와 더 많은 운영 책임을 동시에 가져옵니다.

모델 공개가 아니라 배포권 공개

Command A+를 가장 짧게 요약하면 "Cohere가 엔터프라이즈 에이전트용 모델의 배포권을 열었다"는 말에 가깝습니다. 오픈소스라는 단어는 맞지만, 이 발표의 온도는 취미용 로컬 모델보다 기업 인프라에 가깝습니다. Apache 2.0 라이선스, 2개 H100 최소 구성, 48개 언어, 128K 입력, tool use, vLLM/Transformers 지원은 모두 같은 방향을 가리킵니다. 모델을 빌려 쓰는 단계에서 모델을 운영하는 단계로 넘어가려는 팀을 겨냥합니다.

그렇다고 곧바로 판정할 수는 없습니다. 실제 도구 호출 품질, 한국어 업무 문서 성능, W4A4 양자화 안정성, 긴 에이전트 루프에서의 기억과 일관성은 독립 검증이 필요합니다. 다만 이번 발표가 던지는 질문은 선명합니다. 기업 AI가 점점 더 많은 내부 시스템을 만질수록, "가장 강한 모델"만큼이나 "내가 통제할 수 있는 모델"이 중요해집니다. Command A+는 그 문턱을 2개 H100이라는 숫자로 제시했습니다. 이제 남은 것은 그 비용이 충분히 낮은지, 그리고 그 통제가 실제 업무에서 frontier API의 편리함을 이길 만큼 가치 있는지 확인하는 일입니다.