Devlery
Blog/LLM

Mistral Small 4 — 세 모델을 하나로 통합한 오픈소스 AI의 역습

Mistral AI가 추론, 비전, 코딩 3개 특화 모델을 119B MoE 하나로 통합했습니다. 활성 파라미터 6B, Apache 2.0, $0.15/M 토큰. AI 모델 파편화 시대의 종말을 알리는 통합 전략을 분석합니다.

AI 개발자라면 이런 경험이 있을 것입니다. 추론 작업에는 이 모델, 이미지 분석에는 저 모델, 코드 생성에는 또 다른 모델을 써야 하는 상황. 프로젝트 하나에 3-4개의 API 키가 필요하고, 각 모델의 가격과 성능 특성을 모두 파악해야 합니다. 모델 파편화(model fragmentation) 라고 불리는 이 현상은 2025년 내내 AI 개발의 숨겨진 비용이었습니다.

3월 16일, Mistral AI가 이 문제에 대한 답을 내놓았습니다. Mistral Small 4 — 추론의 Magistral, 비전의 Pixtral, 코딩의 Devstral, 이 세 가지 특화 모델 라인을 하나의 119B 파라미터 MoE 모델로 통합한 것입니다.

토큰당 활성 파라미터는 6B에 불과합니다. 가격은 입력 $0.15/M, 출력 $0.60/M. 그리고 Apache 2.0 오픈소스입니다. 프랑스 AI 스타트업이 실리콘밸리 거인들의 모델 파편화 전략에 정면으로 도전장을 내밀었습니다.

세 모델을 하나로 — 왜 지금인가

Mistral AI의 모델 전략은 그동안 점점 복잡해져 왔습니다. 2025년에만 해도 사용자는 용도별로 다른 모델을 선택해야 했습니다.

  • Magistral — 수학, 논리, 복잡한 추론이 필요할 때
  • Pixtral — 이미지 분석, 문서 파싱, 시각 정보 처리가 필요할 때
  • Devstral — 에이전틱 코딩, 소프트웨어 엔지니어링이 필요할 때

각 모델이 자신의 영역에서는 강했지만, 실무에서는 문제가 됐습니다. 하나의 작업이 추론, 비전, 코딩을 동시에 요구하는 경우가 점점 늘어났기 때문입니다. 문서 이미지를 분석하고, 그 내용을 논리적으로 추론하여, 코드로 구현해야 하는 작업 — 이런 멀티모달 + 멀티스킬 작업은 모델 전환 없이 처리하는 것이 이상적입니다.

이것은 Mistral만의 문제가 아닙니다. OpenAI도 GPT-4o, o-series, Codex를 별도로 운영하고, Google도 Gemini 라인업을 용도별로 세분화하고 있습니다. "하나의 모델이 모든 것을 할 수 있어야 한다" 는 욕구와 "특화 모델이 더 잘한다" 는 현실 사이의 긴장은 업계 전체의 과제입니다.

Mistral Small 4는 이 긴장을 MoE(Mixture of Experts) 아키텍처로 해결합니다.

기술적 해부 — 128개 전문가, 4개만 작동

119B

총 파라미터

6B 활성 / 토큰

🧠

128개

전문가 · 4개 활성/토큰

📏

256K

컨텍스트 · 토큰

📜

Apache 2.0

라이선스 · 오픈소스

💰

$0.15

입력 · /M 토큰

💸

$0.60

출력 · /M 토큰

🔧

none↔high

추론 조절 · reasoning_effort

Magistral

추론

Pixtral

비전

Devstral

코딩

→ 통합

119B 총 파라미터, 6B 활성. Mistral Small 4의 MoE 구조는 128개의 전문가(expert) 네트워크를 가지고 있으며, 각 토큰이 처리될 때 4개만 활성화됩니다. 이것은 극한의 효율을 만듭니다 — 119B 규모의 지식을 가지면서도, 실제 계산 비용은 6B 모델 수준인 것입니다.

비유하자면, 128명의 전문가가 대기하는 대형 병원입니다. 환자(토큰)가 들어오면 증상에 맞는 4명의 전문가만 진료합니다. 추론이 필요하면 추론 전문가들이, 이미지 분석이 필요하면 비전 전문가들이, 코드가 필요하면 코딩 전문가들이 활성화됩니다. 나머지 124명은 대기 상태입니다. 전체 인력 대비 실제 진료 비용은 3%에 불과하지만, 병원의 전문성은 128명 전체의 것입니다.

256K 컨텍스트 윈도우. 이전 Mistral Small 3의 컨텍스트 대비 크게 확장됐습니다. 대규모 코드베이스 분석, 긴 문서 처리, 멀티턴 에이전트 대화에 유리합니다.

reasoning_effort 파라미터. Mistral Small 4의 가장 독특한 기능입니다.

// 빠른 일상 응답 — Mistral Small 3.2와 동등
const fast = await mistral.chat({
  model: 'mistral-small-4',
  reasoning_effort: 'none',
  messages: [{ role: 'user', content: '파이썬으로 Hello World' }]
})

// 깊은 단계별 추론 — Magistral과 동등
const deep = await mistral.chat({
  model: 'mistral-small-4',
  reasoning_effort: 'high',
  messages: [{ role: 'user', content: '이 알고리즘의 시간 복잡도를 증명해줘' }]
})

하나의 모델, 하나의 API 엔드포인트에서 단순한 질문과 복잡한 추론을 모두 처리합니다. reasoning_effort"none"으로 설정하면 빠르고 가벼운 응답을, "high"로 설정하면 Magistral 수준의 심층 추론을 제공합니다. 모델을 전환할 필요가 없습니다.

성능 — "더 짧은 답이 더 좋은 답"

Mistral Small 4의 벤치마크 전략은 흥미롭습니다. 단순히 "더 높은 점수"를 추구하는 것이 아니라, "같은 점수를 더 적은 토큰으로" 를 강조합니다.

AA LCR 벤치마크 — 같은 점수, 다른 효율

Mistral Small 4
점수: 0.721.6K 출력
Qwen (비교군)
점수: ~0.725.8-6.1K 출력

같은 품질 → 3.5× 적은 토큰 → 3.5× 비용 절감

-40%

레이턴시 감소

vs Small 3

처리량 증가

초당 요청 수

AA LCR 벤치마크에서 Mistral Small 4는 0.72점에 1.6K 글자를 출력합니다. 비슷한 점수를 기록하는 Qwen 모델은 5.8-6.1K 글자가 필요합니다. 같은 품질의 답을 3.5배 적은 토큰으로 제공하는 것입니다.

이것이 중요한 이유는 비용과 레이턴시 때문입니다. AI API의 과금은 토큰 수에 비례합니다. 같은 품질의 답을 3.5배 적은 토큰으로 생산하면, 비용이 3.5배 절감됩니다. 또한 생성해야 할 토큰이 적을수록 응답 속도가 빨라집니다.

Mistral Small 3 대비 구체적인 수치는 다음과 같습니다.

  • 레이턴시: 40% 감소 (end-to-end 완료 시간)
  • 처리량: 3배 증가 (초당 요청 수)

LiveCodeBench에서는 GPT-OSS 120B를 능가하면서 20% 적은 출력을 생성했습니다. Mistral의 메시지는 명확합니다 — "더 짧은 출력이 더 낮은 비용, 더 빠른 응답, 그리고 더 나은 사용자 경험을 의미합니다."

$0.15/M — 오픈소스의 가격 파괴

가격 구조가 놀랍습니다.

  • 입력: $0.15/M 토큰
  • 출력: $0.60/M 토큰

이 가격은 GPT-4o mini($0.15/$0.60)와 동일한 수준이면서, 119B 파라미터 MoE 모델의 성능을 제공합니다. 그리고 Apache 2.0 오픈소스이기 때문에, 자체 인프라에서 무료로 운영할 수도 있습니다.

자체 호스팅을 위한 최소 인프라 요구사항은 4×H100 또는 2×H200 또는 1×B200입니다. vLLM, SGLang, llama.cpp, Transformers 등 주요 추론 프레임워크를 모두 지원합니다.

오픈소스로 119B 급 모델을 Apache 2.0으로 공개하는 것은 Mistral의 일관된 전략입니다. Meta의 LLaMA(커뮤니티 라이선스)보다 제한이 적고, Qwen(Apache 2.0이지만 중국 기업)보다 유럽 규제 환경에서 안전합니다.

모델 통합 트렌드의 최전선

Mistral Small 4는 개별 모델의 우수성보다, AI 산업 전체의 트렌드를 보여주는 제품입니다.

첫째, 모델 파편화에서 통합으로. 2024-2025년은 "특화 모델의 시대"였습니다. 추론 모델, 비전 모델, 코딩 모델, 임베딩 모델이 각각 존재했고, 개발자는 용도에 맞는 모델을 선택해야 했습니다. 2026년에 접어들면서, 이 특화된 능력을 하나의 모델로 통합하는 움직임이 가속화되고 있습니다. GPT-5.4가 추론과 범용을 통합한 것, Gemini 3.1이 멀티모달을 기본으로 제공하는 것과 같은 맥락입니다.

둘째, MoE의 부상. 활성 파라미터와 총 파라미터의 분리는 AI 인프라의 경제성을 근본적으로 바꿉니다. 119B의 지식을 6B의 비용으로 사용할 수 있다면, 거대 모델의 민주화가 가능해집니다. DeepSeek V4의 671B/37B, Qwen의 122B, 그리고 이제 Mistral의 119B/6B — MoE는 더 이상 실험이 아니라 표준이 되고 있습니다.

셋째, 유럽 AI의 생존 전략. Mistral AI는 파리에 본사를 둔 프랑스 스타트업으로, 미국(OpenAI, Anthropic, Google)과 중국(DeepSeek, Qwen, Moonshot)이 양분하는 AI 시장에서 유럽의 대표 주자입니다. Apache 2.0 오픈소스 전략은 "모델 자체가 아니라 서비스와 엔터프라이즈 커스터마이징으로 수익을 올리겠다"는 선언입니다. EU AI Act 환경에서 "유럽산 오픈소스 AI"라는 포지셔닝은 특히 유럽 기업 고객에게 강력한 어필이 됩니다.

커뮤니티 반응 — "Mistral의 Small 모델은 출시 후 수개월간 최고"

Hacker News에서 개발자들의 반응은 대체로 긍정적이었습니다.

Simon Willison은 이를 "중요한 통합" 으로 평가하면서, reasoning_effort API 문서의 부재를 지적했습니다 (이후 3월 23일에 해결). 그는 llm-mistral 도구로 직접 테스트하여 모델의 기본 성능을 확인했습니다.

HN의 개발자들 사이에서는 "Mistral의 small 모델은 출시 후 수개월간 해당 클래스에서 최고" 라는 평가가 반복됐습니다. 구조화된 출력(structured output), 함수 호출(function calling) 등 에이전틱 작업에서의 안정성이 특히 칭찬받았습니다.

일부 개발자는 Qwen 122B와의 실사용 비교를 공유했는데, 벤치마크 수치에서는 Qwen이 근소하게 앞서는 경우도 있지만 실무에서는 Mistral Small 4가 더 간결하고 일관된 응답을 제공한다는 의견이 우세했습니다.

비판으로는 "Small"이라는 이름이 119B 모델에 어울리지 않는다는 가벼운 농담이 있었고, 자체 호스팅을 위한 최소 인프라(4×H100)가 "소규모 팀에게는 여전히 높은 장벽"이라는 현실적 지적도 있었습니다.

전망 — 하나의 모델, 하나의 API

Mistral Small 4가 시사하는 미래는 명확합니다 — 모델 선택의 시대가 끝나가고 있습니다.

지금은 개발자가 각 작업에 맞는 모델을 선택하고, 가격/성능 트레이드오프를 계산하고, 여러 API를 관리합니다. Mistral Small 4 같은 통합 모델이 성숙하면, 선택지는 단순해집니다 — 하나의 모델, 하나의 API 키, 하나의 요금 체계. reasoning_effort 같은 파라미터로 성능/비용을 조절하면 됩니다.

이것은 클라우드 컴퓨팅의 진화와 유사합니다. 초기에는 웹 서버, DB 서버, 캐시 서버를 각각 관리했지만, 결국 "서버리스" 플랫폼이 이 모든 것을 하나로 통합했습니다. AI 모델도 같은 경로를 걷고 있습니다.

Mistral Small 4는 이 통합 여정의 중요한 이정표입니다. 119B의 지식, 6B의 비용, 3개 모델의 능력, 1개의 API. 파리에서 시작된 이 실험이 실리콘밸리의 모델 파편화 전략에 어떤 영향을 미칠지, 앞으로의 벤치마크와 시장 반응이 말해줄 것입니다.