Microsoft가 하루에 AI 모델 3개를 쏟아냈다, OpenAI 독립의 신호탄
Microsoft가 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2를 동시 출시하며 음성 전사부터 이미지 생성까지 자체 모델로 전환했다. $13B를 투자한 OpenAI에서 벗어나려는 Microsoft의 AI 독립 전략을 분석한다.
Microsoft가 4월 2일, 자체 개발 AI 모델 3종을 한꺼번에 출시했습니다. MAI-Transcribe-1(음성 전사), MAI-Voice-1(음성 생성), MAI-Image-2(이미지 생성). 엔터프라이즈 AI에서 가장 상업적 가치가 높은 세 가지 모달리티를 하루에 모두 자체 모델로 덮어버린 것입니다.
이 발표가 단순한 신제품 출시가 아닌 이유가 있습니다. Microsoft는 OpenAI에 $13B 이상을 투자한 최대 파트너 입니다. 그런 회사가 OpenAI의 핵심 영역인 음성 전사(Whisper)와 이미지 생성(DALL-E/GPT-Image)을 자체 모델로 대체하기 시작한 것입니다. AI 수장 Mustafa Suleyman이 2월에 선언한 "진정한 자급자족(true self-sufficiency)"이 구호가 아닌 실행으로 바뀌는 순간입니다.
$13B 파트너십에서 벗어나는 법
Microsoft와 OpenAI의 관계를 이해하려면 2025년 10월로 돌아가야 합니다.
두 회사는 파트너십을 재구조화했습니다. OpenAI의 운영 법인이 공익법인(PBC)으로 전환되고, Microsoft의 IP 권한이 2032년까지 연장됐으며, 결정적으로 Microsoft가 독자적으로 AGI를 개발하거나 다른 파트너와 협력하는 것이 명시적으로 허용 됐습니다. 법적 제약이 풀린 것입니다.
그 직후부터 MAI(Microsoft AI) 개발이 눈에 띄게 가속화됐습니다.
6개월 사이에 벌어진 일을 정리하면 그림이 명확해집니다. Microsoft는 OpenAI의 기술에 의존하던 영역을 하나씩 자체 모델로 대체하고 있으며, 동시에 Anthropic이라는 대안 파트너를 내부에 끌어들이고 있습니다. "하나의 의존성(dependency)이 Microsoft의 제품 결정이나 마진을 제약하지 못하게 하겠다"는 것이 공식 입장입니다.
CFO Amy Hood도 내부적으로 우려를 표명한 것으로 알려져 있습니다. OpenAI의 점점 비싸지는 요구를 모두 수용할 경우, AI용으로 구축한 서버가 수익을 내지 못하면 Microsoft에 타격이 될 수 있다는 것입니다. OpenAI가 올해 $14B를 태울 것 으로 예상되는 상황에서, Microsoft로서는 리스크 분산이 절실한 선택이기도 합니다.
MAI-Transcribe-1이 Whisper를 겨냥했다
세 모델 중 가장 직접적으로 OpenAI와 부딪치는 것은 MAI-Transcribe-1입니다.
OpenAI의 Whisper는 음성 인식(ASR) 분야에서 사실상의 표준이었습니다. 68만 시간의 다국어 오디오로 훈련되고 99개 언어를 지원하며, 오픈소스로 풀려 있어 개발자 생태계에서 압도적 입지를 가지고 있습니다. 그 Whisper를 $13B 파트너의 자회사가 정면으로 겨냥한 것입니다.
Microsoft의 주장은 구체적입니다.
Microsoft는 MAI-Transcribe-1이 벤치마크 25개 언어 전부 에서 기존 Azure Fast 서비스보다 높은 정확도를 보이며, 배치 전사 속도는 2.5배 빠르다고 밝혔습니다. 이미 Copilot Voice 모드와 Microsoft Teams 회의 전사에 테스트 중이라는 점도 주목할 부분입니다. Teams는 월간 활성 사용자 3억 명 이상의 엔터프라이즈 플랫폼입니다. 여기에 자체 전사 모델을 집어넣는다는 것은 Whisper API에 의존하던 워크로드를 내부로 가져온다는 의미입니다.
다만 주의할 점이 있습니다. Microsoft가 공개한 벤치마크는 자체 Azure Fast 서비스와의 비교이지, Whisper v3나 GPT-4o Transcribe와의 직접 비교가 아닙니다. 독립적인 제3자 벤치마크는 아직 나오지 않았습니다.
MAI-Voice-1, 1초에 60초 분량의 음성을 만들다
MAI-Voice-1은 음성 합성(TTS) 모델입니다. 가장 인상적인 수치는 단일 GPU에서 1초 만에 60초 분량 의 고품질 오디오를 생성한다는 점입니다.
실시간 팩터(RTF)로 환산하면 약 60x에 해당하는 속도입니다. 이는 현존하는 상용 TTS 서비스 중에서도 최상위권에 속합니다. 단순히 빠르기만 한 것이 아닙니다. 장문 콘텐츠에서 화자의 정체성(음색, 발화 습관)을 일관되게 유지하고, Microsoft Foundry를 통해 몇 초의 오디오 샘플만으로 커스텀 보이스를 생성 할 수 있습니다.
가격은 100만 글자당 $22. 이미 Copilot Daily(뉴스 요약 읽기)와 Copilot Podcasts(문서를 팟캐스트로 변환) 기능에 적용되어 있습니다.
다만 Microsoft는 MAI-Voice-1의 정식 벤치마크를 공개하지 않았습니다. 성능 비교는 LM Arena 매치업(blind listening test)으로만 가능한 상태입니다. 오디오 품질이라는 주관적 영역에서 "벤치마크 미공개"는 아쉬운 부분입니다.
MAI-Image-2, 리더보드 3위로 데뷔하다
MAI-Image-2는 Microsoft의 텍스트-투-이미지 모델입니다. Arena.ai 리더보드에서 모델 패밀리 기준 전체 3위 로 데뷔했습니다. 전작 대비 Foundry와 Copilot에서 최소 2배 빠른 생성 속도 를 내며, Bing과 PowerPoint에 롤아웃 중입니다.
| 항목 | MAI-Image-2 | GPT-Image | Imagen 3 |
|---|---|---|---|
| Arena.ai 순위 | 3위 (모델 패밀리) | 1위권 | 2위권 |
| 텍스트 렌더링 | 안정적 (포스터, 다이어그램) | 우수 | 보통 |
| 핵심 강점 | 자연광, 피부톤 정확성 | 범용 품질 | 사실적 묘사 |
| 가격 (입력/출력) | $5/$33 per 1M tokens | 비공개 | 비공개 |
Microsoft가 강조하는 것은 사실적인 이미지 품질 입니다. "자연광, 정확한 피부톤, 살아있는 환경"이라는 표현을 반복적으로 사용합니다. 사진 작가와 디자이너, 비주얼 스토리텔러와 협업하여 제작했다는 점도 내세웁니다. 이미지 내 텍스트 렌더링의 안정성도 개선됐습니다. 포스터, 배경 간판, 인포그래픽, 슬라이드, 다이어그램을 일관되게 생성할 수 있다는 것이 Microsoft의 설명입니다.
Decrypt의 핸즈온 리뷰에 따르면, MAI-Image-2는 GPT-Image 대비 이미지 품질과 텍스트 렌더링에서 우위 를 보였다는 평가가 나왔습니다. 리더보드 순위보다 실제 사용 경험이 더 인상적이라는 반응입니다.
현재 MAI Playground에서 누구나 실험할 수 있고, Bing Image Creator와 Copilot에 순차적으로 적용 중입니다. 상용 API 접근은 일부 고객(WPP 등)에게 선제공된 상태이며, Microsoft Foundry를 통해 곧 모든 개발자에게 열릴 예정입니다.
수직 통합이라는 진짜 게임
세 모델을 개별적으로 보면 각각의 시장에서 경쟁력 있는 신제품입니다. 하지만 이것을 Microsoft의 전체 AI 스택과 함께 보면 그림이 달라집니다.
칩(Maia 200) 에서 데이터센터(Fairwater), 모델(MAI 패밀리), 플랫폼(Foundry), 제품(Copilot, Teams, M365) 까지. Microsoft는 AI의 전체 수직 스택을 자사 기술로 채우고 있습니다. 이것은 단순히 "OpenAI 대안을 만든다"는 이야기가 아닙니다. 어떤 외부 의존성도 없이 AI 제품을 제공할 수 있는 구조 를 만들고 있다는 뜻입니다.
물론 Microsoft는 이것을 "유연한 경로(flexible path)"라고 표현합니다. OpenAI 지분은 유지하고, Anthropic과는 새 파트너십을 맺고, 자체 모델도 개발한다. 리스크를 분산하면서 전략적 통제권을 확보하는 것이 목표라는 설명입니다. 하지만 방향성은 명확합니다. 자체 모델의 성능이 프론티어 수준에 도달하는 순간, OpenAI 의존도는 급격히 떨어질 것입니다.
현재 MAI-1-preview(텍스트 모델)는 약 15,000대의 NVIDIA H100 GPU로 훈련됐으며, LMArena 텍스트 리더보드에서 10위권 중반에 위치합니다. GPT-5.4나 Claude Sonnet 4.6와 비교하면 아직 격차가 있습니다. 하지만 오늘 출시된 멀티모달 3종은 이미 각 영역의 상위권에 진입했습니다. Microsoft의 AI 독립은 텍스트가 아닌 멀티모달에서 먼저 실현되고 있습니다.
개발자에게 의미하는 것
이 변화가 실무에 미치는 영향을 정리하겠습니다.
Azure/Foundry 사용자라면 선택지가 넓어집니다. 음성 전사는 Whisper API 대신 MAI-Transcribe-1을, 이미지 생성은 DALL-E 대신 MAI-Image-2를 Foundry 내에서 바로 사용할 수 있습니다. 같은 플랫폼 안에서 모델을 교체하는 것이므로 마이그레이션 비용이 낮습니다.
OpenAI API 사용자라면 당장 바꿀 이유는 없습니다. Whisper v3와 GPT-4o Transcribe는 여전히 강력하고, 독립적인 벤치마크가 나오기 전까지는 MAI-Transcribe-1의 실제 우위를 확인하기 어렵습니다. 하지만 중장기적으로 Microsoft가 자체 모델을 Copilot과 Teams에 기본값으로 심으면, 엔터프라이즈 시장에서의 판도가 달라질 수 있습니다.
가격 경쟁도 시작됐습니다. MAI-Voice-1은 100만 글자당 $22, MAI-Image-2는 텍스트 입력 100만 토큰당 $5에 이미지 출력 100만 토큰당 $33으로 가격을 공개했습니다. OpenAI가 동급 모달리티에서 가격 경쟁에 어떻게 대응할지가 다음 관전 포인트입니다.
커뮤니티는 어떻게 보고 있나
Hacker News에서는 "Microsoft가 처음으로 자체 모델을 제대로 출시한 것 같다"는 반응이 나왔습니다. 다만 논의 규모 자체는 크지 않았습니다(27 포인트). 이는 Microsoft의 AI 모델이 아직 개발자 커뮤니티에서 "주류 화제"로 올라서지 못했음을 보여줍니다. OpenAI나 Anthropic의 모델 출시가 HN 프론트페이지를 장악하는 것과는 대조적입니다.
개발자 커뮤니티에서는 MAI Playground의 접근성을 호평하면서도, 실제 프로덕션 배포에서의 마찰을 지적하는 목소리가 있습니다. 특히 MAI 모델을 Teams나 Copilot에 통합할 때 Playground에서 작동하던 기능이 제대로 동작하지 않는 사례가 보고되고 있습니다. Microsoft의 강점인 엔터프라이즈 통합이 역설적으로 가장 큰 기술적 과제인 셈입니다.
OpenAI에서 벗어나는 것은 Microsoft만이 아니다
한 발 물러서서 보면, Microsoft의 이번 행보는 더 큰 트렌드의 일부입니다. AI 모델 시장에서 수직 통합 이 가속화되고 있습니다.
Google은 오래전부터 자체 모델(Gemini)과 자체 칩(TPU)을 보유하고 있습니다. Meta는 Llama를 오픈소스로 풀면서 자체 AI 칩 4세대를 하루에 공개했습니다. Amazon은 Trainium 칩과 자체 모델(Nova)으로 AWS 생태계를 구축하고 있습니다. Apple은 자체 칩(M 시리즈)에 온디바이스 LLM을 얹고 있습니다.
이제 Microsoft까지 합류한 것입니다. 모델을 만들고, 칩을 설계하고, 데이터센터를 짓고, 자기 제품에 집어넣는 풀스택 AI 회사. 외부 모델 API에만 의존하는 전략이 빅테크에서는 더 이상 지속 가능하지 않다 는 것을 이번 출시가 다시 한번 확인해줍니다.
OpenAI 입장에서는 최대 파트너이자 최대 투자자가 자체 경쟁 모델을 내놓는 상황입니다. 물론 양사의 파트너십은 공식적으로 "강력하게 유지" 중이며, OpenAI의 프론티어 모델(GPT-5.4 등)은 여전히 Azure의 핵심 상품입니다. 하지만 의존의 방향이 바뀌고 있습니다. 한때 Microsoft가 OpenAI에 의존했다면, 이제는 Microsoft가 선택할 수 있는 위치로 이동하고 있습니다.
전망
오늘 출시된 MAI 3종은 그 자체로 완성된 이야기가 아닙니다. Microsoft의 AI 독립 여정에서 하나의 체크포인트입니다.
다음 관전 포인트는 MAI-1(텍스트 모델)의 다음 버전 입니다. 15,000대 H100으로 훈련된 현재의 MAI-1-preview가 LMArena 10위권 중반이라면, 다음 세대가 GPT-5.4나 Claude Sonnet 4.6 수준에 도달할 때 Microsoft의 전략은 결정적 전환점을 맞을 것입니다. 멀티모달에서의 독립은 오늘 시작됐습니다. 텍스트에서의 독립이 완성되는 날, AI 산업의 권력 구조가 근본적으로 재편됩니다.