OpenAI GPT-Realtime-2 공개, 음성 AI는 이제 업무를 처리한다

OpenAI가 GPT-5급 추론을 갖춘 GPT-Realtime-2와 실시간 번역·전사 모델을 공개했습니다. 음성 AI 경쟁이 음질에서 업무 수행 능력으로 이동하는 흐름을 살펴봅니다.

OpenAI가 5월 7일 Realtime API용 새 음성 모델 3종을 공개했습니다. 중심에는 GPT-Realtime-2가 있습니다. OpenAI는 이 모델을 GPT-5급 추론 능력을 가진 첫 음성 모델로 설명합니다. 함께 공개된 GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역하고, GPT-Realtime-Whisper는 발화가 진행되는 동안 바로 전사합니다.

겉으로 보면 또 하나의 음성 API 업데이트처럼 보일 수 있습니다. 하지만 이번 발표의 핵심은 더 자연스러운 목소리나 더 낮은 지연 시간만이 아닙니다. OpenAI가 던진 질문은 조금 다릅니다. 음성 인터페이스가 단순히 "잘 알아듣고 잘 말하는" 수준을 넘어서, 대화 중 맥락을 유지하고, 정책을 지키고, 도구를 호출하며, 실제 업무를 처리할 수 있을까요?

이 질문은 2026년의 AI 에이전트 흐름과 맞닿아 있습니다. 지금까지 많은 에이전트 제품은 텍스트와 코드 중심으로 발전했습니다. 개발자는 터미널에서 Codex나 Claude Code를 실행하고, 업무 사용자는 브라우저에서 챗봇에게 문서 요약이나 데이터 분석을 맡겼습니다. 그러나 고객지원, 예약 변경, 현장 작업, 의료 상담, 금융 안내처럼 사람과 직접 상호작용하는 영역에서는 여전히 음성이 가장 자연스러운 인터페이스입니다. 문제는 음성이 자연스럽다고 해서 곧바로 업무를 처리할 수 있는 것은 아니라는 점입니다.

음성 AI의 경쟁축이 바뀌고 있습니다

지난 몇 년간 음성 AI 경쟁은 크게 두 갈래로 전개되었습니다. 하나는 음성 인식입니다. Whisper가 2022년 공개된 뒤 자동 자막, 회의록, 콜센터 분석, 팟캐스트 검색이 빠르게 대중화됐습니다. 이후 Cohere Transcribe, Deepgram, AssemblyAI, Google Speech-to-Text 같은 모델과 서비스가 정확도와 지연 시간, 도메인 적응을 두고 경쟁했습니다.

다른 하나는 음성 생성입니다. ElevenLabs는 감정과 억양을 살린 TTS로 시장을 장악했고, Microsoft는 MAI-Voice를 통해 자체 음성 모델을 내놓았으며, Mistral의 Voxtral TTS 같은 오픈 웨이트 모델은 클라우드 음성 서비스의 가격 구조를 흔들기 시작했습니다. 이 블로그에서도 Voxtral TTS와 Cohere Transcribe를 각각 다룬 적이 있습니다. 그때의 핵심 질문은 "얼마나 정확하게 듣는가", "얼마나 자연스럽게 말하는가", "얼마나 저렴하게 돌릴 수 있는가"였습니다.

GPT-Realtime-2는 그 경쟁축을 한 단계 옮깁니다. OpenAI의 발표문은 음성 앱이 유용해지려면 빠른 응답과 자연스러운 목소리만으로는 부족하다고 봅니다. 사용자의 말뜻을 이해하고, 대화 중간의 수정과 망설임을 처리하고, 이전 맥락을 기억하고, 필요한 도구를 호출하면서도 대화 흐름을 끊지 않아야 합니다. 즉, 음성 모델이 단순 입출력 계층이 아니라 에이전트 런타임의 일부가 되어야 한다는 이야기입니다.

듣기

실시간 전사와 다국어 이해가 음성 인터페이스의 입력 품질을 결정합니다.

추론

맥락 유지, 지시 준수, 정책 판단, 도구 호출이 업무 수행의 핵심이 됩니다.

말하기

응답은 자연스러워야 하지만, 이제 자연스러움은 충분조건이 아닙니다.

이 변화가 중요한 이유는 명확합니다. 대부분의 기업용 음성 자동화는 지금까지 "전화를 대신 받는 봇"에 가까웠습니다. 미리 정해진 시나리오를 따라가고, 인식이 어려우면 상담원에게 넘기고, 복잡한 요청은 처리하지 못했습니다. 반면 GPT-Realtime-2가 겨냥하는 영역은 "대화를 통해 업무를 완결하는 에이전트"입니다. 항공권 변경, 부동산 조건 비교, 보험 청구 상태 확인, 내부 IT 헬프데스크, 병원 예약처럼 복잡하고 예외가 많은 대화형 업무가 대상입니다.

OpenAI가 실제로 공개한 것

이번 발표의 모델은 세 가지입니다. GPT-Realtime-2는 Realtime API에서 사용하는 새 speech-to-speech 모델입니다. OpenAI는 이 모델이 더 어려운 요청을 처리하고, 대화 흐름을 자연스럽게 이어가며, 복잡한 음성 상호작용에서 도구 호출 신뢰성을 높인다고 설명합니다. 모델 문서에는 128,000 토큰 컨텍스트 윈도우, 32,000 최대 출력 토큰, configurable reasoning effort, function calling support가 명시되어 있습니다.

GPT-Realtime-Translate는 실시간 통역 모델입니다. 입력 언어는 70개 이상, 출력 언어는 13개입니다. OpenAI가 단순 번역 API가 아니라 Realtime API 라인업으로 이 모델을 묶은 점이 중요합니다. 번역은 더 이상 "녹음한 뒤 텍스트로 바꿔 번역하고 다시 읽어주는" 후처리 기능이 아니라, 대화가 진행되는 동안 동시에 흘러야 하는 인터페이스 기능이 되고 있습니다.

GPT-Realtime-Whisper는 streaming speech-to-text입니다. Whisper라는 이름은 이미 개발자에게 익숙하지만, 이번 모델의 포인트는 배치 전사가 아니라 발화 중 전사입니다. 음성 에이전트는 사용자가 말이 끝난 뒤에야 전체 문장을 처리하는 구조로는 답답합니다. 중간 발화, 자기 수정, 망설임, 끊긴 문장까지 다뤄야 합니다. 따라서 실시간 전사는 별도 보조 기능이 아니라 전체 에이전트 경험의 기반입니다.

OpenAI가 공개한 성능 수치도 이 방향을 뒷받침합니다. 발표문에 따르면 GPT-Realtime-2 high는 Big Bench Audio에서 GPT-Realtime-1.5 대비 15.2% 높은 점수를 기록했습니다. Audio MultiChallenge에서는 xhigh 설정이 이전 모델보다 13.8% 높습니다. 이 벤치마크들은 단순 음질보다 음성 기반 추론, 다중 턴 대화, instruction following, 자연스러운 수정 처리에 초점을 둡니다.

가격도 공개됐습니다. GPT-Realtime-2는 audio input 기준 100만 토큰당 32달러, cached input은 0.40달러, audio output은 100만 토큰당 64달러입니다. GPT-Realtime-Translate는 분당 0.034달러, GPT-Realtime-Whisper는 분당 0.017달러입니다. 텍스트 모델처럼 단순 토큰 가격만 보고 판단하기 어려운 영역입니다. 음성 에이전트는 지연 시간, 통화 시간, 캐시 효율, 실패 시 상담원 전환 비용까지 함께 계산해야 하기 때문입니다.

모델	역할	가격	의미
GPT-Realtime-2	실시간 음성 추론	$32 input / $64 output per 1M audio tokens	복잡한 음성 대화와 도구 호출을 한 모델 루프 안에서 처리합니다.
GPT-Realtime-Translate	실시간 통역	$0.034 per minute	다국어 지원을 별도 통역 파이프라인이 아닌 대화 경험 안으로 넣습니다.
GPT-Realtime-Whisper	스트리밍 전사	$0.017 per minute	발화가 끝나기 전부터 사용자 의도를 읽는 음성 앱의 기반이 됩니다.

Zillow 사례가 보여주는 방향

이번 발표에서 가장 눈에 띄는 고객 사례는 Zillow입니다. OpenAI 발표문에 따르면 Zillow는 GPT-Realtime-2를 테스트하면서 가장 어려운 adversarial benchmark에서 prompt optimization 후 call success rate가 69%에서 95%로 올랐다고 밝혔습니다. 또한 Fair Housing compliance에서도 더 견고하다는 평가를 붙였습니다.

이 수치가 흥미로운 이유는 "음성이 더 자연스러웠다"는 이야기가 아니기 때문입니다. 부동산 상담은 단순 질의응답이 아닙니다. 사용자는 예산, 지역, 가족 구성, 학교, 출퇴근, 대출, 입주 시점처럼 여러 조건을 섞어 말합니다. 중간에 조건을 바꾸기도 하고, "아까 말한 동네 말고 그 옆 지역은요?"처럼 생략된 맥락을 전제로 질문합니다. 동시에 미국 부동산 서비스는 Fair Housing 같은 규제 준수도 중요합니다.

이런 상황에서 음성 에이전트가 실패하는 지점은 보통 세 가지입니다. 첫째, 맥락을 잃습니다. 둘째, 도구 호출이 틀립니다. 셋째, 정책상 해서는 안 되는 말을 합니다. GPT-Realtime-2가 강조하는 reasoning, tool-calling reliability, guardrail strength는 모두 이 실패 지점을 겨냥합니다. 콜센터 자동화의 병목이 음성 품질이 아니라 업무 판단 능력이라는 점을 보여주는 사례입니다.

여기서 개발자 관점의 질문이 생깁니다. 음성 에이전트는 결국 어떤 아키텍처로 만들어져야 할까요? 예전 방식은 STT, LLM, TTS를 각각 붙이는 파이프라인이었습니다. 사용자의 음성을 텍스트로 바꾸고, 텍스트 모델이 답하고, 다시 음성으로 읽습니다. 구현은 단순하지만, 지연 시간이 쌓이고, 음성의 뉘앙스가 사라지고, 중간 발화 처리도 어렵습니다.

OpenAI의 Realtime 방향은 이 파이프라인을 하나의 상호작용 루프로 압축합니다. 물론 내부적으로는 여전히 여러 컴포넌트가 있겠지만, 개발자에게 보이는 추상화는 "음성으로 들어와 음성으로 나가며 도구를 호출하는 모델 세션"에 가깝습니다. 이것은 웹 앱에서 챗봇을 붙이는 것보다 훨씬 복잡하지만, 성공하면 사용자 경험의 질이 달라집니다.

기존 파이프라인: STT

↓

텍스트 LLM 추론

↓

TTS 출력

↓

Realtime 루프: 음성, 추론, 도구 호출, 응답을 한 세션에서 조율

개발자에게 달라지는 것

개발자에게 가장 큰 변화는 음성 앱을 "오디오 입출력 기능"으로만 볼 수 없게 된다는 점입니다. GPT-Realtime-2 같은 모델을 쓰면 음성 인터페이스가 곧 에이전트 인터페이스가 됩니다. 따라서 설계의 중심도 달라집니다.

첫째, 대화 상태 관리가 중요해집니다. 텍스트 챗봇에서는 사용자가 긴 메시지를 보내고 모델이 한 번 답하는 구조가 흔합니다. 음성에서는 말이 끊기고, 겹치고, 수정됩니다. 사용자는 "아니, 그게 아니라 다음 주 화요일 말고 목요일"처럼 이전 발화를 즉석에서 뒤집습니다. 이때 시스템은 마지막 문장만 보는 것이 아니라 전체 발화 흐름을 해석해야 합니다.

둘째, 도구 호출은 더 엄격해져야 합니다. 음성 에이전트가 항공권을 바꾸거나, 결제를 진행하거나, 의료 예약을 잡는다면 잘못된 API 호출의 비용은 큽니다. 텍스트 화면에서는 사용자가 최종 확인 버튼을 누를 수 있지만, 음성에서는 확인 절차가 대화 안에 녹아야 합니다. "제가 이해한 내용은 이것입니다. 진행할까요?" 같은 확인 단계가 UX가 아니라 안전장치가 됩니다.

셋째, 관측 가능성이 필요합니다. 음성 에이전트가 실패했을 때 단순히 "모델이 틀렸다"로 끝낼 수 없습니다. 어떤 발화를 어떻게 전사했는지, 어느 시점에 어떤 tool call을 했는지, 정책 판단은 왜 내려졌는지, 상담원 전환은 적절했는지 기록해야 합니다. Realtime 모델이 강력해질수록, 운영팀은 더 정교한 로그와 평가 체계를 요구하게 됩니다.

넷째, 비용 계산 방식이 바뀝니다. GPT-Realtime-2의 audio token 가격만 보면 비싸게 느껴질 수 있습니다. 그러나 콜센터 자동화에서는 실패율, 평균 처리 시간, 상담원 전환율, 규정 위반 리스크가 함께 비용입니다. Zillow 사례처럼 call success rate가 크게 오른다면 모델 단가보다 전체 업무 비용이 더 중요해질 수 있습니다. 반대로 단순 FAQ 봇이나 짧은 안내에는 과한 모델일 수도 있습니다.

경쟁사들은 어디에 서 있나

OpenAI가 음성 추론 모델을 강화한다고 해서 음성 AI 시장이 곧바로 단일 모델 경쟁으로 정리되는 것은 아닙니다. 오히려 경쟁은 더 다층화될 가능성이 큽니다.

Google은 Gemini Live와 Android 생태계를 통해 소비자 음성 인터페이스를 장악할 수 있는 위치에 있습니다. 사용자가 이미 휴대폰, 검색, 지도, 캘린더, Gmail을 쓰고 있기 때문입니다. Google의 강점은 모델 하나가 아니라 사용자 컨텍스트와 배포면입니다. OpenAI의 Realtime API가 개발자 플랫폼 관점이라면, Google은 OS와 서비스 계층에서 음성 에이전트를 밀어 넣을 수 있습니다.

ElevenLabs와 Mistral Voxtral 같은 음성 생성 계열은 "목소리의 품질과 브랜드 아이덴티티"에 강합니다. GPT-Realtime-2가 업무 추론에서 앞서더라도, 브랜드 보이스, 감정 표현, 다국어 음성 클로닝, 로컬 실행 같은 요구는 별도 경쟁력을 만듭니다. 특히 프라이버시가 중요한 환경에서는 오픈 웨이트 음성 모델의 가치가 계속 남습니다.

SoundHound, PolyAI, Sierra, Kore.ai 같은 기업용 음성 에이전트 회사들은 도메인 통합과 운영 노하우를 앞세울 것입니다. 음성 모델이 좋아져도 고객사의 CRM, 예약 시스템, 결제 시스템, 규제 정책, 상담원 운영과 연결하는 일은 여전히 어렵습니다. 모델 제공자는 범용 능력을 제공하지만, 실제 배포에서는 산업별 workflow integration이 핵심입니다.

경쟁 축	대표 주체	차별화 포인트
실시간 음성 추론	OpenAI, Google, xAI, Amazon	대화 맥락, 도구 호출, 낮은 지연 시간, 멀티모달 입력
음성 생성 품질	ElevenLabs, Mistral, Microsoft	브랜드 보이스, 감정 표현, 음성 클로닝, 로컬 실행
산업별 배포	PolyAI, SoundHound, Sierra, Kore.ai	CRM 연동, 규제 준수, 상담원 전환, 운영 지표

이 경쟁 구도에서 OpenAI의 장점은 범용 모델 능력과 개발자 플랫폼입니다. Realtime API, Responses API, tool calling, Codex와의 연결은 개발자가 빠르게 실험할 수 있는 기반을 만듭니다. 반면 약점도 있습니다. 음성 업무 자동화는 모델 성능만으로 이기기 어렵습니다. 고객사는 모델이 아니라 완성된 업무 흐름을 삽니다. 따라서 OpenAI가 직접 산업별 솔루션으로 내려갈지, 파트너 생태계가 그 역할을 맡을지가 중요한 관전 포인트입니다.

커뮤니티 반응은 아직 조심스럽습니다

흥미롭게도 이번 발표는 대형 텍스트 LLM 출시만큼 폭발적인 반응을 만들지는 않았습니다. GeekNews에는 "OpenAI, GPT-5급 추론 능력을 가진 GPT-Realtime-2 시리즈 공개"라는 항목으로 올라왔고, 실시간 음성 API에 추론, 번역, 전사 기능을 갖춘 3개 오디오 모델을 출시했다는 요약이 붙었습니다. Hacker News에서는 같은 날 DeepMind AlphaEvolve, AI slop, Claude Mythos 관련 글들이 더 큰 주목을 받았습니다.

Reddit 반응도 아직은 개발자 API 발표 특유의 분위기입니다. r/accelerate와 r/ChatGPT에서는 "ChatGPT 앱에도 들어오느냐", "드디어 업데이트가 나왔다"는 기대가 보였습니다. r/SoundHound 쪽에서는 OpenAI의 새 모델이 음성 AI 전문 기업의 기술적 해자를 좁히는지에 대한 투자자 관점의 토론이 있었습니다. 일부는 Zillow의 69%에서 95%로 오른 call success rate를 주목했고, 일부는 실제 배포 비용과 지연 시간이 관건이라고 봤습니다.

이 조심스러운 반응은 오히려 자연스럽습니다. 음성 에이전트는 데모 영상으로는 강한 인상을 주지만, 실제 운영에서는 평가가 까다롭습니다. 사용자의 말투, 소음, 억양, 언어 전환, 정책 예외, 상담원 전환, 녹취 보관, 개인정보 처리까지 걸립니다. 텍스트 챗봇보다 훨씬 현실과 가까운 인터페이스이기 때문에 실패도 더 선명하게 드러납니다.

남는 질문, 음성이 정말 기본 인터페이스가 될까

GPT-Realtime-2의 발표가 곧 "모든 앱이 음성 중심으로 바뀐다"는 뜻은 아닙니다. 텍스트와 화면은 여전히 강력합니다. 개발자는 코드를 눈으로 봐야 하고, 분석가는 표와 차트를 비교해야 하며, 사용자는 결제나 계약처럼 중요한 순간에 시각적 확인을 원합니다. 음성은 손이 바쁘거나, 이동 중이거나, 자연어 대화가 효율적인 업무에서 강합니다.

따라서 더 현실적인 전망은 "음성이 앱을 대체한다"가 아니라 음성이 에이전트의 주요 입구 중 하나가 된다는 것입니다. 사용자는 음성으로 요청을 시작하고, 에이전트는 필요한 화면을 띄우거나, 링크를 보내거나, 문서를 작성하거나, 상담원에게 넘깁니다. 음성은 단독 채널이 아니라 멀티모달 업무 흐름의 시작점이 됩니다.

개발팀에게도 같은 관점이 필요합니다. 음성 기능을 붙인다고 제품이 곧바로 미래적이 되지는 않습니다. 어떤 업무가 음성에 적합한지, 어떤 단계는 화면 확인이 필요한지, 어느 지점에서 인간에게 넘겨야 하는지 정해야 합니다. GPT-Realtime-2 같은 모델은 이 설계를 가능하게 하는 강력한 부품이지만, 제품의 책임까지 대신 지지는 않습니다.

가장 큰 변화는 사용자의 기대치일 수 있습니다. 음성 에이전트가 한번 실제 업무를 잘 처리하기 시작하면, 사용자는 더 이상 "죄송합니다, 이해하지 못했습니다"라는 응답을 참기 어려워집니다. 콜센터 IVR의 시대가 길었던 이유는 대안이 없었기 때문입니다. 이제 대안이 생기고 있습니다. 그 대안이 충분히 안정적이고 저렴해지는 순간, 기업의 음성 인터페이스 기준선은 빠르게 올라갈 것입니다.

OpenAI의 GPT-Realtime-2는 그런 전환의 신호입니다. 음성 AI는 더 이상 듣기와 말하기의 품질 경쟁에 머물지 않습니다. 이제 질문은 이것입니다. 이 음성 에이전트가 실제로 일을 끝낼 수 있는가. 2026년 음성 AI 시장의 승부는 바로 그 지점에서 갈릴 가능성이 큽니다.