Gemini Omni Flash, 영상 편집의 새 입력은 대화

Gemini Omni Flash는 비디오 생성을 대화형 편집 루프로 바꾸며 Google Flow와 YouTube Shorts까지 연결합니다.

AI 요약

무슨 일: Google이 Gemini Omni Flash를 공개하고 Gemini 앱, Flow, YouTube Shorts로 배포합니다.
- 첫 출력은 비디오입니다. 입력은 텍스트, 이미지, 오디오, 비디오를 함께 받는 멀티모달 생성 미디어 모델입니다.
의미: 영상 제작의 병목이 프롬프트 1회 입력에서 대화형 편집 상태 관리로 이동합니다.
개발자 관점: Flow Tools와 agentic experience는 생성 모델을 워크플로 빌더와 배포 채널에 붙이는 신호입니다.
주의점: 품질, 워터마킹, 저작권, Shorts 확산, 구독자 제한은 제품 도입 전에 따로 검증해야 합니다.

Google이 2026년 5월 19일 Gemini Omni를 공개했습니다. 이름만 보면 또 하나의 생성 비디오 모델처럼 보입니다. 하지만 이번 발표의 중심은 비디오를 "한 번 생성하고 끝나는 결과물"에서 "대화로 계속 수정되는 작업 상태"로 바꾸는 데 있습니다. 첫 모델은 Gemini Omni Flash입니다. Google은 이 모델이 텍스트, 이미지, 오디오, 비디오를 입력으로 받아 비디오를 만들고, 이후 자연어 대화로 장면과 행동을 계속 바꿀 수 있다고 설명합니다.

핵심 표현은 공식 발표의 "create anything from any input"입니다. 과장된 마케팅 문구처럼 들리지만, 제품 방향은 비교적 선명합니다. 사용자가 영상을 새로 촬영하거나 타임라인 편집기를 깊게 다루지 않아도, 기존 영상과 이미지, 소리, 텍스트 의도를 섞어 새로운 장면을 만들고, 다시 대화로 조정하는 흐름입니다. Google은 Omni가 현재 비디오부터 시작하지만 나중에는 이미지와 오디오 같은 출력 모달리티도 지원할 것이라고 밝혔습니다.

이 변화는 AI 개발자와 제품 팀에게도 중요합니다. AI 비디오 경쟁은 지금까지 대체로 품질, 길이, 해상도, 가격, API 제공 여부로 설명됐습니다. 하지만 실제 제품에서는 다른 질문이 더 빨리 부딪힙니다. 사용자가 만든 결과를 어떻게 다시 편집하게 할 것인가. 이전 장면의 캐릭터와 목소리를 어떻게 유지할 것인가. 사용자가 "조금 더 어둡게", "이 사람은 그대로 두고 배경만 바꿔", "음악의 후렴에 맞춰 장면을 전환해"라고 말할 때 모델은 무엇을 기억해야 하는가. Gemini Omni는 이 질문을 영상 생성 모델의 핵심 기능으로 끌어올립니다.

Google Flow와 Flow Music 업데이트 공식 이미지

Nano Banana 다음은 영상입니다

Google은 Gemini Omni를 설명하면서 2025년의 Nano Banana를 직접 언급합니다. Nano Banana는 Gemini의 지능을 이미지 생성과 편집에 붙인 사례였습니다. 오래된 사진 복원, 스케치 기반 디자인, 아이디어 시각화 같은 작업이 대표적입니다. Omni는 같은 접근을 비디오로 확장합니다. 이미지 한 장을 고치는 것이 아니라, 시간축이 있고 소리와 움직임과 카메라 구도가 얽힌 매체를 대화형으로 편집하려는 시도입니다.

비디오가 이미지보다 어려운 이유는 단순히 계산량 때문만이 아닙니다. 사용자는 한 프레임의 품질만 보지 않습니다. 인물이 장면 사이에서 같은 사람처럼 보이는지, 손과 물체가 갑자기 바뀌지 않는지, 조명이 시간에 맞게 이어지는지, 카메라 이동이 물리적으로 이상하지 않은지, 소리와 장면이 어긋나지 않는지를 봅니다. Google은 Omni 발표에서 캐릭터 일관성, 물리적 일관성, 이전 장면 기억을 강조했습니다. 이 세 가지는 모두 영상 편집의 반복 루프에서 문제가 되는 지점입니다.

기존 생성 비디오 도구는 멋진 첫 결과를 만들 수 있어도, 사용자가 "이 부분만 바꿔 주세요"라고 말하는 순간 약해지는 경우가 많았습니다. 한 장면의 색감은 좋아졌지만 인물이 바뀌고, 카메라 앵글은 맞았지만 원래 음악의 리듬이 사라지고, 특정 물체만 고치려 했는데 전체 장면이 다시 생성되는 식입니다. Omni가 겨냥하는 병목은 바로 여기에 있습니다. 비디오 생성 모델의 품질 경쟁 다음 단계는 "수정 가능한 상태"의 경쟁입니다.

Omni는 모델이면서 작업대 전략입니다

이번 발표를 모델 카드로만 보면 절반만 보게 됩니다. Google은 Gemini Omni Flash를 Gemini 앱, Google Flow, YouTube Shorts에 롤아웃한다고 밝혔습니다. Flow와 Flow Music 발표는 더 노골적입니다. Flow는 이제 Omni, agentic experience, bespoke Tools, 모바일 앱을 함께 받습니다. Flow Music은 Lyria 3 Pro 기반 음악 생성에 더 세밀한 섹션 편집, 커버 변환, Omni 기반 음악 비디오 생성을 붙입니다.

즉 Google은 비디오 모델 하나를 API로 던지는 데서 멈추지 않습니다. 창작자가 아이디어를 넣는 곳, 반복 편집하는 곳, 도구를 만드는 곳, 결과물을 공유하는 곳을 한 제품군 안에 묶으려 합니다. 이 구조는 YouTube Shorts와 만나면 더 강해집니다. 사용자는 Gemini 앱에서 아이디어를 만들고, Flow에서 장면과 음악을 다듬고, Shorts에서 배포할 수 있습니다. 생성 미디어 경쟁이 모델 벤치마크에서 배포 경로와 작업대 장악으로 이동한다는 신호입니다.

개발자 입장에서는 Flow Tools가 특히 흥미롭습니다. Google은 사용자가 자연어로 bespoke tool과 workflow를 만들고, 다른 Flow 사용자에게 공유하거나 remix할 수 있다고 설명했습니다. 예를 들어 특정 이미지 편집기, 영상 리사이저, 커스텀 셰이더 같은 도구를 별도 코딩 없이 만들 수 있다는 방향입니다. 이것은 "AI가 영상을 만들어준다"보다 넓은 이야기입니다. 생성 미디어 제품 안에서 사용자가 자기 도구를 만드는 작은 앱 생태계가 생길 수 있다는 뜻입니다.

Google 공식 Gemini Omni 데모. 모델을 새 프롬프트 생성기가 아니라 대화형 비디오 편집 루프로 보여줍니다.

"영상 생성"보다 "대화형 상태"가 중요합니다

Omni의 제품적 의미를 보려면 사용자가 비디오 도구에서 실제로 실패하는 순간을 생각해야 합니다. 첫 번째 결과는 놀랍습니다. 그러나 두 번째 요청에서 문제가 생깁니다. 사용자가 "캐릭터는 그대로 두고 배경만 바꿔 주세요"라고 말하면 모델은 캐릭터의 얼굴, 옷, 목소리, 몸짓을 기억해야 합니다. "이 장면을 밤으로 바꿔 주세요"라고 하면 조명과 그림자, 반사, 카메라 노이즈, 인물의 노출까지 함께 바뀌어야 합니다. "후렴에서 장면을 빠르게 전환해 주세요"라고 하면 오디오 구조를 이해해야 합니다.

이런 요청은 단일 프롬프트 생성보다 에이전트 작업에 가깝습니다. 모델은 이전 상태를 읽고, 사용자의 지시가 어떤 요소를 유지하고 어떤 요소를 바꾸라는 뜻인지 구분하고, 결과를 다시 보여준 뒤 다음 요청을 기다립니다. 생성 미디어 제품에서 "context window"는 단순 텍스트 길이가 아닙니다. 장면, 캐릭터, 소리, 편집 의도, 사용자의 미적 선호가 누적되는 작업 기억입니다.

이 지점에서 Gemini라는 이름이 중요해집니다. Google은 Omni를 독립 비디오 모델이 아니라 Gemini의 실세계 지식과 생성 미디어 모델을 결합한 모델로 설명합니다. 영상 편집이 단순 픽셀 변환이 아니라 "이 장면에서 무엇이 말이 되는가"를 판단하는 문제라면, 멀티모달 추론 모델과 생성 모델의 결합은 설득력이 있습니다. 사용자가 "현실적인 유리 반사처럼", "비올라를 투명하게 만들되 손의 움직임은 남겨", "이 도시를 밤의 사이버펑크 분위기로 바꿔"라고 말할 때, 모델은 시각적 패턴과 물리적 상식, 장면 의미를 동시에 다뤄야 합니다.

물론 이것이 실제 품질을 보장한다는 뜻은 아닙니다. 데모와 제품은 다릅니다. 특히 생성 비디오는 cherry-picked 결과와 일반 사용자의 반복 실패 사이의 차이가 큽니다. Omni가 정말 실무 편집 도구가 되려면 사용자는 실패를 쉽게 되돌리고, 특정 변경만 고정하고, 비용을 예측하고, 결과의 provenance를 확인할 수 있어야 합니다. 모델 발표보다 제품 UX가 중요한 이유입니다.

Flow와 Shorts가 만드는 배포 압력

Google이 Omni를 Flow와 YouTube Shorts에 붙인 점은 양면적입니다. 한쪽에서는 창작 장벽이 낮아집니다. 짧은 영상, 음악 비디오, 콘셉트 시안, 광고 초안, 교육용 클립을 만드는 사람에게는 매우 강한 도구가 될 수 있습니다. 특히 Flow Music과 결합하면 오디오의 특정 구간을 바꾸고, 그 음악의 리듬과 서사에 맞는 영상을 Omni로 연출하는 흐름이 가능합니다.

다른 한쪽에서는 생성 영상의 유통 압력이 커집니다. YouTube Shorts는 이미 대규모 소비자 배포 채널입니다. Omni가 Shorts 안으로 들어가면 AI 생성 영상은 독립 도구에서 만든 파일을 업로드하는 수준이 아니라, 플랫폼 안의 기본 제작 방식이 될 수 있습니다. 이때 중요한 것은 생성 사실 표시, 워터마킹, 저작권 정책, 인물·음성 합성 경계, 아동·정치·광고 콘텐츠 규칙입니다.

AI 제품 팀이 여기서 배울 점은 분명합니다. 생성 모델을 출시할 때 모델 기능만 설계해서는 부족합니다. 결과물이 소비되는 표면까지 같이 봐야 합니다. 생성 이미지라면 피드와 검색과 광고가 문제입니다. 생성 음성이라면 통화와 고객지원이 문제입니다. 생성 비디오는 Shorts, Reels, TikTok, 광고 네트워크, 교육 플랫폼까지 영향을 줍니다. Omni는 Google이 이 전체 경로를 자기 생태계 안에서 잡으려 한다는 점에서 중요합니다.

개발자에게는 API보다 워크플로가 먼저 보입니다

개발자 관점에서 "Omni API가 언제 어떤 가격으로 열리는가"는 당연히 중요합니다. 그러나 이번 발표에서 더 먼저 읽어야 할 것은 워크플로입니다. Flow Tools는 사용자가 자연어로 도구를 만들고 공유하는 흐름을 제시합니다. 이는 생성 미디어 앱 안에 작은 자동화 계층을 넣는 것입니다. 예전에는 영상 도구가 효과 메뉴와 플러그인 시장을 가졌습니다. 이제는 사용자가 "내 채널 스타일로 세로형 클립을 만들고, 자막 영역을 비워 두고, 후반 3초에 로고 없이 페이드아웃해" 같은 워크플로를 자연어로 만들 수 있습니다.

이런 흐름은 AI 앱 빌더와도 닮았습니다. 최근 Google AI Studio Android, Replit Agent, Cursor, Codex, Copilot 같은 도구는 개발자가 명령을 주고 에이전트가 파일을 바꾸는 구조를 만듭니다. Flow Tools는 같은 패턴을 미디어 제작으로 옮깁니다. 사용자가 도구를 만들고, 다른 사용자가 remix하고, 그 도구가 다시 모델 호출과 편집 작업을 수행합니다. 결국 "생성 AI 제품"은 단순 입력창이 아니라 도구 생성, 권한, 공유, 버전 관리, 비용 추적, 콘텐츠 정책이 들어간 작업 공간으로 바뀝니다.

기업 제품이라면 더 복잡해집니다. 브랜드 팀은 특정 색상, 로고, 금지 표현, 법무 문구, 지역별 규정을 지켜야 합니다. 교육 회사는 아동 대상 콘텐츠 규칙과 접근성을 봐야 합니다. 게임 회사는 캐릭터 일관성과 IP 권리를 관리해야 합니다. Omni 같은 모델이 실제 업무에 들어가려면 "대화형 편집"은 물론 "무엇을 바꿔도 되는가"와 "누가 승인했는가"를 기록하는 시스템이 필요합니다.

경쟁은 Sora 대 Veo가 아니라 작업대 대 작업대입니다

AI 비디오 시장은 이미 복잡합니다. OpenAI Sora, Runway, Kling, Pika, LTX 계열, Google Veo와 Flow가 서로 다른 위치를 잡고 있습니다. 품질과 속도, 가격, 길이, 4K, 오디오, API, 오픈소스 여부가 모두 경쟁 요소입니다. 그런데 Omni가 보여주는 축은 조금 다릅니다. Google은 단순히 "더 좋은 비디오를 만든다"가 아니라 "영상 제작의 대화형 상태를 관리한다"고 말합니다.

이 방향에서는 경쟁 상대도 달라집니다. Runway는 전문 창작자 워크플로와 편집 도구를 장점으로 삼습니다. OpenAI는 Sora와 ChatGPT, API 생태계를 연결하려 합니다. Adobe는 기존 크리에이티브 툴과 저작권 안전성을 내세웁니다. TikTok/CapCut은 배포와 편집 습관을 이미 잡고 있습니다. Google은 Gemini, Flow, Flow Music, YouTube Shorts, Android 모바일 앱, Google AI 구독을 묶을 수 있습니다. 모델이 아니라 작업대와 배포 채널의 전쟁입니다.

그래서 Omni의 가장 중요한 질문은 "Sora보다 좋은가"가 아닐 수 있습니다. 더 현실적인 질문은 이렇습니다. 창작자가 기존 영상과 음악을 넣고 여러 번 수정할 때, Omni가 상태를 얼마나 잘 보존하는가. Flow가 그 과정을 얼마나 빠르게 반복하게 하는가. Shorts가 생성 사실 표시와 유통 정책을 얼마나 신뢰성 있게 처리하는가. 구독 가격과 사용량 제한이 실무 제작량을 감당하는가. 이 네 가지가 실제 채택을 가를 가능성이 큽니다.

아직 확인해야 할 것들

첫째, 품질의 평균값입니다. Google 데모는 인상적이지만, 실무자는 평균 실패율을 봅니다. 다양한 인물, 언어, 음악 장르, 조명, 촬영 품질, 카메라 움직임에서 얼마나 안정적인지 확인해야 합니다. 특히 대화형 편집은 한 번의 실패가 아니라 반복 과정의 누적 실패가 문제입니다. 세 번째 수정에서 캐릭터가 바뀌거나, 다섯 번째 수정에서 원래 의도가 사라지면 작업 도구로 쓰기 어렵습니다.

둘째, 권리와 출처입니다. 비디오와 오디오를 입력으로 받는 모델은 사용자 업로드 자료, 배경 음악, 초상권, 브랜드 요소를 다룹니다. 기업 사용자는 입력 데이터가 학습에 쓰이는지, 저장 기간이 어떻게 되는지, 출력물에 어떤 워터마크가 붙는지, 생성 사실 표시가 플랫폼 밖에서도 유지되는지 확인해야 합니다.

셋째, 비용과 지연시간입니다. 비디오 생성은 여전히 비쌉니다. 사용자가 대화형 편집을 여러 번 반복하면 비용은 단일 생성보다 빠르게 올라갑니다. 제품 팀은 "첫 결과 무료"보다 "10번 수정한 뒤에도 예산과 시간이 예측 가능한가"를 봐야 합니다. 특히 모바일 앱과 Shorts에 붙으면 사용량 폭증이 곧 비용 폭증으로 이어질 수 있습니다.

넷째, 도구 생태계의 품질 관리입니다. Flow Tools가 자연어 기반 도구 공유와 remix를 지원한다면, 유용한 도구와 위험한 도구가 함께 늘어납니다. 저작권을 우회하거나, 특정 인물을 모방하거나, 플랫폼 정책을 피하려는 도구가 생길 수 있습니다. Google은 모델 안전성뿐 아니라 사용자 제작 워크플로의 배포와 신고, 차단, provenance를 관리해야 합니다.

Gemini Omni Flash는 Google I/O의 여러 AI 발표 중 하나였지만, 생성 미디어 쪽에서는 꽤 중요한 방향 전환입니다. 영상 생성의 다음 경쟁은 더 긴 클립이나 더 높은 해상도만으로 끝나지 않습니다. 사용자가 영상과 음악을 넣고, 대화로 편집하고, 자기 도구를 만들고, 바로 배포하는 전체 루프가 경쟁 단위가 됩니다. Omni가 실제로 얼마나 잘 작동하는지는 더 많은 사용 사례를 봐야 합니다. 그러나 Google이 어느 전장을 고르는지는 이미 분명합니다. 모델 단품이 아니라, Gemini와 Flow와 Shorts를 잇는 생성 미디어 작업대입니다.