Gemini Omni, 영상 편집이 채팅창으로 들어온 조건
Gemini Omni는 영상 생성을 대화형 편집, YouTube 배포, SynthID 출처 검증까지 묶으며 AI 영상 워크플로의 기준을 바꿉니다.
- 무슨 일: Google DeepMind가 I/O 2026에서
Gemini Omni를 공개하고 첫 제품인 Omni Flash를 Gemini 앱, Flow, YouTube Shorts에 배포했습니다.- 핵심은 텍스트-투-비디오가 아니라 이미지, 영상, 오디오, 텍스트를 섞어 대화로 계속 편집하는 워크플로입니다.
- 의미: Google은 생성형 영상을 별도 데모가 아니라 Gemini 앱, Flow, YouTube 제작 도구의 기본 기능으로 넣고 있습니다.
- 주의점: Omni 콘텐츠에는 SynthID와 C2PA가 붙지만, 초기 사용자는 정책 필터와 세대 제한, 프롬프트 방식 차이를 함께 보고 있습니다.
- AI 영상 경쟁의 병목은 모델 품질뿐 아니라 편집 제어, 배포 표면, 출처 검증으로 이동하고 있습니다.
Google I/O 2026에서 가장 많은 이름이 쏟아진 분야는 에이전트였습니다. Gemini Spark, Antigravity, Managed Agents, AI Search의 information agents까지 모두 "AI가 답하는 도구에서 행동하는 시스템으로 간다"는 메시지에 붙어 있었습니다. 그런데 생성형 미디어 쪽에서도 비슷한 이동이 일어났습니다. Google DeepMind가 공개한 Gemini Omni는 단순히 더 그럴듯한 영상을 만드는 모델이라기보다, 영상을 채팅으로 계속 수정하고, YouTube와 Flow로 바로 흘려보내고, SynthID와 C2PA로 출처를 확인하게 만드는 워크플로 발표에 가깝습니다.
공식 표현은 큽니다. Google은 Omni를 "어떤 입력에서든 무엇이든 만들기" 위한 모델로 설명합니다. 하지만 첫 번째 제공 범위는 영상입니다. DeepMind 모델 페이지는 Gemini Omni가 영상, 이미지, 텍스트, 오디오를 참조로 받아 하나의 결과물을 만들고, 편집을 한 번으로 끝내지 않고 자연어 대화로 단계별로 이어갈 수 있다고 설명합니다. Google의 I/O 2026 정리문도 같은 방향을 잡습니다. 지금은 video output부터 시작하지만, 장기적으로는 어떤 입력에서든 어떤 출력을 생성하는 모델 계열로 넓히겠다는 이야기입니다.
이 발표가 흥미로운 이유는 "영상 생성 모델 하나 더"가 아니기 때문입니다. 지난 2년의 AI 영상 경쟁은 대부분 한 문장 프롬프트에서 몇 초짜리 클립을 뽑는 장면으로 소비됐습니다. 데모는 강했지만 실제 제작 과정은 불편했습니다. 처음 생성한 결과가 마음에 안 들면 다시 프롬프트를 쓰고, 캐릭터가 바뀌면 다시 뽑고, 배경만 바꾸고 싶어도 전체 장면이 흔들렸습니다. 편집 도구로 가져가면 AI 모델의 문맥은 끊겼고, AI 도구 안에 머물면 기존 제작 도구의 세밀함이 부족했습니다. Gemini Omni가 겨냥한 지점은 이 사이의 편집 병목입니다.
DeepMind는 모델 페이지에서 Omni를 "Nano Banana, but for video"에 가깝게 설명합니다. Nano Banana가 이미지 생성과 편집에서 특정 객체, 텍스트, 레이아웃을 조작하는 방향으로 Google 제품에 들어갔다면, Omni는 그 방식을 영상으로 옮기려는 시도입니다. 사용자는 영상을 올리고, 배경을 바꾸고, 카메라 줌을 넣고, 특정 장면의 물성을 바꾸고, 참조 이미지를 붙여 스타일이나 객체를 유지하라고 말할 수 있습니다. 중요한 점은 각 편집이 앞선 편집 위에 쌓인다는 주장입니다. 영상 제작에서 이는 단순한 편의 기능이 아니라 작업의 단위가 바뀐다는 뜻입니다.

공식 데모는 이 방향을 꽤 직접적으로 보여줍니다. DeepMind 페이지에는 손바닥 위에 참조 이미지를 바탕으로 구조물이 생기거나, 한 장면의 인물을 다른 환경으로 옮긴 뒤 다시 카메라 각도를 바꾸는 예시가 나옵니다. 물리 지식도 강조합니다. Google은 Gemini Omni가 중력, 운동 에너지, 유체 역학 같은 힘의 작용을 더 잘 이해해 현실적인 움직임을 만들 수 있다고 설명합니다. 또 역사, 과학, 문화적 맥락을 활용해 단순한 포토리얼리즘을 넘어 "의미 있는 스토리텔링"으로 이어간다고 말합니다. 이 표현은 과장이 섞여 보일 수 있지만, Google이 어디를 경쟁 축으로 보는지는 분명합니다. 다음 싸움은 픽셀 품질만이 아니라 편집 가능한 장면 이해입니다.
제품 배치도 중요합니다. Gemini 앱 발표문에 따르면 Gemini Omni는 Google AI Plus, Pro, Ultra 가입자에게 전 세계 롤아웃을 시작했습니다. 사용자는 Gemini 앱에서 카메라 롤의 영상을 올리고 템플릿을 적용하거나, 자연어로 배경 교체와 시네마틱 줌 같은 편집을 요청할 수 있습니다. 같은 발표는 개인 AI 아바타 생성도 언급합니다. 이 대목은 개발자에게도 중요합니다. 영상 생성이 더 이상 독립 앱의 놀잇감이 아니라, 사용자가 매일 쓰는 AI 앱의 입력·출력 모드가 되고 있다는 신호이기 때문입니다.
Google Flow 쪽은 더 제작자 지향입니다. Google은 Flow 업데이트에서 Flow가 140개 이상 국가에서 제공되고 있다고 밝히며, Omni Flash가 Flow 안에서 실제 영상과 생성 콘텐츠를 섞고 대화형으로 반복 편집하게 한다고 설명했습니다. 특히 character consistency를 강조했습니다. 즉 장면마다 인물의 정체성과 목소리가 유지되는 것이 핵심 경쟁 요소라는 뜻입니다. Flow Agent도 함께 나왔습니다. 한 번에 프롬프트 하나를 실행하는 도구에서, 아이디어 구상, 여러 변형 생성, 일괄 편집, 자산 정리까지 맡는 제작 파트너로 바꾸겠다는 방향입니다.
YouTube 통합은 이 발표의 체급을 키웁니다. Google의 I/O 정리문은 Gemini Omni Flash가 YouTube Shorts Remix와 YouTube Create 앱에서도 18세 이상 사용자에게 무료로 제공된다고 밝혔습니다. Shorts Remix에서는 사용자가 기존 Short를 고르고, 자신이나 시각 참조를 넣고, 바꾸고 싶은 내용을 프롬프트로 설명해 새로운 버전을 만들 수 있습니다. 이것이 바로 플랫폼 회사가 가진 강점입니다. 영상 생성 스타트업은 뛰어난 모델을 내놓을 수 있지만, Google은 생성 모델을 배포 표면과 소비 표면 안에 바로 넣을 수 있습니다. YouTube 안에서 생성, 리믹스, 게시, 라벨링이 이어지면 AI 영상은 별도 파일이 아니라 플랫폼 기능이 됩니다.
그래서 Gemini Omni의 경쟁 상대는 Sora나 Runway 같은 모델만이 아닙니다. Adobe Firefly Video, CapCut, TikTok 계열 편집 도구, YouTube Shorts 제작 흐름, 그리고 크리에이터가 쓰는 협업·자산 관리 도구까지 함께 놓고 봐야 합니다. 모델이 클립을 만드는 순간보다, 사람이 몇 번의 대화로 쓸 만한 결과를 얻고 어디에 게시하며 어떻게 수정 이력을 남기는지가 더 중요해집니다. AI 제품팀 입장에서는 이 지점이 핵심입니다. 생성형 미디어 기능을 넣는다면 "프롬프트 입력창과 결과 이미지"만 만들 것이 아니라, 참조 자산, 편집 단계, 승인, 워터마크, 재사용 권한까지 설계해야 합니다.
Google이 출처 검증을 함께 전면에 놓은 것도 우연이 아닙니다. DeepMind 모델 페이지는 Gemini 앱, Google Flow, YouTube에서 Omni로 생성·편집된 콘텐츠에 SynthID 디지털 워터마크와 C2PA Content Credentials가 포함된다고 설명합니다. 같은 날 Google은 콘텐츠 출처 검증 발표를 별도로 냈습니다. 이 발표에 따르면 SynthID는 지금까지 1000억 개 이상 이미지와 영상, 6만 년 분량의 오디오에 적용됐습니다. Gemini 앱의 SynthID 검증 기능은 전 세계에서 5000만 회 사용됐고, Google은 이를 Search와 Chrome으로 확장한다고 밝혔습니다.
이 숫자는 Gemini Omni를 읽는 방식을 바꿉니다. AI 영상은 품질이 높아질수록 더 큰 신뢰 비용을 만듭니다. 사람이 만든 영상인지, AI로 생성됐는지, 카메라 원본인지, 어느 도구로 수정됐는지 확인하는 일이 제작 도구 밖의 사회적 문제로 번집니다. Google은 여기서 두 가지를 동시에 잡으려 합니다. 하나는 SynthID 같은 비가시 워터마크입니다. 다른 하나는 C2PA처럼 파일의 생성·수정 이력을 표시하는 공개 표준입니다. 완벽한 해법은 아니지만, YouTube와 Search와 Chrome을 가진 회사가 검증 UI를 배포하면 영향력은 큽니다.
개발자 관점에서 이 부분은 모델 API보다 더 실무적일 수 있습니다. 앞으로 AI 영상 기능을 제품에 넣는 팀은 "생성했는가"만 기록해서는 부족합니다. 어떤 입력을 썼는지, 사용자가 어떤 편집을 지시했는지, 결과물이 어느 모델과 도구를 거쳤는지, 외부 플랫폼에서 어떻게 표시될지까지 생각해야 합니다. 특히 사용자 생성 콘텐츠, 광고, 교육, 뉴스, 보험, 커머스처럼 영상의 출처가 신뢰와 직접 연결되는 분야에서는 C2PA, 워터마크 검증, 업로드 정책이 제품 요구사항이 됩니다. Google이 Gemini Omni와 출처 검증을 같은 I/O 묶음에 넣은 것은 생성과 검증이 분리될 수 없다는 판단으로 볼 수 있습니다.
물론 초기 반응이 모두 매끄럽지는 않습니다. 2026년 5월 22일 기준 Hacker News에서 Gemini Omni 단독 대형 토론은 아직 뚜렷하지 않았습니다. 대신 Reddit의 영상 생성 커뮤니티와 Gemini 커뮤니티에서는 기대와 불만이 섞여 있습니다. r/VEO3의 일부 사용자는 물리 기반 장면과 참조 입력 결합을 강점으로 언급하면서도, 기존 Veo나 다른 영상 모델의 프롬프트 방식을 그대로 쓰면 결과가 기대와 달라진다고 봤습니다. r/GeminiAI에서는 정책 필터가 너무 자주 걸린다는 불만도 나왔습니다. 이런 반응은 표본이 작고 비공식이므로 그대로 일반화할 수는 없습니다. 다만 새 모델이 강력해질수록 사용법, 제한, 안전 필터가 제품 경험의 일부가 된다는 점은 확인할 수 있습니다.
정책 필터 문제는 특히 영상 모델에서 더 예민합니다. 텍스트 모델도 안전 제한이 중요하지만, 영상은 인물, 음성, 신체, 장소, 브랜드, 저작권, 미성년자, 정치적 맥락이 한 화면에 섞입니다. Google이 개인 AI 아바타와 YouTube Shorts Remix를 동시에 밀고 있다면 안전 정책은 더 보수적으로 설계될 수밖에 없습니다. 사용자는 "내 영상인데 왜 막히는가"라고 느낄 수 있고, 플랫폼은 "한 번 잘못 풀리면 대규모 오용이 된다"고 볼 수 있습니다. Gemini Omni의 초기 마찰은 모델 성능 문제라기보다 생성형 영상 제품이 피하기 어려운 운영 문제에 가깝습니다.
또 하나의 현실적 변수는 세대 수와 비용입니다. Google은 Gemini Omni Flash를 Google AI Plus, Pro, Ultra 가입자에게 제공한다고 밝혔지만, 실제 사용 가능량은 지역, 계층, 제품 표면에 따라 달라질 수 있습니다. YouTube Shorts 쪽 무료 제공도 18세 이상 사용자와 지원 기능 범위라는 조건이 붙습니다. 영상 생성은 텍스트 생성보다 계산 비용이 훨씬 큽니다. 대화형 편집은 한 번 생성하고 끝나는 작업보다 더 많은 반복을 부릅니다. 따라서 "대화로 편집한다"는 UX가 성공하려면 모델 품질만큼이나 세대 제한, 대기 시간, 실패 재시도 비용을 예측 가능하게 보여줘야 합니다.
AI 제품을 만드는 팀에는 Gemini Omni가 세 가지 질문을 던집니다. 첫째, 입력의 경계가 어디까지 확장되는가입니다. 텍스트 프롬프트만 받던 기능은 이미지, 영상, 오디오, 스케치, 기존 작업 파일을 함께 받아야 할 수 있습니다. 둘째, 편집을 상태ful하게 관리할 것인가입니다. 사용자는 "아까 장면에서 배경만 바꿔줘"라고 말합니다. 그러려면 제품은 결과물뿐 아니라 편집 단계와 참조 자산을 계속 기억해야 합니다. 셋째, 결과물의 출처를 어떻게 보존할 것인가입니다. AI 생성 콘텐츠가 플랫폼 밖으로 나가도 검증 가능한 흔적이 남아야 합니다.
이 세 질문은 코딩 에이전트와도 닮아 있습니다. 코딩 에이전트가 단발 답변에서 파일 변경, 테스트, 리뷰, 배포로 이동하며 권한과 로그, 샌드박스가 중요해졌듯이, 영상 에이전트도 단발 생성에서 다단계 편집, 자산 관리, 게시, 검증으로 이동합니다. Google Flow Agent가 제작의 여러 단계를 맡고, Gemini Omni가 편집 가능한 영상을 만들고, YouTube가 배포 표면을 제공하면 생성형 영상은 점점 agentic workflow가 됩니다. 여기서 에이전트라는 말은 꼭 자율 실행만 뜻하지 않습니다. 사용자의 의도를 여러 단계의 작업으로 나누고, 자산과 상태를 유지하며, 결과를 검증하는 제품 구조를 뜻합니다.
경쟁 구도도 이 관점에서 보면 더 선명합니다. OpenAI Sora가 강력한 영상 생성 모델과 소비자 앱을 갖고 있다면, Google은 Gemini 앱, Flow, YouTube, Search, Chrome이라는 분산된 표면을 갖고 있습니다. Adobe는 전문 제작 도구와 기존 크리에이티브 워크플로를 갖고 있습니다. ByteDance 계열 도구는 숏폼 제작과 배포 감각이 강합니다. 누가 가장 사실적인 영상을 만드는지도 중요하지만, 장면을 얼마나 안정적으로 고치고, 기존 자산을 얼마나 잘 참조하고, 결과물을 어느 플랫폼에서 어떻게 신뢰하게 만드는지가 승부처가 됩니다.
Gemini Omni의 제목에서 "조건"이라는 말을 붙일 수밖에 없는 이유가 여기에 있습니다. AI 영상이 채팅창으로 들어오려면 모델이 영상을 잘 만드는 것만으로는 부족합니다. 사용자는 여러 입력을 섞어야 하고, 같은 장면을 계속 고쳐야 하고, 인물과 목소리가 유지돼야 하고, 정책 필터가 납득 가능해야 하고, 결과물의 출처가 검증돼야 합니다. Google의 발표는 이 조건들을 한꺼번에 제품 묶음으로 제시했습니다. 아직 실제 사용량과 품질, 제한 정책은 더 지켜봐야 합니다. 그러나 방향은 분명합니다. AI 영상 경쟁은 "한 번에 멋진 클립"에서 "계속 고칠 수 있고 추적 가능한 제작 워크플로"로 이동하고 있습니다.
개발자와 AI 제품팀이 지금 확인할 것은 데모 영상의 화려함보다 워크플로의 모양입니다. Gemini Omni가 충분히 안정적인지, Flow Agent가 실제 제작 시간을 줄이는지, YouTube Remix가 창작과 저작권의 경계를 어떻게 다루는지, SynthID와 C2PA 검증이 플랫폼 밖에서도 의미를 유지하는지 봐야 합니다. 이 질문에 답이 쌓이면 Gemini Omni는 단순한 영상 모델 출시가 아니라 생성형 미디어 제품의 새 기본 설계를 보여준 사건으로 남을 수 있습니다.