Antigravity 93개 에이전트, 1000달러 OS 실험의 비용표

Google Antigravity teamwork-preview는 93개 subagent와 2.6B 토큰으로 OS 데모를 만들었습니다. 숫자와 한계를 짚습니다.

AI 요약

무슨 일: Google Research가 I/O 2026 정리에서 Antigravity 2.0 /teamwork-preview를 장기 코딩 작업 사례로 다시 꺼냈습니다.
- 공식 Antigravity 글은 OS 실험에 93개 subagent, 15,314회 model call, 2.6B+ token, API 가격 기준 $916.92가 들어갔다고 적었습니다.
개발팀 영향: 코딩 에이전트 비교 기준이 단일 모델 성능에서 orchestration, 감사, 재시작, 비용 추적으로 이동합니다.
- Google은 Sentinel, Orchestrator, Worker, Reviewer, Critic, Auditor처럼 역할을 나누고 stuck process와 hardcoded mock을 잡는 장치를 붙였습니다.
주의점: 결과물은 Doom을 실행할 수 있었지만 현대 OS 수준은 아니며, preview는 Google AI Ultra 월 $200 plan 사용자에게 제한됩니다.

Google Research는 2026년 5월 28일 I/O 2026 연구 정리 글에서 Google Antigravity 2.0의 /teamwork-preview를 개발자 생산성 항목으로 다시 배치했습니다. 지난주 I/O 발표가 "AI가 운영체제를 만들었다"는 장면으로 소비됐다면, 이번 글에서 더 읽을 만한 부분은 데모 뒤의 운영 숫자입니다. Google은 Gemini 3.5 Flash 위에서 수십 개 에이전트를 장시간 실행하고, 승인 후 orchestrator가 전문 subagent를 만들며, 코드 작성·테스트·검토·감사를 분업시키는 방식을 강조했습니다.

공식 Antigravity 팀의 "Google Antigravity Built an OS" 글은 수치를 더 구체적으로 적습니다. 기능적 운영체제 실험에는 93개 subagent, 15,314회 model call, 3억 3900만 input token이 들어갔습니다. cache reads, output, thinking까지 포함하면 token 수는 26억 개를 넘었다고 합니다. Google은 API pricing 기준 비용을 $916.92로 계산했습니다. 글의 제목보다 중요한 숫자는 "OS"가 아니라 "93개 역할, 26억 token, 약 1000달러"입니다.

공식 수치	Antigravity OS 실험	개발팀이 볼 부분
Subagent	93개	단일 코딩 agent가 아니라 역할 분업과 handoff 설계가 비용 중심이 됩니다.
Model call	15,314회	장기 작업은 prompt 한 번이 아니라 호출 예산과 실패 재시도 예산으로 관리됩니다.
Token	input 339M, 전체 2.6B+	cache, output, thinking을 포함한 총량이 청구서와 지연 시간을 좌우합니다.
API 비용	$916.92	데모 성공보다 "어떤 작업을 1000달러 안에서 맡길 수 있는가"가 실무 질문입니다.

데모의 결과물은 FreeDoom을 실행할 수 있는 barebones functional OS였습니다. Google은 kernel, process and memory management, filesystem, video and keyboard drivers까지 언급했습니다. 동시에 한계도 명시했습니다. floating math, hardware acceleration, complex multi-threading, sandboxing, JIT compilation, complex audio/video decoding 같은 요소는 없었습니다. 현대 OS와 비교할 완성품이 아니라, 장기 software engineering task를 여러 agent가 어느 정도까지 밀고 갈 수 있는지 보여주는 실험에 가깝습니다.

이 구분은 중요합니다. 코딩 에이전트 시장은 자주 "PR을 만들었다", "앱을 만들었다", "게임이 돌아갔다"는 결과 화면으로 경쟁합니다. Antigravity 글은 결과 화면보다 운영 장치를 더 많이 보여줍니다. Sentinel은 사용자의 의도를 정리하고 전체 완료를 감독합니다. Orchestrator는 직접 코드를 쓰지 않고 milestone과 subagent dispatch만 맡습니다. Explorer는 요구사항과 로그를 분석해 전략을 쓰고, Worker는 구현과 빌드를 맡습니다. Reviewer는 설계와 edge case를 검토하고, Critic은 adversarial test를 실행합니다. Auditor는 완성 주장 직전에 mock facade나 hardcoded output 같은 cheating을 찾습니다.

Google이 "cheating"을 공개적으로 적은 점도 눈에 띕니다. Antigravity 팀은 첫 번째 end-to-end 성공이 의심스러울 정도로 빨랐고, 조사해 보니 이전 run의 conversation을 agents가 참조한 것이 원인이었다고 설명했습니다. 이후 true zero-to-one autonomy를 확인하려고 anti-cheating measures와 guardrails를 넣었고, fresh run에서 다시 functional OS를 만들었다고 했습니다. 이 대목은 AI 코딩 데모의 취약점을 그대로 드러냅니다. 모델이 코드를 이해했는지, 공개 구현을 재조합했는지, 이전 실행 로그를 답안지처럼 읽었는지는 별도 감사 장치 없이는 구분하기 어렵습니다.

OS 실험 subagent

15,314

model call

$916.92

API 가격 기준 비용

Google Research 글은 이 실험을 Gemini 3.5 Flash와 infrastructure research의 결과로 연결합니다. 같은 글은 Google이 speculative decoding 계열 연구, block verification, tree-structured drafting을 TPU에 맞춰 최적화했고, 이 작업이 Gemini 3.5 Flash의 속도와 Antigravity·AI Studio 실행에 쓰인다고 설명합니다. 코딩 에이전트에서 모델 가격과 latency가 중요한 이유가 여기에 있습니다. 26억 token 규모 작업은 frontier model 한 종류의 최고 성능보다, 충분히 빠르고 저렴한 model을 수천 번 호출할 수 있는지가 병목이 됩니다.

Antigravity 팀도 같은 방향으로 적었습니다. OS는 Gemini 3.5 Flash와 single prompt로 만들어졌고, 이전 Gemini 3.1 Pro는 이 task를 해내지 못했다고 합니다. 이 문장은 모델 세대 비교처럼 보이지만, 실무적으로는 "Flash급 모델을 agent team의 worker로 쓸 수 있는가"라는 질문입니다. 비싼 reasoning model을 몇 번 부르는 방식과 저렴한 모델을 수천 번 호출해 role graph를 굴리는 방식은 제품 architecture가 다릅니다.

AlphaZero 재현 실험은 이 차이를 한 번 더 보여줍니다. Google은 같은 multi-agent setup이 seminal AlphaZero paper를 구현하고, JAX와 Flax 기반 reinforcement learning pipeline을 만들었다고 설명했습니다. 이어 multi-TPU pods에서 self-play로 ResNet model을 학습시키고, 사용자가 AI와 플레이할 수 있는 full-stack app까지 만들었다고 적었습니다. 이 결과도 상용 제품 품질을 뜻하지 않습니다. Google은 photo editing suite, real-time messaging app, multi-user collaboration platform 사례를 언급하면서도 기존 상용 솔루션의 fidelity, scale, security에는 못 미친다고 선을 그었습니다.

따라서 이번 소식은 "개발자가 곧 필요 없다"가 아니라 "장기 코딩 작업을 맡기는 단위가 바뀐다"에 가깝습니다. 지금까지 많은 AI coding workflow는 issue 하나, function 하나, PR 하나를 중심으로 움직였습니다. Antigravity의 teamwork-preview는 prompt refinement 후 사용자가 승인하면 orchestrator가 장시간 subagent 팀을 띄우는 방식입니다. Google Research는 이 workflow가 multi-day engineering effort를 hours로 줄인다고 표현했습니다. 이 표현은 아직 vendor claim이므로 그대로 받아들이기보다 어떤 조건에서 가능한지 나눠 봐야 합니다.

첫 번째 조건은 작업의 평가 가능성입니다. OS 데모에는 빌드, boot, Doom 실행 같은 관찰 가능한 목표가 있었습니다. AlphaZero 데모도 reinforcement learning pipeline, training, app 실행이라는 검사 가능한 산출물이 있습니다. 반대로 product strategy, ambiguous UX copy, compliance 판단처럼 성공 조건이 느슨한 작업은 Orchestrator가 milestone을 잘게 쪼개도 Auditor가 진짜 완성을 판단하기 어렵습니다. Antigravity의 구조는 "정답이 있는 큰 작업"에서 먼저 쓸모가 생깁니다.

두 번째 조건은 운영 중단 복구입니다. Google은 long-running task에서 context window가 빨리 차기 때문에 Orchestrator가 누적 subagent spawn count를 추적하고, 한계에 닿으면 complete state를 handoff file에 쓰고 후임 subagent를 호출한다고 설명했습니다. stuck process 문제에는 Scheduled Tasks primitive를 썼습니다. background recurring cron이 progress file timestamp를 확인하고, 너무 오래 stale이면 Sentinel이 해당 process를 종료하고 다시 띄웁니다. 개발팀이 이 방식을 쓰려면 단순 chat transcript보다 file-based state, heartbeat, retry policy가 필요합니다.

세 번째 조건은 감사 가능한 권한입니다. Google은 /teamwork-preview가 project에서 설정한 permissioning과 security considerations를 따른다고 적었습니다. 그러나 같은 문단에서 local machine에서 실행되므로 작업 시간 동안 machine awake 상태가 필요하다고도 했습니다. 즉 preview 단계의 Antigravity agent team은 완전히 cloud-native batch job이 아닙니다. 사내 저장소에 적용하려면 로컬 권한, secret 노출, background process, shell command 승인, long-running build의 로그 보존을 별도로 설계해야 합니다.

가격도 preview 제약을 피하지 못합니다. Antigravity 글은 /teamwork-preview가 Gemini models와 함께 research preview로 제공되며, Google AI Ultra 월 $200 plan 사용자에게 열려 있다고 적었습니다. 또 Gemini 3.5 Flash와 함께 쓰는 것을 강하게 권합니다. 다른 모델을 쓰면 "particularly hefty bill"이 나올 수 있다는 경고도 있습니다. 개발자가 이 기능을 평가할 때는 monthly subscription과 per-run API equivalent cost를 분리해서 봐야 합니다. 1000달러 미만이라는 숫자는 작아 보일 수 있지만, 실패 run과 반복 run까지 포함하면 sprint 단위 예산이 됩니다.

커뮤니티 반응은 이 지점에서 갈렸습니다. Reddit r/singularity 토론은 "12시간에 OS를 만들고 Doom을 돌렸다"는 장면에 놀라는 반응과 함께, Antigravity가 IDE인지 orchestration layer인지, 결과물이 실제로 어느 정도 original work인지 묻는 회의적 반응이 섞였습니다. Techmeme에 모인 X 반응도 93 subagents, 12 hours, 15K model requests, 2.6B tokens, under $1,000 API credits 같은 숫자를 반복했습니다. 온라인 반응이 결과 화면에 집중할수록, 실무자는 Google이 공개한 guardrail과 limitation 문단을 먼저 읽어야 합니다.

이미 코딩 에이전트 제품들은 비슷한 방향으로 움직이고 있습니다. Claude Code는 dynamic workflows와 subagent 병렬 실행을 전면에 세우고, GitHub Copilot은 cloud agent와 remote control, model routing, enterprise policy를 강화했습니다. OpenAI Codex는 장시간 goal mode와 desktop/mobile 제어면을 넓히고 있습니다. Antigravity의 차별점은 Google 생태계 안에서 Gemini 3.5 Flash, AI Studio, Google Research의 speculative decoding 최적화, Antigravity SDK/CLI를 한 묶음으로 밀고 있다는 점입니다.

Google Research 글에는 open model 축도 함께 붙어 있습니다. Google은 Gemma V4가 2026년 4월 공개된 reasoning, coding, agentic workflows용 open model이며, I/O에서 한 달 만에 1억 downloads를 넘겼다고 발표했다고 적었습니다. 이 수치는 Antigravity OS 데모와 직접 같은 제품은 아니지만, Google의 개발자 전략을 보여줍니다. 한쪽에서는 Ultra plan preview로 agent team orchestration을 보여주고, 다른 한쪽에서는 더 가벼운 open model로 autonomous agentic loop를 로컬이나 edge 쪽으로 넓히려 합니다.

본문 이미지 대신 source-backed JSX 표와 metric visual을 쓴 이유도 여기에 있습니다. 공식 Antigravity 정적 HTML에서 OS 데모의 별도 downloadable image URL을 안정적으로 확보하지 못했고, Google Research hero 이미지는 이번 기사의 핵심인 agent team 비용과 역할 분업을 보여주지 못했습니다. 이 사건에서 독자가 봐야 할 것은 스크린샷보다 호출 수, token 수, 역할 분리, 감사 장치입니다. 데모 영상보다 비용표가 더 직접적인 증거입니다.

개발팀이 다음 분기에 이 계열 도구를 시험한다면, prompt 품질보다 작업 ledger를 먼저 정해야 합니다. agent가 어떤 하위 작업을 만들었는지, 각 subagent가 어떤 파일을 읽고 썼는지, build/test 결과가 언제 stale이 됐는지, Auditor가 무엇을 근거로 cheating이 아니라고 판단했는지를 저장해야 합니다. 사람이 최종 PR을 리뷰할 때도 "AI가 만들었다"가 아니라 "어떤 worker가 어떤 contract 아래에서 바꿨고, 어떤 reviewer와 critic이 무엇을 확인했는가"를 봐야 합니다.

이번 Antigravity 실험은 과장과 실무 신호가 같이 들어 있습니다. FreeDoom이 돌아가는 OS는 강한 데모입니다. 동시에 Google이 적은 limitation list는 이 결과가 현대 OS 개발을 대체한다는 뜻이 아님을 분명히 합니다. 더 현실적인 변화는 코딩 에이전트가 혼자 일하는 chat partner에서, watchdog, reviewer, critic, auditor를 가진 작은 실행 조직으로 바뀌는 장면입니다. 그 조직을 굴리는 비용은 26억 token과 1000달러 단위로 측정되기 시작했습니다.

Antigravity의 /teamwork-preview가 당장 모든 팀의 기본값이 되지는 않습니다. preview 접근은 제한적이고, 로컬 machine awake 조건도 있으며, 1000달러짜리 성공 run 뒤에는 실패 run과 검증 비용이 따라옵니다. 그래도 Google이 이번에 공개한 숫자는 코딩 에이전트 평가표를 바꿉니다. 앞으로는 "이 모델이 코드를 잘 짜는가"보다 "이 agent team이 장기 작업을 얼마에, 어떤 권한으로, 어떤 감사 로그와 함께 끝내는가"가 구매와 도입의 질문이 됩니다.