Devlery
Blog/AI

88코어 Vera가 도착했다, 에이전트 공장의 CPU 병목

NVIDIA Vera CPU의 첫 AI 연구소 전달은 에이전트 인프라 병목이 GPU 추론에서 CPU orchestration으로 넓어지고 있음을 보여줍니다.

88코어 Vera가 도착했다, 에이전트 공장의 CPU 병목
AI 요약
  • 무슨 일: NVIDIA가 첫 Vera CPU 시스템을 Anthropic, OpenAI, SpaceXAI, OCI에 전달했습니다.
    • Vera는 88개 Olympus cores와 1.2 TB/s memory bandwidth를 앞세운 agentic AI용 CPU입니다.
  • 의미: 에이전트 비용 병목이 GPU 추론만이 아니라 sandbox, tool calling, orchestration, long-context 상태 관리로 확장됐습니다.
  • 관전점: NVIDIA의 주장은 강하지만, 실제 workload별 효율은 AI labs와 cloud provider의 검증을 더 봐야 합니다.
    • OCI는 2026년부터 수십만 개 Vera CPU 배포를 계획한다고 밝혔지만, 이는 NVIDIA 블로그에 인용된 공급자 계획입니다.

NVIDIA가 Vera CPU를 다시 뉴스의 중앙으로 끌어올렸습니다. 이번에는 기조연설 무대가 아니라 배송 현장입니다. NVIDIA는 2026년 5월 18일 공식 블로그에서 첫 Vera CPU 시스템을 Anthropic, OpenAI, SpaceXAI, Oracle Cloud Infrastructure에 전달했다고 밝혔습니다. 3월 GTC에서 "agentic AI를 위한 CPU"라고 소개한 제품이 실제 AI 연구소와 클라우드 사업자의 검증 장비로 넘어간 장면입니다.

이 사건이 흥미로운 이유는 단순히 NVIDIA가 CPU를 판다는 데 있지 않습니다. AI 인프라 담론은 지난 2년 동안 거의 GPU, HBM, inference throughput, training cluster 이야기로 압축돼 있었습니다. 그런데 에이전트형 AI가 제품의 중심으로 올라오면서 병목의 위치가 달라지고 있습니다. 모델이 답을 한 번 생성하는 구조라면 GPU가 가장 큰 무대입니다. 하지만 모델이 코드를 실행하고, 파일을 읽고, 검색을 반복하고, sandbox를 띄우고, 결과를 검증하고, 다시 계획을 수정하는 구조라면 GPU 바깥의 일이 급격히 늘어납니다. 그 바깥을 NVIDIA는 이번에 CPU의 언어로 정의했습니다.

NVIDIA의 표현은 노골적입니다. 공식 블로그는 "AI agents don't run on GPUs alone"이라고 적고, 모든 agentic sandbox, tool call, orchestration layer, long-context retrieval operation이 CPU 작업이라고 설명합니다. 이 문장은 제품 홍보 문구이지만, 동시에 최근 개발자들이 체감하는 문제와 닿아 있습니다. Claude Code, Codex, Copilot coding agent, Google Antigravity 같은 시스템은 모델 호출보다 더 넓은 실행 환경을 요구합니다. 코드베이스를 checkout하고, dependency를 설치하고, 테스트를 돌리고, 브라우저를 열고, 로그를 분석하는 동안 CPU와 memory bandwidth, I/O, 네트워크가 모두 함께 바빠집니다.

NVIDIA Vera CPU 시스템이 OpenAI에 전달되는 모습

공식 블로그에 따르면 첫 전달은 금요일에 Anthropic, OpenAI, SpaceXAI에서 이뤄졌고, 다음 월요일에는 OCI에 전달됐습니다. Anthropic에서는 compute 책임자가 Vera를 "agentic workloads" 문제를 풀 생태계의 일부로 봤고, OpenAI에서는 compute infrastructure 책임자가 시스템 내부를 확인했습니다. SpaceXAI는 reinforcement learning workload와 agent-based simulation pipeline에 Vera를 평가하고 있습니다. OCI는 2026년부터 수십만 개의 Vera CPU를 배포할 계획이라고 밝혔습니다.

여기서 중요한 점은 Vera가 "GPU를 대체하는 CPU"가 아니라는 것입니다. NVIDIA가 그리는 그림은 CPU와 GPU의 역할 분담입니다. Vera는 standalone CPU system으로도 쓰이고, Vera Rubin NVL72에서는 Rubin GPU의 host CPU로 들어갑니다. 공식 자료는 Vera가 second-generation NVLink-C2C를 통해 Rubin GPU와 연결되고, 1.8 TB/s coherent bandwidth를 제공한다고 설명합니다. NVIDIA가 말하는 "AI factory"에서 CPU는 주변 장치가 아니라 control plane, data movement, tool execution, memory coordination을 붙잡는 장치가 됩니다.

88
Olympus CPU cores
1.2 TB/s
memory bandwidth
256
CPUs in one rack
22,500+
concurrent CPU environments

3월 보도자료의 숫자를 보면 NVIDIA가 어떤 workload를 겨냥하는지 더 선명해집니다. Vera CPU는 88개 NVIDIA-designed Olympus cores, LPDDR5X 기반 memory subsystem, 최대 1.2 TB/s bandwidth를 제시합니다. NVIDIA는 traditional rack-scale CPU 대비 결과를 두 배 효율로, 50% 빠르게 낸다고 주장합니다. 또 256개 liquid-cooled Vera CPU를 묶은 rack이 2만2500개 이상의 concurrent CPU environment를 full performance로 유지할 수 있다고 설명합니다. 에이전트가 늘어날수록 필요한 것은 "한 모델의 한 번 추론"만이 아니라 "동시에 떠 있는 많은 실행 환경"이라는 메시지입니다.

이것은 개발팀의 운영 감각과도 연결됩니다. 지금 많은 AI 제품팀은 모델 품질뿐 아니라 agent session의 총비용, browser sandbox의 유지 시간, background job의 retry, repository checkout 비용, test runner 대기 시간, tool execution timeout을 함께 관리합니다. 사용자는 "코딩 에이전트가 답을 잘하느냐"보다 "작업이 끝까지 돌아가느냐", "중간에 멈추지 않느냐", "승인 후 얼마나 빨리 PR을 열어주느냐"를 체감합니다. 이 구간에서 CPU는 다시 중요한 비용축이 됩니다.

NVIDIA가 Vera를 Anthropic과 OpenAI에 먼저 들고 간 것도 상징적입니다. 두 회사는 frontier model 경쟁의 대표 주자이면서 동시에 코딩 에이전트, enterprise workflow, long-horizon tool use를 제품 표면으로 끌어올리는 회사입니다. Anthropic은 Claude Code와 Claude Cowork를 통해 개발자와 사무직 workflow를 겨냥하고 있고, OpenAI는 Codex와 ChatGPT 기반 작업 환경을 확장하고 있습니다. 이런 제품은 좋은 모델을 넘어서 지속 실행 환경, 파일 시스템, 브라우저, network egress, 권한, 관측성, 비용 제어를 필요로 합니다.

물론 NVIDIA의 메시지를 그대로 받아들이기만 하면 안 됩니다. "agentic AI용 CPU"라는 말은 넓습니다. 어떤 에이전트는 대부분 inference-bound이고, 어떤 에이전트는 code execution-bound이며, 어떤 에이전트는 database와 retrieval latency에 묶입니다. 또한 NVIDIA가 공개하는 성능 수치는 대체로 자사가 정의한 대상 workload와 reference architecture에 맞춰져 있습니다. 커뮤니티 반응에서도 이 지점이 보입니다. Reddit의 하드웨어 토론에서는 Vera가 AI-oriented workload에서는 의미가 있지만, 일반 서버 CPU 시장에서 AMD EPYC나 Intel Xeon을 전면 대체한다고 보기에는 비교 조건을 더 봐야 한다는 의견이 나옵니다.

그래도 방향은 분명합니다. AI 모델이 "답변하는 엔진"에서 "행동하는 작업자"로 바뀔수록, 시스템은 더 많은 작은 일을 동시에 처리해야 합니다. tool call은 API latency와 serialization 비용을 만들고, sandbox는 process와 filesystem 비용을 만들며, RL rollout은 많은 environment instance를 요구합니다. long-context agent는 memory와 storage 계층을 계속 건드립니다. GPU가 토큰을 생성하는 동안 CPU가 준비, 검증, 정리, 재시도를 하지 못하면 전체 pipeline의 utilization이 떨어집니다. NVIDIA가 말하는 extreme codesign은 이 단절을 줄이려는 전략입니다.

에이전트 작업GPU 중심 병목CPU 중심 병목
코딩 에이전트계획 생성, 코드 수정 제안, 리뷰 추론checkout, install, compile, test, sandbox 유지
연구 에이전트요약, 가설 생성, 긴 문맥 reasoning검색, 데이터 정리, Python 실행, 결과 검증
RL/시뮬레이션policy/value model 학습과 추론대량 environment rollout, orchestration, state sync

OCI의 발언은 cloud competition 측면에서도 중요합니다. NVIDIA 블로그는 OCI가 2026년부터 수십만 개 Vera CPU를 배포할 계획이라고 인용했고, OCI를 Vera를 hyperscale로 배포하는 첫 cloud provider라고 설명했습니다. 만약 이 계획이 실제 서비스 SKU와 가격표로 이어진다면, 클라우드의 AI 인프라 경쟁은 GPU quota 경쟁에서 "agentic runtime을 어떤 CPU/GPU/memory/storage 조합으로 싸게 제공하느냐"로 넓어질 수 있습니다. 개발자 입장에서는 모델 API 가격만 보는 것이 아니라 에이전트 실행 시간, sandbox lifetime, tool execution concurrency, cold start 성격까지 비교하게 됩니다.

이 변화는 AI coding tool에도 직접 영향을 줍니다. 공식 보도자료는 Cursor가 Vera를 채택해 AI coding agent 경험의 throughput과 efficiency를 높이려 한다고 소개합니다. 여기서 핵심은 "모델을 바꾸면 코딩 에이전트가 빨라진다"는 단순 공식이 아니라, 전체 작업 graph의 throughput이 중요하다는 점입니다. 같은 모델을 써도 repository 규모, dependency graph, test suite, browser automation, CI 연결 방식에 따라 사용자가 느끼는 속도는 달라집니다. Vera는 이 하위 계층을 NVIDIA 플랫폼 안으로 끌어들이려는 시도입니다.

다만 현재 단계에서 기사 제목을 "CPU 시장의 승자 교체"로 쓰는 것은 과합니다. Vera는 full production과 partner availability를 말하고 있지만, 실제 대규모 운영 데이터는 아직 제한적입니다. benchmark도 workload 선택에 민감합니다. 특히 일반-purpose database, web service, storage, enterprise backend workload에서 Vera가 어느 정도 경쟁력을 보일지는 별도의 문제입니다. NVIDIA가 강한 영역은 GPU와 함께 묶은 AI factory 설계이고, Vera의 설득력도 그 통합 설계 안에서 가장 큽니다.

그래서 이번 사건의 더 정확한 독해는 "NVIDIA가 CPU 시장을 먹으러 왔다"보다 "에이전트가 CPU를 AI 인프라 전략의 1급 요소로 되돌렸다"에 가깝습니다. GPU shortage가 AI 시대의 첫 번째 병목이었다면, 에이전트 시대의 다음 병목은 실행 환경의 밀도와 조율입니다. 수천 개 agent session이 동시에 코드를 실행하고, tool을 호출하고, 상태를 보존하고, 실패를 복구해야 한다면, CPU는 다시 제품 경험의 일부가 됩니다.

개발팀이 지금부터 봐야 할 질문도 바뀝니다. 모델 선택과 prompt 품질만으로는 충분하지 않습니다. agent runtime이 어떤 sandbox를 쓰는지, tool call이 어디서 실행되는지, long-running session의 state가 어떻게 저장되는지, test와 browser automation이 어느 계층에서 병목이 되는지, 비용 관측성이 token 단위에 머무르는지 infrastructure 단위까지 내려가는지를 함께 봐야 합니다. Vera는 그 질문에 대한 NVIDIA식 답입니다.

결론적으로 Vera의 첫 전달은 한 회사의 CPU 출시 소식보다 더 큰 흐름을 보여줍니다. AI agent는 추론 제품인 동시에 분산 시스템입니다. 분산 시스템이 된 순간 병목은 모델 내부에만 머물지 않습니다. Anthropic, OpenAI, SpaceXAI, OCI로 간 첫 Vera 장비는 이 사실을 하드웨어 공급망의 언어로 확인시켜 줍니다. 이제 에이전트 인프라 경쟁은 더 좋은 GPU를 얼마나 많이 확보하느냐와 함께, 그 GPU를 쉬지 않게 먹여 살리는 CPU, memory, storage, network, sandbox 계층을 누가 더 촘촘히 설계하느냐로 이동하고 있습니다.