Vera CPU 첫 배송, 에이전트 병목이 GPU 밖으로
NVIDIA Vera CPU가 OpenAI와 Anthropic 등 AI 랩에 도착했습니다. 에이전트 시대의 병목이 GPU 밖 CPU 런타임으로 이동합니다.
- 무슨 일: NVIDIA가 첫
Vera CPU시스템을 Anthropic, OpenAI, SpaceXAI, Oracle Cloud Infrastructure에 전달했습니다.- 공식 블로그 기준 첫 세 곳은 금요일, OCI는 월요일에 전달됐고, 3월 GTC 발표가 실제 고객 평가 단계로 이동했습니다.
- 핵심 의미: 에이전트 AI의 병목이 모델 추론용 GPU만이 아니라 샌드박스, 도구 호출, 코드 실행을 처리하는 CPU 계층으로 확장됩니다.
- 숫자: NVIDIA는 Vera에 88개 Olympus 코어, 1.2TB/s 메모리 대역폭, 랙당 22,500개 이상 CPU 환경 구성을 제시합니다.
- 주의점: 배송은 생산 배포가 아니라 초기 고객 평가 신호에 가깝고, 실제 비용 절감은 각 랩의 워크로드와 소프트웨어 스택에 달려 있습니다.
NVIDIA가 첫 Vera CPU 시스템을 프런티어 AI 랩에 직접 전달했습니다. NVIDIA 공식 블로그는 2026년 5월 18일, Ian Buck이 Anthropic, OpenAI, SpaceXAI, Oracle Cloud Infrastructure에 첫 Vera CPU 시스템을 전달했다고 밝혔습니다. 이 자체는 사진이 많은 배송 기사처럼 보일 수 있습니다. 하지만 사건의 핵심은 박스가 어디에 도착했느냐보다, NVIDIA가 에이전트 AI의 병목을 CPU 문제로 다시 정의하고 있다는 데 있습니다.
지난 몇 년 동안 AI 인프라 경쟁의 주인공은 대부분 GPU였습니다. 더 큰 모델, 더 긴 컨텍스트, 더 많은 토큰, 더 빠른 추론은 거의 항상 가속기 공급과 연결됐습니다. 그런데 에이전트가 단순히 답변을 생성하는 단계를 넘어 브라우저를 열고, 코드를 실행하고, 파일을 찾고, 테스트를 돌리고, 도구 호출을 조율하기 시작하면 계산 그래프의 모양이 달라집니다. 모델 호출은 GPU에서 처리되지만, 그 앞뒤의 작은 작업들은 CPU와 메모리, 네트워크, 샌드박스 런타임으로 흩어집니다.
Vera 배송은 그래서 "NVIDIA가 CPU도 냈다"라는 제품 뉴스보다 조금 더 흥미롭습니다. 에이전트 AI가 실제 업무 루프에 들어갈수록 병목이 GPU 밖으로 새어 나온다는 신호이기 때문입니다. 특히 OpenAI와 Anthropic 같은 랩은 대규모 학습뿐 아니라 코딩 에이전트, 장기 컨텍스트 추론, 도구 실행, 평가 샌드박스, 강화학습 후처리를 모두 운영해야 합니다. 이 루프에서 CPU가 늦으면 GPU가 아무리 빨라도 전체 응답은 느려질 수 있습니다.

왜 CPU가 다시 전면에 나오나
NVIDIA의 기술 블로그는 이 문제를 Amdahl의 법칙으로 설명합니다. GPU가 세대마다 더 빨라져도, 에이전트 루프 안에 남아 있는 직렬 CPU 작업이 전체 처리량을 제한할 수 있다는 뜻입니다. 에이전트가 웹 브라우저, 데이터베이스, 코드 인터프리터, 샌드박스, 파일 시스템을 사용할수록 이런 CPU-bound 작업은 줄어들기보다 늘어납니다.
코딩 에이전트를 예로 들면 구조가 선명합니다. 모델은 다음 행동을 생성합니다. 그 행동은 셸 명령, 테스트 실행, 파일 읽기, 브라우저 확인, 패키지 설치, 정적 분석 같은 실제 작업으로 바뀝니다. 그 결과가 다시 모델 컨텍스트로 들어가고, 모델은 다음 행동을 정합니다. 이때 각 작업은 짧지만 상태가 많고, 병렬 환경이 많고, 지연시간 민감도가 높습니다. 하나의 거대한 행렬 연산이 아니라 수천 개의 작은 실행 환경을 빠르게 돌리는 문제에 가까워집니다.
NVIDIA는 Vera가 이런 워크로드를 겨냥한다고 설명합니다. 공식 블로그는 Vera가 88개 NVIDIA 설계 Olympus 코어와 1.2TB/s 메모리 대역폭을 갖췄고, 코어당 성능이 50% 빠르다고 적었습니다. 3월 뉴스룸 발표는 전통적인 랙 스케일 CPU보다 두 배 효율, 50% 빠른 성능이라는 표현을 썼습니다. 수치 자체는 NVIDIA 기준의 비교이므로 독립 벤치마크가 필요하지만, 회사가 어디를 병목으로 보고 있는지는 분명합니다.
배송 대상이 말하는 것
이번 배송 대상은 우연한 고객 리스트처럼 보이지 않습니다. Anthropic과 OpenAI는 프런티어 모델 회사이면서 동시에 코딩 에이전트와 장기 실행 AI 제품을 운영하는 회사입니다. SpaceXAI는 NVIDIA 블로그 기준 강화학습 워크로드와 에이전트 기반 시뮬레이션 파이프라인을 평가하는 곳으로 등장합니다. OCI는 고객 워크로드를 다루는 클라우드 사업자입니다. 네 곳을 합치면 모델 연구, 제품형 에이전트, 시뮬레이션, 클라우드 판매 채널이 한 번에 묶입니다.
이 구성은 Vera가 단순히 GPU 옆에 붙는 호스트 CPU가 아니라는 NVIDIA의 메시지와 맞물립니다. Vera는 Vera Rubin NVL72 플랫폼에서 GPU와 NVLink-C2C로 연결되는 호스트 CPU가 될 수 있고, 별도의 액체 냉각 CPU 랙으로도 제시됩니다. 뉴스룸 발표에 따르면 Vera CPU 랙은 256개 액체 냉각 Vera CPU로 22,500개 이상의 동시 CPU 환경을 지속 실행하는 구성을 목표로 합니다. 코딩 에이전트나 강화학습 환경처럼 작은 샌드박스가 대량으로 뜨는 업무를 직접 겨냥한 표현입니다.

여기서 중요한 변화는 "AI 팩토리"라는 단어의 범위입니다. 초기 AI 팩토리는 대체로 GPU 클러스터, 전력, 냉각, 네트워킹을 뜻했습니다. 하지만 에이전트가 실제 일을 처리하려면 모델 서버만으로는 부족합니다. 실행 환경을 격리해야 하고, 도구 권한을 통제해야 하고, 수많은 짧은 작업을 추적해야 하며, 실패한 실행을 다시 모델이 읽을 수 있는 형태로 돌려줘야 합니다. AI 팩토리는 토큰 생산 공장이면서 동시에 샌드박스 운영 공장이 됩니다.
Vera는 이 두 번째 공장에 NVIDIA가 더 깊게 들어가겠다는 선언으로 읽힙니다. GPU, 네트워킹, DPU, CPU를 한 플랫폼 안에 묶으면 고객은 성능 최적화와 공급 계약을 단순화할 수 있습니다. 반대로 말하면, 프런티어 랩과 클라우드 사업자는 NVIDIA 스택에 더 깊게 잠길 수 있습니다. 그래서 이번 배송은 칩 하나의 성능 뉴스이면서, 에이전트 AI 인프라의 통제 지점이 어디로 이동하는지 보여주는 장면입니다.
코딩 에이전트 관점의 실무 영향
개발자에게 Vera라는 특정 칩을 당장 구매할 일은 많지 않습니다. 하지만 이 뉴스가 중요한 이유는 코딩 에이전트의 비용 구조를 설명해 주기 때문입니다. 에이전트가 오래 일할수록 모델 토큰 비용만이 아니라 실행 비용이 커집니다. 테스트를 20번 돌리고, 브라우저를 열고, 빌드를 반복하고, 로그를 읽고, 파일 시스템을 탐색하는 동안 CPU와 메모리, 스토리지, 네트워크가 계속 움직입니다.
많은 팀이 에이전트 도입을 모델 선택 문제로만 다룹니다. 어떤 LLM이 더 잘 코드를 쓰는지, 어떤 컨텍스트 길이가 충분한지, 어떤 프롬프트가 안정적인지에 집중합니다. 그러나 실제 운영에서는 "에이전트가 어디에서 실행되는가"가 똑같이 중요해집니다. 컨테이너를 매번 새로 띄우는지, 캐시가 보존되는지, 테스트 환경을 얼마나 빠르게 복구하는지, 브라우저 실행과 파일 접근을 어떻게 격리하는지에 따라 사용자 체감 속도가 달라집니다.
NVIDIA가 Vera를 에이전트 CPU로 포장하는 이유도 여기에 있습니다. 에이전트의 핵심 경쟁력이 모델 답변 품질에서 작업 완료 시간으로 이동하면, 작은 도구 실행의 누적 지연시간이 제품 품질이 됩니다. 사용자는 "코드를 잘 썼는가"뿐 아니라 "언제 PR이 올라왔는가", "테스트를 얼마나 신뢰할 수 있게 돌렸는가", "실패 후 얼마나 빨리 회복했는가"를 봅니다. 이 모든 질문은 모델과 런타임의 경계에 걸쳐 있습니다.
숫자를 어떻게 읽어야 하나
NVIDIA가 제시한 숫자는 강합니다. 88개 커스텀 코어, 1.2TB/s 메모리 대역폭, 50% 빠른 코어 성능, 랙당 22,500개 이상 CPU 환경, 전통적 랙 스케일 CPU 대비 두 배 효율이라는 문구가 한꺼번에 등장합니다. 다만 이 수치를 그대로 일반화하기에는 아직 이릅니다. 비교 대상과 워크로드 조건이 NVIDIA 발표 기준이고, 배송 대상 회사들이 실제 운영 결과를 공개한 것은 아닙니다.
그럼에도 숫자의 방향은 읽을 수 있습니다. Vera는 "최대한 많은 범용 코어"보다 "에이전트 루프에서 각 환경이 멈추지 않게 하는 싱글스레드 성능과 메모리 대역폭"을 강조합니다. Reddit의 r/NVDA_Stock 토론에서도 일부 사용자는 Vera Rubin이 에이전트 AI에 특화됐다는 말이 구체적으로 무엇을 뜻하는지 물었고, 다른 사용자는 단순 코어 수보다 싱글스레드와 메모리 대역폭을 핵심으로 해석했습니다. 투자 커뮤니티 반응이라 과학적 평가는 아니지만, 시장도 이 제품을 "또 다른 CPU"가 아니라 워크로드 정의의 변화로 받아들이고 있음을 보여줍니다.
기술적으로는 강화학습 후처리와 에이전트 평가가 좋은 예입니다. 모델이 어떤 행동을 선택하고, 환경에서 실행하고, 보상을 계산하고, 실패를 기록하고, 다시 정책을 업데이트하는 과정은 GPU 학습과 CPU 실행이 촘촘히 얽힙니다. 코딩 벤치마크도 마찬가지입니다. 모델이 패치를 제안하는 시간보다 테스트 환경을 준비하고 실행 결과를 수집하는 시간이 더 큰 비중을 차지할 수 있습니다. 이때 CPU 환경 밀도와 일관된 지연시간은 모델 품질 못지않게 중요해집니다.
경쟁 구도는 더 복잡해진다
Vera의 경쟁 상대를 단순히 Intel Xeon이나 AMD EPYC으로만 보면 절반만 보게 됩니다. 물론 데이터센터 CPU 시장에서는 x86과 Arm 기반 서버 CPU가 직접 비교 대상입니다. 하지만 AI 랩 입장에서는 CPU만 따로 사는 문제가 아닙니다. GPU, 네트워크, DPU, 랙 설계, 소프트웨어 스택, 클라우드 조달, 전력 밀도, 운영 도구가 함께 묶입니다.
NVIDIA의 강점은 바로 이 묶음입니다. Vera Rubin NVL72처럼 CPU와 GPU, NVLink, 네트워킹을 하나의 AI 팩토리 단위로 제시하면, 고객은 개별 부품 성능보다 전체 처리량과 운영 단순성을 보게 됩니다. 이는 NVIDIA에게 유리하지만, 고객에게는 공급망 집중 리스크도 남깁니다. 프런티어 랩은 이미 NVIDIA GPU 공급에 민감합니다. CPU와 샌드박스 실행 계층까지 같은 벤더 스택으로 들어가면 최적화와 종속성이 동시에 커집니다.
반대로 경쟁사에도 기회가 있습니다. 에이전트 런타임이 실제 병목이라면, CPU, 클라우드 샌드박스, 빠른 파일 시스템, 테스트 캐시, 브라우저 자동화 인프라, 보안 격리 기술이 모두 경쟁 축이 됩니다. AMD와 Intel은 서버 CPU 성능과 가격을, 클라우드 사업자는 자체 칩과 관리형 샌드박스를, AI 도구 회사는 실행 환경 최적화를 내세울 수 있습니다. 모델만 잘 만드는 회사보다, 모델이 행동할 수 있는 환경을 싸고 빠르게 제공하는 회사가 더 중요해지는 구도입니다.
아직 확인해야 할 것
이번 발표에서 가장 조심해야 할 점은 배송과 배포를 구분하는 일입니다. NVIDIA 블로그는 첫 시스템이 고객 손에 들어갔다고 말합니다. 그러나 이 장비가 각 회사의 대규모 프로덕션 워크로드에 바로 투입됐다는 의미는 아닙니다. 평가, 검증, 포팅, 내부 벤치마크, 공급 계획이 뒤따라야 합니다. 기술 블로그도 주요 OEM의 Vera 시스템 제공 시점을 2026년 하반기로 제시합니다.
또 하나의 질문은 소프트웨어입니다. 에이전트 병목을 줄이려면 하드웨어만 빨라서는 부족합니다. 샌드박스 스케줄러, 컨테이너 이미지 캐시, 권한 모델, 로그 수집, 네트워크 격리, 파일 시스템 성능, 모델 서버와 실행 환경 사이의 큐잉 정책이 함께 최적화돼야 합니다. Vera가 좋은 CPU라 해도, 에이전트 플랫폼이 이를 잘 활용하지 못하면 사용자는 차이를 느끼기 어렵습니다.
마지막으로 비용입니다. 에이전트 AI는 한 번의 답변보다 긴 작업을 수행합니다. 긴 작업은 더 많은 토큰, 더 많은 도구 호출, 더 많은 실행 환경을 뜻합니다. Vera가 처리량을 높여 단위 작업 비용을 낮출 수 있다면 큰 의미가 있지만, 더 많은 자동화를 가능하게 하면서 총 사용량을 더 빠르게 늘릴 수도 있습니다. 인프라 효율 개선이 곧 비용 절감으로 이어진다고 단정하기 어려운 이유입니다.
결론: 모델 밖의 병목이 다음 전장입니다
Vera CPU 첫 배송은 사진 한 장으로 끝나는 이벤트가 아닙니다. 이 사건은 에이전트 AI가 실제 업무 시스템으로 들어갈수록, 모델을 둘러싼 실행 환경이 제품 경쟁력의 일부가 된다는 점을 보여줍니다. GPU는 여전히 핵심입니다. 하지만 에이전트가 행동하고 검증하고 반복하는 순간, CPU와 메모리, 샌드박스, 네트워크가 사용자의 대기 시간을 결정합니다.
NVIDIA는 이 지점을 놓치지 않고 있습니다. GPU 공급자로 남는 대신, 에이전트 AI 팩토리의 CPU와 랙, 네트워킹, 소프트웨어 스택까지 묶으려 합니다. OpenAI와 Anthropic에 도착한 Vera 시스템은 그 전략의 초기 장면입니다. 앞으로 봐야 할 것은 배송 사진이 아니라 실제 워크로드 결과입니다. 코딩 에이전트의 테스트 루프가 빨라지는지, 강화학습 환경 처리량이 늘어나는지, 클라우드 사업자가 에이전트 샌드박스를 더 싸게 제공할 수 있는지입니다.
에이전트 시대의 인프라 경쟁은 "어떤 모델이 가장 똑똑한가"에서 끝나지 않습니다. 똑똑한 모델이 수천 개의 도구와 환경을 동시에 움직일 때, 그 일을 멈추지 않게 받쳐 주는 시스템이 필요합니다. Vera는 그 시스템의 CPU 전선을 NVIDIA가 본격적으로 열었다는 신호입니다.