Devlery
Blog/AI

Nvidia GTC 2026: GPU 회사가 $1조짜리 AI 공장 제국을 선언하다

Nvidia가 GTC 2026에서 7개 칩, 5개 랙의 Vera Rubin 플랫폼을 공개하고 2027년까지 1조 달러 매출을 전망했습니다. 추론 변곡점, AI 공장, 에이전트 스케일링이 핵심 키워드입니다.

3월 16일, Nvidia CEO Jensen Huang이 GTC 2026 키노트 무대에 섰습니다. 2시간의 프레젠테이션 끝에 남은 숫자는 하나입니다. $1조(trillion) . Blackwell과 새로운 Vera Rubin 플랫폼을 통해 2027년까지 달성하겠다는 매출 전망입니다. 6개월 전 GTC DC에서의 $5000억 전망을 두 배로 상향한 것입니다. Nvidia는 더 이상 GPU를 파는 회사가 아닙니다. AI 공장(AI Factory)을 짓는 회사입니다.

7개 칩, 5개 랙, 1개 슈퍼컴퓨터

Vera Rubin 플랫폼의 규모는 전례가 없습니다. Huang의 표현대로 "7개의 혁신적 칩, 5개의 랙, 1개의 거대한 슈퍼컴퓨터"입니다.

Vera Rubin 플랫폼

7개 칩 · 5개 랙 · 1개 슈퍼컴퓨터

7 Chips

Vera CPU· 에이전트 워크로드
Rubin GPU· 학습 가속
Groq 3 LPU· 추론 가속
NVLink 6· GPU 인터커넥트
ConnectX-9· 네트워크
BlueField-4· 스토리지
Spectrum-6· 이더넷

5 Racks

NVL72 GPU 랙

72 GPUs + 36 CPUs

Vera CPU 랙

256 Vera CPUs

Groq 3 LPX 랙

256 LPUs, 128GB SRAM

BF4 STX 스토리지 랙

KV 캐시 최적화

SPX 이더넷 랙

동서 트래픽 가속

7개 칩이 하나의 시스템으로 통합됩니다. Vera CPU는 강화학습과 에이전트 워크로드를 처리합니다. Rubin GPU는 핵심 학습 가속기입니다. 가장 주목할 것은 Groq 3 LPU(Language Processing Unit)의 통합입니다. 128GB 온칩 SRAM을 탑재한 이 추론 전용 프로세서는, GPU가 처리하기 어려운 저지연 대규모 컨텍스트 디코딩에 최적화되어 있습니다. NVLink 6 스위치, ConnectX-9 SuperNIC, BlueField-4 DPU, Spectrum-6 이더넷 스위치가 나머지 네 자리를 차지합니다.

이 칩들은 5개의 랙 시스템으로 조합됩니다. NVL72 GPU 랙(72 Rubin GPUs + 36 Vera CPUs), Vera CPU 랙(256개 CPU), Groq 3 LPX 랙(256개 LPU), BlueField-4 STX 스토리지 랙, Spectrum-6 SPX 이더넷 랙. 전체 시스템은 130만 개의 부품으로 구성됩니다.

성능 주장은 공격적입니다. 이전 Blackwell 플랫폼 대비 와트당 추론 처리량 10배 , 토큰당 비용 1/10 . LPU와 GPU가 협력하면 메가와트당 추론 처리량이 35배까지 올라간다고 합니다. 1조 파라미터 모델의 경우 10배의 수익 기회가 생긴다는 것입니다. 2026년 하반기부터 파트너 제품이 출시됩니다.

"추론 변곡점" — 이 시대의 핵심 전환

GTC 2026의 진정한 메시지는 하드웨어 스펙이 아닙니다. "추론 변곡점(Inference Inflection Point)"이라는 테제입니다.

AI의 첫 번째 시대는 학습(training)의 시대였습니다. 거대한 데이터로 모델을 만드는 것이 핵심이었고, 학습은 주기적이고 배치 처리 방식이었습니다. 수백억 달러를 들여 모델을 한 번 학습시키면, 몇 달간 그 모델을 사용했습니다.

두 번째 시대는 추론(inference)의 시대입니다. AI 에이전트가 24시간 365일 작동하면서 끊임없이 토큰을 생성합니다. 학습이 "가끔 크게 하는" 것이라면, 추론은 "항상 계속하는" 것입니다. OpenClaw 같은 AI 에이전트가 사용자를 대신해 이메일을 읽고, 파일을 정리하고, 코드를 작성하는 동안, 뒤에서는 연속적인 토큰 생성이 일어납니다.

이 전환이 왜 Nvidia에게 중요한지는 경제학으로 설명됩니다. 학습은 한 번 하고 끝나지만, 추론은 매초 일어납니다. 학습 수요는 주기적이지만, 에이전트 추론 수요는 연속적입니다. 더 많은 에이전트가 배포될수록, 더 많은 추론 칩이 필요합니다. Nvidia가 $1조를 전망하는 근거가 여기에 있습니다. 에이전트 시대는 AI 인프라의 영구적 수요를 만듭니다.

GPU에서 "AI 공장"으로

Huang은 키노트에서 데이터센터의 본질이 바뀌고 있다고 선언했습니다. 전통적 데이터센터는 데이터를 저장하거나 애플리케이션을 호스팅합니다. AI 공장(AI Factory)토큰을 생산합니다.

전통적 데이터센터

🏢

  • • 데이터 저장 · 앱 호스팅
  • • 주기적 사용 패턴
  • • 산출 단위: 요청/응답
  • • 메가와트급

AI 공장 (AI Factory)

🏭

  • 토큰 생산 이 핵심 기능
  • ✦ 24/7 연속 가동
  • ✦ 산출 단위: 토큰
  • 기가와트급 시설

이것은 단순한 마케팅 용어가 아닙니다. Nvidia의 사업 모델이 근본적으로 바뀌고 있음을 의미합니다. GPU를 개별 판매하는 것에서, 토큰을 생산하는 공장의 전체 인프라를 판매하는 것으로의 전환입니다. 7개의 칩이 각각 판매되는 것이 아니라, 5개의 랙 시스템이 하나의 통합 솔루션으로 판매됩니다.

이 전략의 핵심은 수직 통합입니다. CPU, GPU, LPU, DPU, 네트워크 스위치, 스토리지까지 모든 것을 Nvidia가 만듭니다. 이전에는 기업이 GPU만 사서 나머지는 직접 구성했다면, 이제 Nvidia는 "공장 전체를 사세요"라고 말합니다. 이것이 $1조의 비즈니스 모델입니다.

추론의 2단계 분리가 이 전략을 뒷받침합니다. AI 추론은 Prefill 단계 (입력 처리, 고처리량, GPU에 적합)와 Decode 단계 (출력 생성, 저지연 필수, LPU에 적합)로 나뉩니다. 이 두 단계를 서로 다른 전문 하드웨어로 처리함으로써, 효율을 극대화하겠다는 것입니다. Nvidia는 이 구성의 권장 비율을 "총 컴퓨트의 약 25%를 Groq LPU에 할당"이라고 제시했습니다.

경쟁사 Cerebras는 이에 도전장을 내밀었습니다. "빠른 추론의 시장 점유율이 25%에 멈추지 않고 60-80%로 빠르게 확대될 것"이라는 것입니다. 추론 전용 칩의 비중이 Nvidia의 예상보다 훨씬 커질 수 있다는 전망입니다.

OpenClaw에서 로봇택시까지 — 에이전트 생태계 구축

Huang은 키노트의 상당 부분을 에이전트 생태계에 할애했습니다. 그가 "인류 역사상 가장 인기 있는 오픈소스 프로젝트"라고 부른 OpenClaw에 대해 NemoClaw라는 레퍼런스 스택을 발표했습니다. OpenClaw를 기업 환경에서 안전하게 사용할 수 있도록 만드는 보안 및 관리 도구입니다.

이 움직임의 논리는 명확합니다. OpenClaw가 대중화될수록, 에이전트가 소비하는 추론 토큰이 늘어나고, Nvidia의 추론 인프라 수요가 증가합니다. OpenClaw의 성공은 곧 Nvidia GPU/LPU의 판매 증가로 연결됩니다.

물리적 AI 분야에서는 로봇택시 파트너십이 발표되었습니다. BYD, Hyundai, Nissan, Geely가 Nvidia의 "robotaxi-ready 플랫폼"에 합류했고, Uber와의 파트너십을 통해 여러 도시에서 로봇택시를 네트워크에 연결하기로 했습니다. Cosmos 세계 모델과 Alpamayo 자율주행 모델이 GitHub에 오픈소스로 공개되었습니다.

차세대 아키텍처 Feynman (2028년)도 예고되었습니다. Rosa CPU(Rosalind Franklin에서 명명), LP40 LPU, BlueField-5, CX10 네트워킹이 포함됩니다.

AI 모델 기업들의 축하와 속내

GTC 2026에서 가장 흥미로운 장면은 경쟁하는 AI 기업들이 모두 Nvidia를 축하하는 모습이었습니다.

Anthropic CEO Dario Amodei: "복잡한 추론과 에이전트 워크플로우에 보조를 맞출 수 있는 인프라가 필요합니다."

OpenAI CEO Sam Altman: "AI의 프론티어를 계속 밀어붙일 수 있는 기반입니다."

Mistral의 Timothée Lacroix: BlueField-4 STX가 "에이전트 AI 노력"을 가능하게 한다.

이 축하의 이면에는 의존성이 있습니다. Anthropic, OpenAI, Meta, Mistral 모두 Nvidia의 인프라 위에서 운영됩니다. AI 모델 기업들이 서로 치열하게 경쟁하지만, 모두가 Nvidia에게 돈을 지불합니다. 이것이 "AI의 곡괭이와 삽(picks and shovels)" 비유가 여전히 유효한 이유입니다.

DLSS 5 논란 — 게이머의 반란

GTC 2026에서 유일하게 부정적 반응을 받은 것은 DLSS 5 발표입니다. 게임 커뮤니티에서 82,000개 이상의 부정적 반응 (긍정 약 16%)을 기록했습니다. 새로운 AI 렌더링 기술이 게임을 "시각적으로 획일화"하고 "Nvidia의 비전을 강요"한다는 비판입니다. Resident Evil Requiem의 업데이트된 캐릭터가 특히 논란의 중심이었습니다.

Tom's Hardware 기자가 이 부정적 반응에 대해 직접 물었을 때, Huang의 답변은 간결했습니다. "그들은 완전히 틀렸습니다(They are completely wrong)."

이 논란은 사소해 보일 수 있지만, Nvidia의 전략적 도전을 상징합니다. Nvidia는 게이머의 GPU 회사에서 AI 인프라 제국으로 전환하고 있지만, 게이밍은 여전히 브랜드의 핵심 정체성입니다. AI 공장에 집중하면서 게이머를 소외시키는 것은 장기적 리스크입니다.

이것이 개발자에게 의미하는 바

GTC 2026의 메시지를 개발자 관점에서 번역하면 이렇습니다.

추론 비용은 계속 내려갑니다.와트당 추론 10배, 토큰당 비용 1/10이라는 수치가 실현되면, AI 에이전트 운영 비용이 극적으로 낮아집니다. 오늘 비용 때문에 못 만드는 에이전트가, 내년에는 만들 수 있게 됩니다.

에이전트는 24/7 인프라가 됩니다. "추론 변곡점"의 핵심은 AI가 주기적 도구에서 상시 인프라로 전환된다는 것입니다. 전기나 인터넷처럼, AI 추론은 항상 켜져 있어야 하는 것이 됩니다. 이는 에이전트를 설계할 때의 아키텍처적 전제를 바꿉니다.

수직 통합이 강화됩니다. Nvidia가 CPU부터 스토리지까지 모든 것을 만들겠다는 것은, AI 인프라 선택지가 "Nvidia 풀스택" 아니면 "직접 조합"으로 양극화될 수 있음을 의미합니다. 스타트업에게는 "Nvidia 풀스택"이 더 쉬운 선택이 될 것이고, 이는 Nvidia의 시장 지배력을 더 강화합니다.

$1조의 의미

Jensen Huang의 $1조 전망은 과장일 수 있습니다. 하지만 그 방향성은 부인하기 어렵습니다. AI의 중심이 학습에서 추론으로, 모델에서 에이전트로, GPU에서 AI 공장으로 이동하고 있습니다. 그리고 이 모든 전환의 인프라를 Nvidia가 만들고 있습니다.

AI 모델 기업들이 서로 경쟁하는 동안, Nvidia는 모든 경쟁자에게 무기를 파는 위치에 있습니다. OpenAI가 이기든 Anthropic이 이기든 Google이 이기든, 그들 모두 Nvidia의 칩 위에서 싸웁니다. $1조는 그 중립적 위치의 가격입니다.

Huang이 키노트에서 OpenClaw에 시간을 할애한 것은 우연이 아닙니다. 더 많은 에이전트가 더 많은 추론을 필요로 하고, 더 많은 추론이 더 많은 Nvidia 칩을 필요로 합니다. 에이전트 시대의 도래는 곧 Nvidia의 AI 공장 시대의 도래입니다. GTC 2026은 그 선언이었습니다.