Devlery
Blog/AI

NVIDIA 320억 로보택시 모델, 폐쇄 루프 학습까지 공개

NVIDIA Alpamayo 2 Super는 32B VLA, AlpaGym, OmniDreams, agent skills를 묶어 L4 로보택시 개발 파이프라인을 엽니다.

NVIDIA 320억 로보택시 모델, 폐쇄 루프 학습까지 공개
AI 요약
  • 무슨 일: NVIDIA가 GTC Taipei에서 Alpamayo 2 Super를 320억 매개변수 open reasoning VLA 모델로 발표했습니다.
    • 추론 코드는 GitHub, 모델 가중치는 Hugging Face에서 2026년 여름 제공될 예정입니다.
  • 개발 파이프라인: AlpaGym, OmniDreams, CoC auto-labeling, physical AI agent skills가 함께 공개됐습니다.
  • 주의점: 공개 모델은 로보택시 완성을 뜻하지 않습니다. 실제 도로 검증, 안전 중복성, 라이선스와 상업 사용 조건은 별도 확인 대상입니다.
    • 기존 Alpamayo 1 저장소는 24GB 이상 NVIDIA GPU와 비상업 모델 가중치 제한을 명시합니다.

NVIDIA가 2026년 6월 1일 GTC Taipei에서 Alpamayo 2 Super를 발표했습니다. 발표문 기준으로 이 모델은 320억 매개변수의 reasoning 기반 vision-language-action 모델입니다. 대상은 일반 챗봇이나 코딩 모델이 아니라 Level 4 로보택시 개발입니다. NVIDIA는 동시에 AlpaGym, OmniDreams, Omniverse NuRec 기반 physical AI agent skills, CoC Auto-Labeling Pipeline을 묶어 공개했습니다. 그래서 이번 뉴스는 "자율주행 모델 하나가 커졌다"보다 "로보택시 개발 파이프라인을 오픈 모델, 시뮬레이션, 자동 라벨링, 에이전트 스킬로 묶었다"에 가깝습니다.

NVIDIA Alpamayo 제품 페이지의 공식 이미지. Alpamayo는 open VLA model, simulation framework, RL infrastructure, physical AI dataset을 AV 개발 스택으로 설명합니다..

Alpamayo는 2026년 1월 CES에서 먼저 등장했습니다. 당시 NVIDIA는 초기 Alpamayo 제품군을 발표했습니다. 발표 대상은 Alpamayo 1, AlpaSim, Physical AI Open Datasets였고, NVIDIA는 long-tail 주행 상황을 reasoning VLA 모델로 다루겠다고 설명했습니다. 현재 NVlabs/alpamayo GitHub 저장소의 README는 Alpamayo 1을 trajectory prediction과 Chain-of-Causation reasoning trace 출력용 모델로 정의합니다. 추론에는 24GB 이상 NVIDIA GPU가 필요하고, 모델 가중치는 비상업 라이선스라고 적혀 있습니다. 이번 2 Super 발표는 이 초기 연구용 공개 모델을 320억 teacher model, 360도 인식, meta-action, 폐쇄 루프 강화학습 쪽으로 확장한 사건입니다.

NVIDIA가 강조한 첫 수치는 10B에서 32B로 커진 매개변수 규모입니다. 발표문은 Alpamayo 2 Super가 기존 100억 매개변수 세대 대비 3배 규모이며, NVIDIA Cosmos world foundation models 위에 만들어졌다고 설명합니다. 기능 범위도 trajectory generation에서 reasoning, planning, action across the full driving stack으로 넓혔다고 말합니다. 이 문장은 자동차 업계 독자에게는 민감합니다. 주행 stack은 perception, prediction, planning, control, safety monitor, fallback policy, map, fleet learning으로 나뉘고, 어느 하나의 foundation model이 곧바로 전체를 대체한다고 말하기 어렵기 때문입니다. NVIDIA의 더 정확한 포지션은 32B 모델을 차 안에 그대로 넣는 것이 아니라 teacher model로 쓰고, 작은 모델로 distill해 DRIVE AGX Thor 같은 차량용 컴퓨트에 연결한다는 쪽입니다.

32B
Alpamayo 2 Super 매개변수
3배
기존 10B 세대 대비 규모
40만
NVIDIA가 밝힌 Alpamayo 다운로드 근접치

두 번째 변화는 카메라 범위와 출력 형식입니다. NVIDIA는 Alpamayo 2 Super가 전방 중심 카메라에서 front, side, rear를 포함한 360도 situational awareness로 확장됐다고 설명합니다. 출력에는 yield, lane change, stop 같은 Meta-Action이 추가됩니다. 기존의 trajectory prediction은 "어디로 갈 것인가"를 좌표나 경로로 냅니다. Meta-Action은 그 위 단계의 결정, 예컨대 양보할지, 차선을 바꿀지, 멈출지를 downstream planner에 넘기는 형식입니다. 자율주행 시스템에서 이 구분은 중요합니다. 사고 조사와 안전 검증은 좌표 하나보다 "왜 양보하지 않았는가", "왜 lane change를 선택했는가" 같은 인과 설명을 요구하기 때문입니다.

NVIDIA가 Chain-of-Causation, 줄여서 CoC라고 부르는 라벨도 같은 맥락입니다. 발표문은 reasoning auto-labeling과 2D grounding을 통해 raw driving clip에서 decision-grounded and causally linked CoC label을 생성한다고 설명합니다. NVIDIA의 주장대로라면 annotation cycle은 months에서 days로 줄어듭니다. 사람 라벨러가 장면을 보고 객체, 경로, 의사결정 이유를 따로 표시하던 작업 일부를 foundation model이 대신 채우는 방식입니다. 다만 여기서 생성된 reasoning label이 실제 안전 근거가 되려면 별도 검증이 필요합니다. 모델이 만든 설명은 사람이 읽기 좋은 텍스트일 수 있지만, 규제기관이나 safety case에서는 센서 입력, scene reconstruction, failure replay, 독립 평가 데이터와 맞아야 합니다.

항목Alpamayo 1 공개 저장소Alpamayo 2 Super 발표
모델 규모10B급 Alpamayo-R1/1.5 계열32B reasoning VLA teacher model
주요 출력trajectory prediction과 CoC reasoning trace360도 인식, Meta-Action, reasoning auto-labeling
학습 루프SFT와 RL post-training recipe가 별도 저장소로 이동AlpaGym 폐쇄 루프 RL과 OmniDreams scenario 생성
배포 상태GitHub 코드와 Hugging Face 모델 카드 운영 중2026년 여름 GitHub inference code와 Hugging Face weights 예정

이번 발표에서 개발자 관점으로 더 큰 부분은 AlpaGym입니다. NVIDIA는 open-loop training을 recorded data에 대한 단일 action 평가로 설명합니다. AlpaGym은 AlpaSim 안에서 brake, steering, navigation 선택이 환경에 영향을 주는 continuous decision and observation cycle을 실행한다고 설명합니다. 로보택시 모델이 한 프레임에서 좋은 경로를 예측해도, 다음 초에 그 선택이 다른 차량과 보행자의 반응을 바꿉니다. 폐쇄 루프 환경은 이 compounding error를 드러내기 위해 필요합니다. LLM 에이전트로 비유하면, 한 번의 답변 점수보다 tool call을 여러 번 수행한 뒤 시스템 상태가 어떻게 변했는지를 보는 평가에 가깝습니다.

OmniDreams는 rare 및 long-tail driving scenario를 photorealistic closed-loop AV scenario로 생성하는 월드 모델입니다. 자율주행 데이터의 병목은 흔한 차선 유지 장면이 아니라 드문 조합입니다. 공사 구간, 비정상 주차, 불완전한 표지, 야간 역광, 보행자의 예측 불가능한 움직임 같은 장면은 실제 fleet data만으로 충분히 빨리 모으기 어렵습니다. NVIDIA는 Omniverse NuRec을 이용한 Neural Reconstruction skill도 함께 언급했습니다. 실제 fleet driving scenario를 photorealistic 3D scene으로 재구성하고, sensor configuration이 다른 차량에도 맞게 변형해 synthetic training data를 만든다는 설명입니다.

실제 fleet clip과 Physical AI AV Dataset

CoC auto-labeling과 2D grounding

AlpaGym 폐쇄 루프 RL과 OmniDreams long-tail scenario

작은 차량용 모델로 distill 후 DRIVE Hyperion 계열에 연결

Physical AI agent skills라는 표현도 놓치기 어렵습니다. 발표문은 NVIDIA Agent Toolkit 아래에 Neural Reconstruction, OmniDreams, AlpaGym skills를 제공해 개발자와 coding agent가 simulation, data generation, closed-loop training workflow를 따라가게 한다고 설명합니다. 일반 소프트웨어 개발에서 agent skill은 저장소 규칙, 테스트 방법, 배포 절차를 에이전트가 읽는 instruction artifact로 쓰입니다. NVIDIA의 표현은 이 패턴을 AV 개발 도구로 옮깁니다. 사람이 "NuRec으로 이 fleet clip을 재구성하고, OmniDreams로 rare scenario를 만들고, AlpaGym에서 closed-loop RL을 돌려라"라고 지시하면 코딩 에이전트가 도구 호출 순서를 안내받는 구조입니다.

이 지점에서 Alpamayo는 모델 공개와 플랫폼 잠금의 경계에 서 있습니다. GitHub와 Hugging Face로 모델과 코드를 여는 것은 연구자와 작은 AV 팀에게 진입 비용을 낮춥니다. 동시에 개발 파이프라인은 Omniverse, NuRec, DRIVE AGX Thor, DRIVE Hyperion, NVIDIA GPU로 자연스럽게 이어집니다. 오픈소스 전략이 곧 탈플랫폼 전략은 아닙니다. 오히려 foundation model과 recipe를 열어 개발자가 NVIDIA stack 안에서 빠르게 실험하도록 만드는 방식입니다. CUDA가 연구와 제품 개발의 기본값이 된 것처럼, physical AI에서도 데이터셋, 시뮬레이션, 차량용 컴퓨트, agent skills를 한 벤더가 묶으려는 계산이 보입니다.

상업 사용 조건은 아직 기사 작성 시점에서 확인해야 할 부분입니다. 기존 Alpamayo 1 GitHub README는 inference code는 Apache 2.0이지만 모델 weights는 non-commercial license라고 적습니다. Alpamayo 2 Super 발표문은 "open"이라는 표현을 쓰고 여름 공개 계획을 말하지만, 최종 Hugging Face model card가 나오기 전까지 상업 배포, derivative model, fleet data fine-tuning, OEM 사용권을 단정할 수 없습니다. AI 팀이 지금 할 수 있는 일은 발표문을 보고 제품 계획에 바로 넣는 것이 아니라, 여름 공개 시 license, model card, safety limitation, required hardware, data usage terms를 확인하는 체크리스트를 만드는 것입니다.

커뮤니티 반응은 아직 작습니다. HN에서 의미 있는 토론은 찾지 못했습니다. Reddit r/artificial의 6월 1일 게시물은 32B teacher model, 360도 인식, meta-actions, AlpaGym, OmniDreams를 묶어 해석했습니다. 작성자는 autonomy가 recorded driving trajectory prediction에서 simulation loop 기반 reasoning system으로 이동한다고 봤습니다. 같은 게시물은 NVIDIA의 포지셔닝이 로보택시 문제가 해결됐다는 증거는 아니며, weights가 여름 예정이고 real-world validation이 가장 어려운 부분이라고 덧붙였습니다. 1월 Alpamayo 1 공개 당시 SelfDrivingCars와 Tesla 관련 커뮤니티에서도 비슷한 선이 보였습니다. 공개 모델이라는 점은 크게 봤지만, 실제 무인 주행 마일리지와 안전 검증은 Waymo, Tesla, Mobileye 같은 배포 경험과 따로 비교해야 한다는 반응이 있었습니다.

경쟁 구도에서 NVIDIA는 Waymo나 Tesla와 같은 서비스 운영자라기보다 개발 스택 공급자에 가깝습니다. Waymo는 자체 차량, 지도, 시뮬레이션, 운영 지역, 안전 보고서를 쌓아 왔고, Tesla는 대규모 consumer fleet data와 차량 내 컴퓨트, end-to-end driving model을 강조합니다. NVIDIA는 여기서 "모든 OEM과 연구팀이 처음부터 AV foundation infrastructure를 다시 만들 필요가 없다"는 제안을 합니다. Alpamayo 2 Super가 강력할수록 OEM은 자체 autonomy team을 줄일 수 있는 것이 아니라, 오히려 데이터 정책, validation harness, scenario coverage, 차량 통합, fallback system을 더 명확히 설계해야 합니다.

개발자에게 남는 실무 질문은 세 가지입니다. 첫째, 32B teacher model이 만든 CoC label을 어떤 기준으로 검증할 것인가입니다. 둘째, AlpaGym과 OmniDreams에서 성공한 policy가 실제 도로 센서 noise, HD map drift, weather, local driving culture에서도 유지되는지 측정해야 합니다. 셋째, open model이 제공하는 시작점과 NVIDIA hardware stack 의존성 사이에서 비용과 통제권을 계산해야 합니다. 이 질문들은 LLM 에이전트 운영에서 이미 본 문제와 닮았습니다. 더 좋은 reasoning model은 시작점일 뿐이고, 실제 제품은 평가 데이터, 권한 경계, observability, rollback, 책임 소재로 완성됩니다.

Alpamayo 2 Super는 로보택시의 즉시 출시 뉴스가 아닙니다. 더 정확히는 NVIDIA가 physical AI 시대의 개발 표준을 선점하려는 공개 제안입니다. 모델은 320억 매개변수로 커졌고, 학습은 open-loop에서 closed-loop로 이동하며, 데이터 생성은 사람이 붙이는 라벨에서 model-assisted CoC와 synthetic scenario로 넓어집니다. 이 조합이 안전한 L4 배포로 이어지는지는 여름 공개 후 model card, 코드, weight license, independent benchmark, 실제 AV stack 통합 사례를 봐야 합니다. 그래도 한 가지는 분명합니다. 자율주행 AI 경쟁의 비교 기준은 이제 주행 영상 데모 하나가 아니라 모델, 시뮬레이터, 월드 모델, agent skill, 차량용 컴퓨트가 이어지는 개발 루프 전체로 이동하고 있습니다.