Nvidia Nemotron 3 Super가 Transformer만의 시대를 끝내고 있다
Nvidia가 Mamba-Transformer 하이브리드 MoE 아키텍처의 Nemotron 3 Super를 공개했습니다. 120B 파라미터 중 12B만 활성화하며, 에이전틱 AI의 context explosion 문제를 해결하는 새로운 아키텍처 패러다임입니다.
2017년 Google이 "Attention Is All You Need"를 발표한 이후, AI 모델 아키텍처는 사실상 Transformer 독주 체제였습니다. GPT, Claude, Gemini, Llama, DeepSeek — 프론티어든 오픈소스든, 거의 모든 LLM이 Transformer 위에 지어졌습니다. Nvidia가 3월 11일 공개한 Nemotron 3 Super 는 이 공식을 바꿉니다. Transformer에 State Space Model(Mamba)을 결합한 하이브리드 아키텍처로, 120B 파라미터 중 12B만 활성화 하면서 이전 모델 대비 처리량 5배, 정확도 2배 를 달성했습니다.
이것은 "더 좋은 모델"이 아니라 "에이전틱 AI를 위한 새로운 아키텍처 패러다임" 입니다.
에이전틱 AI의 숨겨진 병목, Context Explosion
Nemotron 3 Super가 해결하려는 문제부터 이해해야 합니다.
일반적인 챗봇 대화에서 LLM이 처리하는 토큰 수는 관리 가능한 수준입니다. 하지만 AI 에이전트가 멀티 스텝 작업을 수행할 때는 상황이 완전히 달라집니다. Nvidia의 분석에 따르면, 멀티 에이전트 시스템은 일반 채팅 대비 최대 15배 더 많은 토큰을 생성합니다. 매 턴마다 전체 대화 히스토리, 도구 호출 결과, 추론 단계를 재전송해야 하기 때문입니다.
이것이 "context explosion"입니다. AI 에이전트가 코드베이스를 분석하고, 버그를 찾고, 수정 사항을 제안하는 멀티 스텝 워크플로를 실행하면, 각 단계에서 이전 모든 단계의 컨텍스트가 누적됩니다. 10단계 작업이면 마지막 단계에서 처리해야 할 토큰은 첫 단계의 10배가 넘습니다.
여기에 "thinking tax(사고 세금)"가 더해집니다. 복잡한 에이전트는 매 단계에서 추론(reasoning)을 수행해야 하는데, 이것이 각 단계의 비용을 기하급수적으로 높입니다. 결과적으로 대부분의 멀티 에이전트 시스템은 비용 문제로 에이전트 수와 단계 수를 제한 해야 합니다. 또는 컨텍스트를 공격적으로 잘라내야 하는데, 그러면 에이전트가 원래 목표를 잊어버리는 "goal drift(목표 이탈)"가 발생합니다.
순수 Transformer 아키텍처는 이 문제에 구조적으로 취약합니다. Transformer의 self-attention 메커니즘은 시퀀스 길이의 제곱에 비례하는 계산 복잡도를 가지기 때문입니다. 컨텍스트가 2배 늘면 계산 비용은 4배 늘어납니다.
세 가지 아키텍처를 한 모델에 녹여넣다
Nemotron 3 Super는 세 가지 서로 다른 아키텍처를 하나의 모델 안에서 교차 배치합니다.
Nemotron 3 Super 레이어 구조
반복 블록: Mamba-2 → Latent MoE → Mamba-2 → Attention → Mamba-2 → Latent MoE (5개 그룹)
이 설계의 핵심은 "각 레이어가 잘하는 것만 하게 한다" 는 원칙입니다.
순수 Transformer의 문제는 모든 레이어가 self-attention을 수행한다는 것입니다. 대부분의 레이어에서 이 비싼 연산은 불필요합니다. 반면 순수 Mamba(SSM)의 문제는 정확한 정보 검색(retrieval)에 약하다는 것입니다. Harvard Kempner Institute의 연구가 보여주듯, SSM은 입력 컨텍스트의 특정 부분을 복사하고 참조하는 작업에서 Transformer에 뒤집니다.
Nemotron 3 Super는 이 두 약점을 상쇄합니다. 시퀀스의 대부분은 선형 시간 복잡도의 Mamba 레이어가 처리하고, 정밀한 사실 검색이 필요한 지점에서만 Transformer attention이 개입합니다. 결과적으로 100만 토큰 컨텍스트를 유지하면서도, 그 안에서 특정 코드 라인이나 도구 호출 결과를 정확히 찾아낼 수 있습니다.
120B 모델을 12B 비용으로 돌리는 방법
Nemotron 3 Super의 두 번째 혁신은 효율성입니다.
총 120B 파라미터 중 추론 시 12B만 활성화 됩니다. 이것이 Latent MoE(Mixture of Experts)의 역할입니다. 전통적인 MoE는 토큰을 전체 히든 차원에서 전문가에게 라우팅합니다. Latent MoE는 다릅니다. 토큰을 먼저 저차원 잠재 공간(latent space)으로 압축 한 후 전문가에게 전달하고, 결과를 다시 원래 차원으로 복원합니다.
이 접근의 결과는 직관적이지 않습니다. 압축을 추가했는데 오히려 같은 추론 비용으로 4배 더 많은 전문가를 활성화 할 수 있게 된 것입니다. 압축이 각 전문가의 계산 비용을 줄이기 때문에, 동일한 총 비용 내에서 더 많은 전문가를 호출할 수 있습니다. Python 코드 생성 시에는 Python 구문 전문가, SQL 쿼리 시에는 SQL 로직 전문가가 활성화되는 세밀한 분업이 가능해집니다.
세 번째 혁신인 Multi-Token Prediction(MTP)은 추론 속도를 직접 높입니다. 기존 LLM이 한 번에 하나의 토큰을 예측하는 반면, Nemotron 3 Super는 각 위치에서 여러 미래 토큰을 동시에 예측 합니다. 이것은 별도의 드래프트 모델 없이 speculative decoding을 내장한 것으로, 코드나 도구 호출 같은 구조화된 출력에서 3배의 속도 향상 을 제공합니다.
실무적으로 이것이 의미하는 바는 명확합니다. 멀티 에이전트 시스템에서 "비용 때문에 에이전트 수를 줄여야 한다"는 제약이 크게 완화됩니다. 120B급 성능을 12B급 비용으로 얻을 수 있기 때문입니다.
25조 토큰으로 훈련한 에이전트 전용 모델
Nemotron 3 Super의 훈련 파이프라인도 주목할 만합니다.
프리트레이닝 단계에서 10조 개의 고유 토큰(중복 제거 후)으로 시작하여, 여기에 100억 개의 추론 전용 토큰과 1,500만 개의 코딩 문제 를 추가했습니다. 총 25조 토큰의 훈련 데이터입니다. 이것만으로도 대규모지만, 진짜 차별점은 후훈련 단계에 있습니다.
SFT(Supervised Fine-Tuning) 단계에서 4,000만 개의 후훈련 샘플 중 700만 개를 선별하여 추론, 명령어 따르기, 코딩, 안전, 멀티 스텝 에이전트 작업을 커버했습니다. 그 후 NeMo Gym 이라는 21개 환경에서 강화학습을 수행했는데, 이것이 기존 LLM 훈련과 근본적으로 다른 점입니다.
기존 LLM의 강화학습(RLHF)은 정적인 텍스트 위에서 이루어집니다. 인간 평가자가 두 응답 중 더 나은 것을 고르면, 모델이 그 방향으로 학습합니다. Nemotron 3 Super의 RL은 동적인 실행 환경 에서 이루어집니다. 모델이 실제로 도구를 호출하고, 코드를 실행하고, 결과를 확인하는 120만 번의 환경 롤아웃을 수행합니다. 에이전트가 실제로 작업을 수행하는 과정에서 학습한 것입니다.
결과적으로 PinchBench(OpenClaw 에이전트 벤치마크)에서 85.6%를 기록하며 오픈 모델 클래스 최고 를 달성했고, Nvidia의 AI-Q 리서치 에이전트는 DeepResearch Bench 1, 2에서 1위를 기록했습니다.
Nvidia의 진짜 의도, 칩과 모델의 수직 통합
Nemotron 3 Super는 순수한 기술적 성취가 아닙니다. Nvidia의 비즈니스 전략과 깊이 연결되어 있습니다.
핵심은 NVFP4 네이티브 프리트레이닝 입니다. Nemotron 3 Super는 Nvidia의 독자적인 4비트 부동소수점 포맷(NVFP4)으로 처음부터 훈련되었습니다. 일반적인 양자화는 풀 정밀도 모델을 사후적으로 압축하는데, 이때 정밀도 손실이 발생합니다. NVFP4 네이티브 훈련은 모델이 처음부터 4비트 연산 환경에서 학습하므로, 수학적 안정성이 사후 양자화보다 높습니다.
하지만 NVFP4는 Nvidia Blackwell 아키텍처(B200 GPU)에서만 최적으로 동작합니다. 이것은 의도적 설계입니다. Nemotron 3 Super를 최적 성능으로 구동하려면 Nvidia의 최신 GPU가 필요합니다. 모델이 오픈 웨이트로 자유롭게 사용 가능하지만, 최적 성능은 Nvidia 하드웨어에 종속 되는 구조입니다.
이것은 Nvidia의 수직 통합 전략입니다. GPU만 파는 것이 아니라, GPU 위에서 최적화된 모델까지 함께 제공함으로써 생태계 전체를 장악하는 것입니다. Perplexity, CodeRabbit, Palantir 같은 파트너들이 Nemotron 3 Super를 채택하면, 자연스럽게 Nvidia GPU 수요가 따라옵니다.
커뮤니티 반응, "Transformer의 황혼인가, 공존인가"
Nemotron 3 Super에 대한 개발자 커뮤니티의 논쟁은 크게 두 축으로 나뉩니다.
아키텍처 전환론 쪽에서는 이것이 "순수 Transformer 시대의 종말"이라고 봅니다. Mamba의 선형 시간 복잡도가 에이전틱 AI의 context explosion 문제를 구조적으로 해결하며, 앞으로 모든 프론티어 모델이 하이브리드 아키텍처로 전환할 것이라는 전망입니다. 실제로 Mamba-3 논문이 ICLR 2026에 발표되는 등, 학술적으로도 SSM의 모멘텀이 강합니다.
공존론 쪽에서는 하이브리드가 Transformer를 대체하는 것이 아니라 보완한다고 봅니다. Harvard Kempner Institute의 연구는 SSM이 입력 컨텍스트의 복사·참조 작업에서 여전히 Transformer에 뒤진다는 점을 보여줍니다. Few-shot learning이나 정확한 인용이 필요한 작업에서는 Transformer attention이 불가피하다는 것입니다. Nemotron 3 Super 자체가 Transformer를 완전히 제거하지 않고 전략적으로 배치한 것이 이 관점을 뒷받침합니다.
두 진영 모두 동의하는 것은, 에이전틱 AI의 스케일링은 기존 Transformer만으로는 경제적으로 불가능하다 는 것입니다. 15배의 context explosion을 제곱 복잡도로 처리하는 것은 어떤 하드웨어로도 지속 가능하지 않습니다.
전망, 에이전트 시대의 인프라가 재정의되고 있다
Nemotron 3 Super가 시사하는 것은 AI 모델의 경쟁축이 이동하고 있다는 것입니다.
2023-2025년의 경쟁축은 "더 똑똑한 모델" 이었습니다. 벤치마크 점수, 추론 능력, 코딩 성능에서 누가 1위인가가 중요했습니다. 2026년의 경쟁축은 "더 효율적인 에이전트 인프라" 로 이동하고 있습니다. 모델이 충분히 똑똑해진 상황에서, 문제는 그 모델을 수십 개의 에이전트로 동시에 돌릴 때의 비용과 효율입니다.
Nemotron 3 Super의 "120B 파라미터를 12B 비용으로" 공식은 이 새로운 경쟁축의 첫 번째 구체적 답입니다. 다음 질문은 OpenAI, Anthropic, Google이 어떻게 대응하는가입니다. 이들의 프론티어 모델은 여전히 순수 Transformer 아키텍처입니다. 에이전틱 AI가 주요 수익원이 될수록, 이 기업들도 하이브리드 아키텍처로의 전환 압박을 받게 됩니다.
단기적으로 개발자에게 가장 실질적인 변화는 에이전트 인프라 비용의 하락 입니다. Nemotron 3 Super가 Google Cloud, AWS, Azure 등 주요 클라우드에 배포되면, 멀티 에이전트 시스템의 운영 비용이 의미 있게 줄어들 것입니다. 에이전트 수와 작업 복잡도를 비용 때문에 제한하던 병목이 완화됩니다.
장기적으로는 AI 모델 아키텍처의 다양화가 가속화될 것입니다. Transformer 독주 체제에서, Mamba-Transformer 하이브리드, 순수 SSM, 그리고 아직 등장하지 않은 새로운 조합이 용도별로 분화하는 시대가 오고 있습니다. "Attention Is All You Need"는 여전히 중요하지만, 더 이상 전부는 아닙니다.