NVIDIA가 RL 학습 루프를 겨냥했다

NVIDIA와 Ineffable Intelligence의 협력은 모델 경쟁이 인간 데이터 이후의 RL 인프라 경쟁으로 이동하고 있음을 보여줍니다.

AI 요약

무슨 일: NVIDIA와 Ineffable Intelligence가 대규모 reinforcement learning 인프라 공동설계를 발표했습니다.
- Ineffable은 AlphaGo 연구를 이끈 David Silver가 세운 런던 AI 연구소이며, NVIDIA Grace Blackwell에서 시작해 Vera Rubin까지 탐색합니다.
의미: 모델 경쟁의 병목이 인간 데이터 사전학습에서 경험 생성, 평가, 업데이트를 잇는 학습 루프로 이동하고 있습니다.
실무 영향: 에이전트 시대의 인프라는 GPU FLOPS만이 아니라 simulation, interconnect, memory bandwidth, serving까지 함께 설계해야 합니다.
주의점: "superlearner"는 아직 연구 비전입니다. 성공 여부는 공개 벤치마크보다 환경 설계와 반복 학습 비용에서 갈릴 가능성이 큽니다.

NVIDIA와 Ineffable Intelligence가 2026년 5월 13일 reinforcement learning, 즉 RL 인프라를 공동 설계하는 엔지니어링 협력을 발표했습니다. 문장만 보면 또 하나의 파트너십 발표처럼 보입니다. 하지만 이번 뉴스는 최근 AI 경쟁의 방향을 꽤 선명하게 보여줍니다. 모델이 더 많은 웹 텍스트와 코드, 논문, 이미지, 비디오를 먹고 커지는 단계 다음에 무엇이 오는가. NVIDIA와 Ineffable은 그 답을 "경험으로 배우는 시스템"에서 찾고 있습니다.

Ineffable Intelligence는 AlphaGo 연구를 이끈 David Silver가 세운 런던 AI 연구소입니다. 회사의 공식 문구는 상당히 야심적입니다. 인간 데이터에서 배운 지식을 반복하는 모델이 아니라, 자신의 경험에서 지식과 기술을 계속 발견하는 "superlearner"를 만들겠다는 것입니다. 이 표현은 조심해서 읽어야 합니다. 아직 제품이나 공개 모델이 아니라 연구 비전입니다. 그러나 비전이 허공에만 떠 있지는 않습니다. Silver가 DeepMind에서 쌓은 RL 연구 이력, NVIDIA가 제공하는 학습·추론 인프라, 그리고 AI 업계가 인간 데이터 이후의 학습 방법을 찾고 있다는 배경이 맞물려 있습니다.

Ineffable Intelligence 공식 로고

이번 발표에서 Jensen Huang은 다음 AI frontier를 "경험에서 지속적으로 배우는 superlearners"라고 불렀습니다. David Silver는 더 직접적으로 말합니다. 연구자들은 AI가 인간이 이미 알고 있는 것을 아는 시스템을 만드는 더 쉬운 문제를 상당 부분 풀었지만, 이제는 AI가 스스로 새 지식을 발견하는 더 어려운 문제를 풀어야 한다는 것입니다. 원문 표현은 더 강하지만, 한국어로 옮기면 핵심은 이렇습니다. 이미 존재하는 인간 지식을 압축하는 AI에서, 환경과 상호작용하며 새 지식을 만드는 AI로 넘어가자는 주장입니다.

이 주장이 중요한 이유는 현재 LLM 경쟁의 가장 큰 전제가 "데이터"이기 때문입니다. 대형 언어 모델은 인간이 만든 텍스트, 코드, 이미지, 음성, 비디오, 상호작용 로그를 학습합니다. 합성 데이터와 self-play가 섞이더라도, 대부분의 생산 시스템은 여전히 사전학습, 지도 미세조정, 선호 최적화, 평가 데이터셋이라는 구조 안에 있습니다. 여기서 성능을 올리려면 더 좋은 데이터, 더 큰 모델, 더 긴 컨텍스트, 더 정교한 후처리가 필요합니다. 그런데 인간 데이터가 점점 비싸지고, 저작권·품질·중복·오염 문제가 커지면 다음 질문이 나옵니다. 모델이 인간이 남긴 흔적만 학습해서 계속 전진할 수 있는가.

RL은 이 질문에 오래전부터 다른 답을 제시했습니다. 에이전트가 행동하고, 환경이 반응하고, 보상이 주어지고, 정책이 업데이트됩니다. AlphaGo와 AlphaZero가 강했던 이유도 단순히 인간 기보를 외워서가 아니라 self-play를 통해 인간이 직접 제공하지 않은 상태 공간을 탐색했기 때문입니다. 물론 바둑과 현실 세계는 다릅니다. 바둑은 규칙이 명확하고, 상태와 보상이 비교적 깨끗합니다. 소프트웨어 개발, 과학 연구, 로봇 조작, 장기 계획, 조직 업무는 훨씬 지저분합니다. 그래서 이번 발표의 핵심은 "RL을 하겠다"가 아니라 "그 RL을 감당할 인프라를 공동 설계하겠다"입니다.

NVIDIA와 Ineffable의 발표문은 pretraining과 RL workload의 차이를 짚습니다. 사전학습에서는 고정된 인간 데이터셋이 시스템을 통과합니다. 반면 RL workload는 데이터를 즉석에서 만듭니다. 시스템은 행동하고, 관찰하고, 점수를 매기고, 업데이트하는 루프를 계속 돌려야 합니다. 이 루프는 interconnect, memory bandwidth, serving에 사전학습과 다른 압박을 줍니다. 더구나 Ineffable이 노리는 "풍부한 경험"은 인간 언어 데이터와 다를 수 있습니다. simulation, code execution, game-like environment, physical model, tool-use trace, robot sensor stream 같은 것이 섞이면 모델 아키텍처와 학습 알고리즘도 달라질 수 있습니다.

행동: 에이전트가 환경에서 다음 실험을 선택

↓

관찰: simulation, tool, sensor, code 실행 결과 수집

↓

평가: 보상, 검증기, 테스트, judge model로 결과 채점

↓

업데이트: 정책, 메모리, 데이터셋, 환경 난이도 조정

이 루프는 단순한 batch training보다 더 까다롭습니다. 사전학습은 거칠게 말하면 대규모 데이터 파이프라인과 행렬 연산을 안정적으로 밀어 넣는 문제입니다. 물론 그것도 매우 어렵지만, 데이터는 대체로 준비된 뒤에 학습으로 들어갑니다. RL에서는 모델이 생성한 행동이 다음 데이터를 바꾸고, 환경의 응답이 다시 학습 경로를 바꿉니다. 병렬 환경을 많이 띄우면 throughput은 올라가지만, 관측과 평가와 업데이트 사이의 지연이 길어질 수 있습니다. 너무 느리면 학습 루프가 둔해지고, 너무 비싸면 많은 실험을 못 돌립니다. 그래서 GPU만 빠르면 된다는 이야기가 부족해집니다.

NVIDIA가 이 발표를 자사 인프라 이야기와 연결하는 방식도 흥미롭습니다. 협력은 NVIDIA Grace Blackwell에서 시작하고, upcoming NVIDIA Vera Rubin platform을 초기에 탐색하는 사례가 된다고 합니다. Grace Blackwell은 이미 대규모 AI 학습과 추론의 현재 세대 핵심 플랫폼이고, Vera Rubin은 NVIDIA가 agentic workload와 long-context inference를 겨냥해 설명해 온 차세대 플랫폼입니다. Ineffable이 바로 이 경로에 올라탄다는 것은 RL 연구소가 단순히 GPU를 사는 고객이 아니라, 다음 AI workload의 모양을 NVIDIA와 같이 정의하는 파트너가 된다는 뜻입니다.

여기서 2026년 5월 5일 NVIDIA Technical Blog의 "agentic systems with extreme co-design" 글을 같이 보면 맥락이 더 분명해집니다. NVIDIA는 그 글에서 agentic workload가 일반 챗봇과 다르다고 설명했습니다. 챗봇은 사용자의 메시지와 모델의 응답이 선형으로 이어집니다. tool calling이 들어가면 도구 출력이 컨텍스트에 들어오면서 예측 가능성이 낮아집니다. agentic system은 더 복잡합니다. 도구를 몇 번 부를지, 어떤 순서로 부를지, sub-agent를 만들지, 언제 끝낼지 모델이 결정합니다. workload 자체가 구조적으로 확률적이 됩니다.

그 글에서 NVIDIA가 제시한 실제 Claude Code 세션 예시는 이 문제를 숫자로 보여줍니다. 33분 동안 283개의 inference request가 발생했고, main agent turn은 58개, sub-agent invocation은 225개였습니다. 컨텍스트는 15K 토큰에서 시작해 156K까지 커졌고, compaction 이후 약 20K로 줄었습니다. 이 예시는 RL 발표와 직접 같은 실험은 아니지만, NVIDIA가 왜 agentic workload를 인프라 공동설계 문제로 보는지 설명해 줍니다. 에이전트가 길게 일하고, 여러 하위 작업을 만들고, 환경과 계속 상호작용하면 토큰, 캐시, 네트워크, 메모리, 지연시간이 모두 제품 품질에 들어옵니다.

283

NVIDIA가 제시한 agentic coding session의 inference requests

225

sub-agent invocations

156K

peak context tokens

15x

Anthropic multi-agent system report에서 언급된 token 증가 규모

RL 기반 superlearner가 이보다 더 어려울 가능성도 있습니다. 코딩 에이전트는 적어도 작업의 산출물이 파일, 테스트 결과, diff, 로그로 남습니다. 과학 발견이나 로봇 제어, 복잡한 simulation 환경에서는 어떤 행동이 의미 있는지, 보상을 어떻게 설계할지, 실패를 어떻게 분류할지, 안전하지 않은 탐색을 어떻게 막을지까지 포함됩니다. 모델이 경험으로 배운다는 말은 멋지지만, 실제로는 경험을 만들 환경, 경험을 평가할 기준, 실패한 경험을 버리거나 재활용할 방법, 반복 비용을 감당할 인프라가 필요합니다.

이 때문에 이번 발표는 "NVIDIA가 또 GPU를 판다"보다 조금 더 구조적인 뉴스입니다. NVIDIA는 이미 훈련과 추론 인프라의 중심에 있습니다. 그런데 LLM pretraining 경쟁이 어느 정도 표준화되면, 다음 차별화는 workload별 최적화로 이동합니다. agentic inference에는 prompt caching, KV cache 관리, context storage, low-latency fabric이 중요해집니다. RL training에는 environment rollout, scoring, online data generation, distributed update, simulation throughput, evaluation loop가 중요해집니다. 둘 다 공통적으로 단일 GPU 성능보다 시스템 전체의 협조가 더 중요해집니다.

NVIDIA는 이를 "extreme co-design"이라는 언어로 포장합니다. Vera Rubin NVL72, Vera CPU, Groq 3 LPX, NVLink 6, ConnectX-9, BlueField-4, Spectrum-X, Dynamo, NVFP4, TRT-LLM WideEP, speculative decoding 같은 조각들이 서로 다른 병목을 맡는다는 설명입니다. 모든 용어를 그대로 믿을 필요는 없습니다. 공급자 발표에는 언제나 미래 플랫폼의 이상적인 그림이 섞입니다. 하지만 방향 자체는 설득력이 있습니다. 에이전트와 RL은 compute, memory, network, storage, serving scheduler, cache policy, environment runtime이 따로 노는 구조에서 비싸고 느려질 수밖에 없습니다.

Ineffable 입장에서도 NVIDIA와의 협력은 단순 구매 이상의 의미가 있습니다. David Silver의 메시지는 인간 데이터 중심 AI와 거리를 둡니다. Ineffable 홈페이지는 superintelligence가 인간 데이터가 아니라 experience에서 나온다고 말합니다. "인간이 이미 아는 것"을 모으는 문제와 "모르는 것을 발견하는" 문제를 구분합니다. 이 구분은 과장될 위험이 있지만, 현재 AI 업계의 답답한 지점을 건드립니다. LLM은 믿기 어려울 정도로 많은 일을 하지만, 정말 새로운 알고리즘을 안정적으로 발견하거나, 장기 실험을 설계하고 검증하거나, 물리적 세계에서 시행착오를 통해 숙련되는 능력은 아직 제한적입니다.

경쟁 구도도 넓게 봐야 합니다. Google DeepMind는 RL과 self-play의 본산에 가깝고, AlphaGo 이후에도 AlphaZero, AlphaDev, AlphaEvolve 같은 방향을 이어 왔습니다. OpenAI와 Anthropic은 RLHF, RLAIF, tool-use agent, coding agent, safety eval에서 강화학습과 평가 루프를 계속 사용합니다. xAI, Meta, 중국 대형 연구소들도 추론 모델과 에이전트 훈련에 RL 계열 기법을 강하게 쓰고 있습니다. Ineffable의 차별점은 "RL을 모델 후처리 기법으로 쓰겠다"가 아니라, RL 자체를 superintelligence 경로의 중심으로 세우겠다는 선언입니다.

다만 회의적으로 볼 지점도 분명합니다. 첫째, RL은 환경 설계가 어려울수록 성과를 검증하기 어렵습니다. 바둑, 게임, 코드 테스트처럼 보상이 비교적 명확한 영역에서는 강력하지만, 과학 발견과 일반 지능에서는 보상 함수를 잘못 만들면 모델이 엉뚱한 shortcut을 찾을 수 있습니다. 둘째, simulation이 현실을 충분히 대변하지 못하면 학습한 정책은 실제 환경에서 깨집니다. 셋째, RL은 탐색 비용이 큽니다. 시행착오가 지식으로 바뀌려면 많은 실패를 감당해야 하고, 그 실패를 안전하게 격리해야 합니다. 넷째, "새 지식 발견"은 마케팅 문구로 남기 쉽습니다. 어떤 발견이 독립적으로 유효한지, 인간 연구자가 어떻게 검증할지 체계가 필요합니다.

그래서 개발자와 AI 팀이 이 뉴스를 읽을 때 가져갈 질문은 "Ineffable이 곧 AGI를 만들까"가 아닙니다. 더 실용적인 질문은 "우리의 에이전트 학습 루프는 어디까지 자동화되어 있는가"입니다. 지금 많은 팀은 에이전트를 만든 뒤 로그를 보고 prompt를 손으로 고칩니다. 조금 더 나아간 팀은 eval dataset을 만들고 regression test를 돌립니다. 그 다음 단계는 실제 환경에서 나온 실패 trace를 자동으로 분류하고, synthetic scenario를 만들고, 정책이나 tool spec을 개선하고, 다시 평가하는 닫힌 루프입니다. 이 닫힌 루프가 작게는 코딩 에이전트 품질 개선이고, 크게는 RL 기반 경험 학습입니다.

구분	인간 데이터 중심 학습	경험 중심 RL 학습
데이터	웹, 코드, 문서, 대화, 선호 데이터	simulation, tool result, sensor stream, self-play, execution trace
병목	데이터 품질, 중복, 저작권, 사전학습 비용	환경 설계, rollout 비용, 보상 검증, tight loop latency
인프라	대규모 batch training과 안정적 데이터 파이프라인	interconnect, memory bandwidth, serving, evaluator, simulator 공동설계

이 관점에서 NVIDIA의 포지션은 강합니다. 모델 회사가 어떤 알고리즘을 선택하든, 더 많은 실험을 더 낮은 지연과 비용으로 돌리는 인프라는 필요합니다. 특히 RL은 실패와 반복이 핵심이기 때문에 "한 번의 큰 학습"보다 "많은 루프를 얼마나 빨리 돌리는가"가 중요해질 수 있습니다. NVIDIA가 Grace Blackwell에서 Vera Rubin으로 이어지는 경로를 Ineffable 같은 연구소와 함께 잡으려는 이유입니다. AI 인프라 공급자는 단순한 하드웨어 벤더가 아니라, 다음 학습 패러다임의 모양을 먼저 읽고 그 workload를 자사 플랫폼에 맞게 정식화하려 합니다.

물론 이 흐름이 곧바로 모든 기업의 구매 결정으로 이어지지는 않습니다. 대부분의 개발팀에게 지금 필요한 것은 Vera Rubin 클러스터가 아니라 작은 feedback loop입니다. 에이전트가 어떤 tool call에서 실패했는지 기록하고, 실패 유형을 태깅하고, 재현 가능한 테스트를 만들고, 다음 버전에서 regressions를 막는 일이 먼저입니다. 그러나 상위 연구소와 플랫폼 기업의 움직임은 장기 방향을 보여줍니다. 에이전트가 단순히 "답변하는 모델"이 아니라 "환경에서 행동하고 배워야 하는 시스템"이 되면, 관측성·보안·오케스트레이션 다음 병목은 학습 루프가 됩니다.

커뮤니티 반응은 아직 크지 않습니다. HN에서는 2026년 2월과 4월에 Ineffable의 대규모 seed funding, David Silver의 인터뷰, RL 중심 비전에 대한 링크가 몇 차례 올라왔지만 큰 토론으로 번지지는 않았습니다. 발표 당일에도 NVIDIA 협력 자체에 대한 대형 discussion은 확인되지 않았습니다. 이는 오히려 이 주제가 아직 제품 사용자층보다 연구·인프라층에 가깝다는 뜻일 수 있습니다. 하지만 "인간 데이터 이후"라는 질문은 점점 더 많은 팀이 마주하게 됩니다. 데이터가 희소하거나, 보상이 명확하거나, simulation을 만들 수 있는 영역에서는 RL 기반 반복 학습이 다시 전면으로 나올 가능성이 큽니다.

결국 이번 뉴스의 핵심은 NVIDIA와 Ineffable이 무엇을 약속했느냐보다, AI 경쟁이 어디로 넓어지고 있느냐입니다. 2023년과 2024년의 키워드가 LLM scale과 chatbot product였다면, 2025년과 2026년의 키워드는 agent, tool use, long context, coding automation, enterprise control plane이었습니다. 그 다음 층에는 에이전트가 경험에서 더 잘 배우게 만드는 인프라가 있습니다. Ineffable이 성공할지, Google DeepMind가 앞설지, OpenAI와 Anthropic의 RL/eval loop가 더 빨리 제품화될지는 알 수 없습니다. 그러나 질문은 남습니다. 모델이 인간 데이터의 거울을 넘어 스스로 실험하고 실패하고 개선하려면, 그 경험을 누가 만들고, 누가 평가하고, 어떤 인프라가 그 루프를 지탱할까요. NVIDIA는 이번 협력으로 그 질문의 하드웨어와 시스템 쪽 답을 선점하려 하고 있습니다.