CoreWeave 40% 절감, 에이전트 개선 루프를 클라우드로

CoreWeave가 Serverless RL, W&B Weave, Sandboxes, MCP를 묶어 운영 중 에이전트를 개선하는 클라우드 스택을 공개했습니다.

AI 요약

무슨 일: CoreWeave가 Serverless RL, inference, W&B Weave, MCP를 묶은 에이전트 개선 루프를 공개했습니다.
- 발표일은 2026년 5월 28일이며, 회사는 비용 최대 40% 절감과 약 1.4배 학습 가속을 주장했습니다.
의미: 에이전트 운영 경쟁이 GPU 임대에서 trace, eval, RL, sandbox를 묶은 생산 루프로 이동합니다.
주의점: 개선 루프는 강력하지만, 운영 데이터 품질과 regression 방지, 권한 격리가 함께 검증돼야 합니다.

CoreWeave가 2026년 5월 28일 에이전트 개선용 통합 기능을 발표했습니다. 발표문은 이를 "training-to-inference gap"을 줄이는 방식으로 설명합니다. 구성은 네 가지입니다. Serverless RL로 에이전트 작업을 post-training하고, CoreWeave Inference로 production workload를 돌리고, W&B Weave로 trace와 평가를 수집하고, W&B Skills와 MCP 서버로 코딩 에이전트가 실험과 분석 도구를 직접 다루게 합니다.

이 뉴스는 새 모델 출시가 아닙니다. CoreWeave가 GPU 클라우드 사업자에서 에이전트 운영 플랫폼으로 올라가려는 발표입니다. 회사는 에이전트가 실제 사용자 트래픽에서 실패한 흔적을 관측성 데이터로 모으고, 그 데이터를 평가와 RL로 다시 밀어 넣는 폐쇄 루프를 내세웁니다. 모델 품질 경쟁이 "어떤 모델을 호출하는가"에서 "운영 중 실패를 얼마나 빨리 학습 재료로 바꾸는가"로 좁혀지는 장면입니다.

CoreWeave가 제시한 숫자는 공격적입니다. 발표문은 Serverless RL이 multi-turn agentic task의 신뢰성을 높이는 post-training을 인프라 관리 없이 수행하며, 비용을 최대 40% 줄이고 학습을 약 1.4배 가속한다고 설명합니다. 다만 이 수치는 CoreWeave의 자체 주장입니다. 어떤 모델, 어떤 task, 어떤 baseline에서 나온 숫자인지 발표문만으로는 독립 검증하기 어렵습니다. 기사에서 이 숫자를 성능 보증이 아니라 제품 포지셔닝의 신호로 봐야 하는 이유입니다.

CoreWeave Sandboxes 공식 발표 이미지

왜 training과 inference 사이가 병목인가

전통적인 모델 개발 루프는 비교적 분리돼 있었습니다. 연구팀은 offline eval dataset을 만들고, 모델을 fine-tune하거나 post-train하고, 일정 기준을 넘으면 제품팀이 inference 환경에 올립니다. 운영 중 생긴 실패 사례는 로그, support ticket, annotation task, regression test로 천천히 돌아옵니다. 이 방식은 챗봇처럼 짧은 대화가 중심일 때도 느렸지만, multi-step agent에서는 더 빨리 한계가 드러납니다.

에이전트는 한 번의 답변보다 긴 실행 경로를 가집니다. 파일을 읽고, 도구를 호출하고, shell command를 실행하고, API를 건드리고, 실패하면 재시도합니다. 실패도 다양합니다. 잘못된 tool schema를 고르거나, 권한이 없는 API를 호출하거나, 같은 작업을 반복하거나, 성공처럼 보이는 잘못된 상태를 남깁니다. offline eval dataset이 모든 실제 업무 상태를 담기 어렵기 때문에, production trace가 다시 학습과 평가로 연결돼야 합니다.

CoreWeave 발표의 제품 문장은 그래서 "superintelligence loop"라는 큰 단어를 씁니다. 표현은 과하지만, 제품 레벨에서 읽으면 간단합니다. 운영 중인 에이전트가 실제 환경에서 어떤 행동을 했는지 기록하고, 그 행동을 평가 신호로 바꾸고, 실패 패턴을 학습 루프에 넣고, 다시 inference 서비스에 반영하는 과정입니다. 이 과정이 자동화될수록 에이전트 팀은 모델 호출 비용보다 trace 저장, 평가 기준, rollback, 권한 정책을 더 자주 보게 됩니다.

CoreWeave가 묶은 네 가지 부품

CoreWeave는 네 가지 기능을 하나의 루프로 묶었다고 설명합니다. 첫째는 Serverless RL입니다. 회사 설명에 따르면 팀은 인프라를 직접 프로비저닝하지 않고 large language model을 multi-turn agentic task에 맞게 post-train할 수 있습니다. 발표문은 training workload에 맞춰 탄력 확장하고, training과 inference가 별도 always-on instance에서 실행돼 iteration cycle을 줄인다고 말합니다.

둘째는 CoreWeave Inference입니다. 이 계층은 production workload를 지속적으로 실행하는 서비스입니다. 에이전트 관점에서 inference는 단순 API endpoint가 아닙니다. agent run은 긴 시간 동안 여러 모델 호출, tool result, external state를 묶습니다. 따라서 성능 모니터링, scaling behavior, system health가 모델 지연 시간만큼 중요합니다. CoreWeave는 이 부분을 production service level objective를 유지하는 계층으로 설명합니다.

셋째는 W&B Weave입니다. Weave는 agentic system에 맞춘 production monitoring, built-in/custom signals, multi-agent workflow 분석용 데이터 모델, regression 방지 평가 프레임워크를 맡습니다. 기존 LLMOps 도구가 prompt와 completion을 중심으로 봤다면, 여기서는 run, step, tool call, side effect, eval result가 함께 기록돼야 합니다. 실패 trace를 다시 학습 데이터로 쓰려면 관측성 계층이 평가 계층과 분리돼 있으면 안 됩니다.

넷째는 W&B Skills와 MCP 서버입니다. CoreWeave 발표는 이를 일반 코딩 에이전트를 AI researcher와 agent builder로 바꾸는 장치라고 설명합니다. 구체적으로 W&B의 experiment tracking, model management, tracing, evaluations, monitoring 도구에 접근하는 skill과 MCP 서버를 제공합니다. 에이전트가 실험 데이터를 읽고, 실패 run을 찾고, 새 eval을 돌리는 경로가 사람용 대시보드가 아니라 agent-readable tool interface로 열리는 셈입니다.

루프 단계	CoreWeave 구성요소	실무에서 보는 지표
운영 실행	CoreWeave Inference	latency, throughput, service health, scaling behavior
행동 기록	W&B Weave	tool call trace, failure mode, custom signal, regression
격리 실행	CoreWeave Sandboxes	resource limit, network policy, container image, run output
개선 반영	Serverless RL, W&B Skills, MCP	eval score, reward signal, experiment result, rollback 기준

Sandboxes가 빠지면 루프가 위험해진다

이 발표를 5월 28일 발표만으로 보면 관측성과 RL 상품처럼 보입니다. 하지만 5월 14일 CoreWeave Sandboxes 발표가 앞단에 있습니다. Sandboxes는 RL, agent tool use, model evaluation을 격리 환경에서 실행하는 계층입니다. 고객의 CoreWeave Kubernetes Service 클러스터에서 on-cluster로 돌릴 수 있고, W&B를 통한 serverless runtime으로도 사용할 수 있습니다.

공식 문서는 sandbox가 agent workload를 격리된 policy-controlled environment에서 실행한다고 설명합니다. model-generated command, file edit, tool call, evaluation benchmark가 실행될 장소가 필요하고, 각 실행에는 네트워크 정책, namespace 전략, resource limit이 붙어야 합니다. 잘못된 action이나 malicious prompt가 host environment를 망가뜨리지 않게 하는 계층입니다.

CoreWeave는 각 sandbox가 기본적으로 독립된 가상 환경에서 실행된다고 설명합니다. 5월 14일 발표에는 failure, memory spike, runaway process가 다른 sandbox에 영향을 주지 않는다는 설명도 나옵니다. IBM Research의 Brian Belgodere는 RL workflow가 training step마다 수천 개 sandbox를 병렬로 띄우고, 각 sandbox가 자체 container image와 resource boundary를 갖는다고 말했습니다. 이 인용은 에이전트 개선 루프가 대시보드 기능이 아니라 대규모 실행 인프라 문제라는 점을 보여줍니다.

여기서 개발자가 봐야 할 부분은 "자기개선"이라는 단어가 아닙니다. 실제로 중요한 것은 개선 후보를 안전하게 실행하고, 실패를 관측하고, 다시 평가 기준과 학습 데이터로 보낼 수 있는 실행 경계입니다. 에이전트가 코드를 고치거나 API를 호출하는 동안 격리 계층이 약하면 개선 루프는 사고 확산 루프가 됩니다.

W&B 인수가 이제 제품 형태로 보인다

CoreWeave는 2025년 Weights & Biases를 인수하며 GPU 클라우드 위에 AI developer platform을 붙였습니다. 당시에는 GPU capacity와 experiment tracking의 결합처럼 보였습니다. 이번 발표에서는 그 결합이 더 구체적입니다. GPU는 training과 inference를 돌리고, W&B는 trace, eval, model management, monitoring을 맡고, MCP와 Skills는 에이전트가 이 도구들을 직접 다루는 표면을 제공합니다.

이 조합은 LangSmith, Langfuse, Arize Phoenix, Honeycomb 같은 관측성·평가 도구와 경쟁합니다. 차이는 CoreWeave가 compute provider라는 점입니다. trace를 보고 평가를 돌리는 도구에서 멈추지 않고, post-training과 production inference까지 같은 상업 계정 안에 넣으려 합니다. AI 팀 입장에서는 편합니다. 동시에 운영 데이터, 평가 기준, 실험 기록, 모델 개선 파이프라인이 한 벤더에 붙을 수 있다는 뜻이기도 합니다.

MCP 서버와 W&B Skills는 이 전략의 작은 부품처럼 보이지만 에이전트 시대에는 중요합니다. 사람이 대시보드에서 실패 run을 보고 issue를 만들던 흐름이, 에이전트가 Weave trace를 읽고 실패 조건을 재현하고 eval을 추가하는 흐름으로 바뀔 수 있습니다. 이때 tool interface가 표준화돼 있지 않으면 agent workflow마다 glue code가 생깁니다. MCP는 CoreWeave가 W&B 도구를 에이전트용 조작 표면으로 노출하는 데 자연스러운 선택입니다.

커뮤니티 검증은 아직 얇다

이번 발표는 보도자료와 제품 문서가 중심입니다. Hacker News나 GeekNews에서 5월 28일 발표 자체에 대한 큰 토론은 확인하지 못했습니다. Reddit에는 self-improving agents, agentic depth, inference infrastructure 같은 주변 논의가 있지만 CoreWeave의 네 가지 구성요소를 실제로 써 본 사용자 반응은 아직 제한적입니다. 따라서 "운영 데이터로 계속 좋아지는 에이전트"라는 문장은 실무 검증 전까지는 제품 방향으로 읽어야 합니다.

검증 지점은 세 가지입니다. 첫째, 40% 비용 절감과 1.4배 가속이 어떤 task와 모델에서 반복되는지입니다. 둘째, production trace를 학습 데이터로 바꿀 때 개인정보, 고객 데이터, prompt injection 흔적, 보안 로그가 어떻게 필터링되는지입니다. 셋째, 자동 개선이 regression을 만들 때 누가 멈추고 되돌리는지입니다. 발표문은 regression 방지 평가 프레임워크를 말하지만, 각 조직의 승인 정책과 배포 기준은 별도 문제로 남습니다.

경쟁사들도 같은 방향을 보고 있습니다. OpenAI는 Agents SDK와 sandbox 실행, Codex 장기 작업 흐름을 넓히고 있습니다. Anthropic은 Claude Code, Agent SDK, MCP 생태계, 격리 설계를 전면에 세웁니다. Google은 Antigravity와 Managed Agents로 agent harness와 실행 환경을 API 상품으로 묶습니다. CoreWeave의 차별점은 모델 회사가 아니라 compute와 W&B를 가진 인프라 회사라는 점입니다. 모델 선택보다 운영 루프를 파는 쪽에 가깝습니다.

개발팀이 지금 확인할 것

에이전트 제품을 이미 운영 중인 팀이라면 이 발표를 벤더 뉴스로만 넘기기 어렵습니다. 먼저 trace schema를 확인해야 합니다. agent run 하나가 어떤 step으로 쪼개지는지, tool call input/output이 어디까지 저장되는지, 사용자 데이터가 eval dataset으로 들어갈 수 있는지 봐야 합니다. 실패 trace가 개선 루프의 원료가 되는 순간, logging policy는 비용 관리보다 보안과 개인정보 이슈에 가까워집니다.

두 번째는 evaluation boundary입니다. 운영 데이터로 만든 eval은 실제 문제에 가깝지만 편향도 그대로 가져옵니다. 자주 발생하는 쉬운 실패만 고치고, 드문 고위험 실패를 놓칠 수 있습니다. self-improving agent라는 이름이 붙을수록 held-out eval, human-labeled eval, adversarial eval을 분리해야 합니다. 같은 루프가 만든 데이터로 같은 루프를 칭찬하면 점수는 오르지만 제품 신뢰도는 오르지 않을 수 있습니다.

세 번째는 sandbox와 권한입니다. CoreWeave Sandboxes는 container, pod, network policy, namespace strategy, resource limit을 이야기합니다. 이 목록은 에이전트 운영 문서의 체크리스트가 됩니다. 모델이 생성한 코드가 shell을 실행하고 파일을 고치고 API를 호출한다면, "어디서 실행되는가"와 "무엇에 접근할 수 있는가"가 모델 이름만큼 중요합니다. 격리 없이 자동 개선을 켜는 것은 production 사고를 더 빠르게 반복하는 방법입니다.

네 번째는 비용 회계입니다. Serverless RL, inference, W&B trace, sandbox execution, storage, evaluation run은 서로 다른 비용 항목입니다. CoreWeave는 비용 절감을 주장하지만, 실제 팀의 총비용은 trace 보존 기간, eval 빈도, RL 반복 횟수, sandbox 병렬성에 따라 달라집니다. 에이전트가 좋아지는지 묻기 전에 "개선 1회당 얼마를 쓰는가"를 계산해야 합니다.

이번 발표의 실체는 "에이전트가 스스로 좋아진다"는 슬로건보다 구체적입니다. CoreWeave는 training, inference, observability, sandbox, agent-readable tools를 한 계정 안에 모으려 합니다. 성공하면 AI 인프라 구매 기준은 GPU 수량과 토큰 처리량에서 운영 trace, eval 품질, 개선 루프의 안전장치로 넓어집니다. 실패하면 숫자가 좋은 데모와 실제 production agent 사이의 간격만 다시 확인하게 됩니다.

CoreWeave가 던진 질문은 분명합니다. 에이전트를 제품에 넣은 뒤, 그 실패를 누가 보고, 누가 평가하고, 누가 다시 학습시키며, 누가 배포를 멈출 것인가. 2026년의 AI 개발팀에게 이 질문은 모델 선택보다 더 오래 남을 가능성이 있습니다.