Claude Code 수백 에이전트 실행, Opus 4.8의 가격 압박

Anthropic이 Opus 4.8과 Claude Code dynamic workflows를 공개했습니다. 가격, 병렬 subagent, API 변화가 코딩 에이전트 경쟁의 기준을 바꿉니다.

AI 요약

무슨 일: Anthropic이 2026년 5월 28일 Claude Opus 4.8과 Claude Code dynamic workflows를 공개했습니다.
- Opus 4.8 정규 가격은 Opus 4.7과 같고, fast mode는 2.5배 속도와 이전 대비 3배 낮은 가격으로 설명됐습니다.
개발자 변화: Claude Code가 한 세션에서 수십-수백 개 subagent를 병렬 실행하고 결과를 검증하는 workflow를 연구 프리뷰로 받았습니다.
API 변화: Messages API는 messages 배열 안의 system entry를 받아 중간 권한, 예산, 환경 지시를 바꿀 수 있습니다.
주의점: Anthropic의 Bun 포팅 사례는 75만 줄 Rust와 99.8% 테스트 통과를 말하지만 production 적용 전 사례입니다.

Anthropic이 2026년 5월 28일 Claude Opus 4.8을 공개했습니다. 같은 날 Claude Code에는 dynamic workflows가 연구 프리뷰로 들어갔습니다. Opus 4.8은 정규 API 가격을 Opus 4.7과 같은 100만 input token당 5달러, output token당 25달러로 유지합니다. fast mode는 100만 input token당 10달러, output token당 50달러이며, Anthropic은 이를 이전 fast mode보다 3배 낮은 가격과 2.5배 속도로 설명했습니다.

이 발표는 새 모델 점수표보다 Claude Code의 실행 단위가 달라진 쪽에 더 큰 실무 의미가 있습니다. Anthropic은 dynamic workflows가 Claude에게 작업 계획을 세우게 한 뒤, 단일 세션에서 수십-수백 개 parallel subagent를 실행하고, 결과를 검증해 사용자에게 합친다고 설명합니다. 코딩 에이전트의 비교 기준이 "한 번에 얼마나 똑똑하게 답하는가"에서 "긴 작업을 어떻게 쪼개고 검증하며 비용을 통제하는가"로 이동합니다.

Claude Code dynamic workflows 공식 이미지 .

Opus 4.8은 가격을 유지한 성능 갱신입니다

Anthropic 발표문은 Opus 4.8을 Opus 4.7 위의 개선 버전으로 소개합니다. 회사는 coding, agentic skills, reasoning, practical knowledge work 평가에서 개선을 주장했습니다. 더 넓은 평가 결과는 Claude Opus 4.8 System Card에 담았다고 밝혔습니다. 발표문 표현은 과장된 세대 교체가 아니라 "modest but tangible improvement"에 가깝습니다. 사용자 입장에서는 기존 Opus 가격을 유지하면서 agentic work, coding, tool use 품질을 올리는 릴리스입니다.

정규 가격 유지가 중요한 이유는 Opus 계열이 여전히 비싼 모델군이기 때문입니다. 100만 output token당 25달러는 작은 chat feature에는 부담이 됩니다. 반대로 코드 migration, security audit, long-running analysis처럼 실패 비용이 큰 작업에서는 모델의 실수 감소와 검증 능력이 비용표보다 크게 작동할 수 있습니다. Anthropic은 lower effort 설정에서 더 빠른 응답과 낮은 rate limit 소모를, higher effort 설정에서 더 깊은 사고를 제공한다고 설명합니다.

Opus 4.8의 effort control은 claude.ai와 Cowork에 들어갑니다. Claude Code에서는 extra, xhigh, max 같은 higher effort 선택지가 긴 비동기 작업과 어려운 task에 권장됩니다. Anthropic은 higher effort 사용량을 감당하도록 Claude Code rate limit도 올렸다고 말했습니다. 이 문장은 모델 성능 발표인 동시에 사용량 관리 발표입니다. 좋은 모델을 켜도 실행 예산이 너무 빨리 닳으면 팀 workflow에는 들어가기 어렵습니다.

정규 가격은 $5 input / $25 output per 1M tokens입니다. 개발팀은 Opus 4.7 대비 가격 동결과 고난도 작업 중심 사용을 같이 봐야 합니다. Fast mode는 $10 input / $50 output per 1M tokens입니다. Anthropic은 2.5배 속도와 이전 fast mode 대비 3배 인하를 주장했습니다.

Effort control은 low, high, extra, max 계열 선택지로 나뉩니다. 개발팀은 품질과 rate limit 소모를 task별로 분리할 수 있습니다. Messages API는 messages 안의 system entry를 지원합니다. 권한, token budget, environment context를 중간에 갱신하는 agent harness에 직접 연결되는 변화입니다.

Dynamic workflows는 수십-수백 subagent 병렬 실행과 검증을 묶습니다. migration, bug hunt, 보안 감사처럼 탐색과 검증이 분리되는 작업에서 실행 단위가 달라집니다.

Dynamic workflows는 에이전트 orchestration을 제품 기능으로 넣습니다

Claude Code dynamic workflows 발표문은 "분기 단위로 계획하던 일을 며칠 안에 끝낸다"는 공격적인 문장으로 시작합니다. 세부 설명은 더 구체적입니다. Claude가 prompt를 보고 workflow를 만들고, subtasks로 나누고, subagents를 병렬로 실행하고, 별도 agent가 결과를 반박하거나 검증한 뒤 하나의 보고서나 변경 묶음으로 돌려줍니다. single-agent coding session과 agent team orchestration 사이의 간격을 Claude Code 안으로 끌어온 형태입니다.

지원 범위도 개발자에게 직접적입니다. 발표문에 따르면 dynamic workflows는 Claude Code CLI, Desktop, VS Code extension에서 Max, Team, Enterprise plan에 제공됩니다. Enterprise는 관리자 활성화가 필요합니다. Claude API, Amazon Bedrock, Vertex AI, Microsoft Foundry에서도 사용할 수 있다고 설명됐습니다. Max나 Team plan, API 사용자는 기본적으로 켜져 있고, Enterprise plan은 출시 시점에 기본 비활성화입니다.

작동 방식은 두 갈래입니다. 사용자가 Claude에게 workflow를 만들라고 직접 요청할 수 있고, Claude Code의 ultracode 설정을 켤 수도 있습니다. ultracode는 effort를 xhigh로 놓고 Claude가 workflow 사용 여부를 자동 판단하게 하는 설정으로 설명됐습니다. 첫 workflow 실행 때 Claude Code는 실행 내용을 보여주고 확인을 받습니다. 조직 관리자는 managed settings로 workflows를 끌 수 있습니다.

이 기능은 에이전트 비용과 권한 문제를 정면으로 드러냅니다. Anthropic은 dynamic workflows가 일반 Claude Code 세션보다 훨씬 많은 token을 쓸 수 있으므로 처음에는 범위가 좁은 task에서 시작하라고 안내합니다. subagent가 많아질수록 모델 호출, tool call, 로그, 검증 run이 늘어납니다. "수백 agent"라는 말은 성능 홍보이면서 청구서 구조의 변화입니다. 팀은 workflow를 켜기 전에 task 범위, repository 권한, test command, merge 기준을 명시해야 합니다.

Bun 포팅 사례는 강하지만 아직 제품 보증은 아닙니다

Anthropic은 dynamic workflows의 scale 예시로 Bun 포팅 사례를 들었습니다. 발표문은 Jarred Sumner가 dynamic workflows를 사용해 Bun을 Zig에서 Rust로 포팅했고, 약 75만 줄 Rust, 기존 테스트 99.8% 통과, 첫 커밋부터 merge까지 11일이 걸렸다고 설명합니다. workflow 하나는 Zig codebase의 struct field마다 적절한 Rust lifetime을 매핑했습니다. 다음 workflow는 .zig 파일에 대응하는 .rs 파일을 behavior-identical port로 작성했습니다. 발표문은 수백 agent가 병렬로 일하고 각 파일에 두 reviewer가 붙었다고 말합니다.

이 사례의 숫자는 코딩 에이전트 시장에서 매우 강한 headline입니다. 수십 파일 단위 수정이 아니라 언어 포팅, lifetime 매핑, build/test fix loop, overnight cleanup PR까지 포함합니다. 다만 발표문은 "아직 production에는 적용되지 않았다"고 적었습니다. 이 사례는 dynamic workflows가 처리할 수 있는 작업 크기를 보여주는 데 적합합니다. 일반 기업 repository에서 같은 결과가 반복된다는 증거로 읽으면 안 됩니다.

실무 팀은 Bun 사례를 그대로 기대하기보다 조건을 봐야 합니다. 첫째, 기존 test suite가 workflow의 기준선으로 작동했습니다. 둘째, 결과 검증을 담당하는 reviewer agent가 별도로 배치됐습니다. 셋째, porting target과 source behavior가 비교 가능한 구조였습니다. 넷째, 최종 merge 전 사람이 판단할 여지가 남아 있었습니다. test가 약하거나 side effect가 많은 monorepo에서는 같은 workflow가 더 많은 false positive, flaky test, 비용 폭증을 만들 수 있습니다.

Messages API 변화는 작은 문장처럼 보이지만 agent harness에는 큽니다

Opus 4.8 발표문에는 Messages API 변화도 들어 있습니다. API는 이제 messages 배열 안의 system entry를 받습니다. Anthropic은 이를 agent harness가 작업 중 권한, token budget, environment context를 업데이트할 때 쓸 수 있다고 설명합니다. 기존 방식처럼 prompt cache를 깨거나 사용자 turn으로 지시를 우회하지 않아도 된다는 설명입니다.

이 변화는 long-running agent에서 자주 필요한 조작입니다. 예를 들어 agent가 repository를 스캔하다가 읽기 전용 모드에서 수정 승인 모드로 넘어가거나, token budget이 줄어든 뒤 요약 우선 정책으로 바뀌거나, staging environment endpoint가 바뀌는 상황이 있습니다. 이런 지시를 일반 user message로 넣으면 모델이 작업 지시와 환경 정책을 같은 층위로 해석할 수 있습니다. system entry를 대화 중간에 넣는 방식은 harness가 정책과 작업 내용을 분리하는 데 도움이 됩니다.

다만 이 기능은 권한 통제의 해답이 아니라 interface입니다. agent harness가 중간 system entry를 넣을 수 있다는 말은, 잘못 설계된 harness가 중간에 위험한 권한을 열 수도 있다는 뜻입니다. audit log, approval checkpoint, policy diff가 함께 있어야 합니다. dynamic workflows처럼 subagent가 많은 실행에서는 어떤 agent가 어떤 system update 이후 어떤 tool을 호출했는지 추적할 수 있어야 합니다.

Anthropic은 Opus 4.8의 "정직성"도 전면에 세웠습니다

Anthropic 발표문은 Opus 4.8의 prominent improvement 중 하나로 honesty를 언급했습니다. 회사는 AI model이 근거가 약한데도 진전이 있었다고 말하는 문제가 있으며, Opus 4.8은 불확실성을 표시하고 unsupported claim을 피하는 경향이 더 높다고 설명합니다. 발표문은 평가에서 Opus 4.8이 자신이 작성한 code flaw를 지적하지 않고 지나칠 가능성이 Opus 4.7보다 약 4배 낮다고 말했습니다.

코딩 에이전트에서 이 지표는 모델 점수보다 직접적입니다. 개발자가 agent에게 원하는 것은 "성공했다"는 말이 아니라 실패 조건, 깨진 test, 불확실한 변경, 검증 못 한 영역을 정확히 보고하는 능력입니다. 대규모 workflow는 이 문제를 키웁니다. subagent 100개가 동시에 돌아도 최종 보고서가 위험을 숨기면 팀은 빠르게 잘못된 diff를 받습니다. Anthropic이 honesty를 pricing, effort, workflow와 같은 발표문에 넣은 이유가 여기에 있습니다.

System Card와 발표문은 alignment 평가도 언급합니다. Anthropic은 Opus 4.8의 prosocial traits가 새 최고치를 보였고, deception이나 misuse cooperation 같은 misaligned behavior 비율이 Opus 4.7보다 낮고 Claude Mythos Preview와 유사하다고 주장했습니다. 이 수치는 Anthropic의 내부 평가입니다. 외부 팀은 자체 eval과 red-team prompt로 확인해야 합니다. 특히 code execution, browser agent, file system tool을 쓰는 환경에서는 모델의 선호 특성보다 tool permission boundary가 더 강한 안전장치입니다.

Mythos 예고는 Opus 4.8의 위치를 설명합니다

Anthropic은 Opus 4.8 발표 끝에서 더 높은 지능의 새 class model을 준비 중이라고 밝혔습니다. Project Glasswing의 일부 조직은 cybersecurity work에 Claude Mythos Preview를 쓰고 있으며, 이 capability level에는 일반 공개 전 더 강한 cyber safeguard가 필요하다고 설명했습니다. 회사는 Mythos-class 모델을 향후 몇 주 안에 고객에게 제공할 수 있을 것으로 예상한다고 적었습니다.

이 문장은 Opus 4.8이 최종 목적지가 아니라 중간 릴리스라는 점을 보여줍니다. Anthropic은 한편으로 Opus 가격을 유지하고 fast mode 가격을 낮추며, 다른 한편으로 Mythos-class 모델을 예고합니다. 시장에는 두 압력이 동시에 걸립니다. 고성능 모델은 더 비싸고 위험 평가가 까다로워지며, 실제 제품팀은 더 낮은 비용과 빠른 응답을 원합니다. Opus 4.8은 이 사이에서 "현재 쓸 수 있는 고성능 모델"과 "곧 더 강한 모델이 온다"는 메시지를 같이 담습니다.

개발자에게 이 예고는 모델 lock-in보다 abstraction 설계 문제로 읽힙니다. 오늘 Opus 4.8을 쓰다가 몇 주 뒤 Mythos-class 모델이 나오고, 다른 task는 Sonnet이나 Gemini, GPT 계열로 돌릴 수 있습니다. agent harness가 특정 모델 prompt 특성에 너무 얽히면 모델 전환 비용이 커집니다. 반대로 effort, budget, permissions, verification을 별도 계층으로 빼면 모델 교체가 쉬워집니다.

커뮤니티 반응은 기대와 회의가 섞였습니다

5월 28일 기준 Hacker News와 GeekNews에서 Opus 4.8 발표에 대한 큰 토론은 확인하지 못했습니다. Reddit의 r/ClaudeCode에는 공식 발표 링크와 dynamic workflows 링크가 올라왔고, 반응은 둘로 갈렸습니다. 한쪽은 ultracode, 수백 subagent, codebase-scale migration을 기대했습니다. 다른 쪽은 Opus 4.6 접근이 사라지는 문제, Opus 4.7 대비 체감 품질, 새 버전이 실제로 좋아졌는지에 의문을 제기했습니다.

이 반응은 코딩 에이전트 사용자의 현실을 반영합니다. 모델 벤치마크가 올라가도 사용자는 세션 한도, 응답 품질의 흔들림, 특정 이전 모델에 대한 선호, 긴 작업에서의 비용을 함께 봅니다. Anthropic이 rate limit 상향, fast mode 인하, effort control을 같은 발표에 넣은 것도 이 압력을 의식한 구성으로 보입니다. 개발자 도구 시장에서는 모델 정확도만으로 retention이 결정되지 않습니다.

OpenAI Codex와 GitHub Copilot, Cursor 같은 경쟁 도구도 같은 지점을 누르고 있습니다. Codex는 장기 task 실행과 repository 작업을, Copilot은 issue와 PR 흐름을, Cursor는 IDE 안의 agentic coding을 밀고 있습니다. Claude Code dynamic workflows는 이 경쟁에서 "단일 agent가 아니라 workflow orchestration"을 전면에 놓습니다. 경쟁의 단위가 model selector에서 execution planner, verifier, cost controller로 쪼개집니다.

실무 팀은 네 가지를 먼저 정해야 합니다

첫째는 workflow trigger 기준입니다. 모든 작업에 dynamic workflows를 켜면 비용과 검토 부담이 커집니다. codebase-wide migration, security audit, profiler-guided optimization, dead code cleanup처럼 병렬 탐색과 검증이 자연스러운 작업에 먼저 제한하는 편이 낫습니다. 단일 파일 버그 수정이나 작은 refactor에는 일반 Claude Code 세션이 더 예측 가능할 수 있습니다.

둘째는 권한과 sandbox입니다. subagent가 많아지면 tool call도 많아집니다. 읽기 전용 단계, 수정 단계, test 실행 단계, PR 생성 단계를 분리해야 합니다. shell, network, secrets, package install 권한을 한 번에 열면 workflow 속도는 빨라져도 사고 반경이 커집니다. Anthropic의 확인 prompt와 admin disable 기능은 시작점이고, 조직별 policy-as-code와 audit log가 이어져야 합니다.

셋째는 검증 기준입니다. Bun 사례에서 기존 test suite는 bar로 작동했습니다. 기업 repository에서는 test가 느리거나 flaky하거나 coverage가 낮을 수 있습니다. dynamic workflows가 낸 변경을 믿으려면 unit test, integration test, static analysis, security scan, human review 중 무엇이 merge gate인지 사전에 정해야 합니다. 검증 기준이 흐리면 수백 subagent는 수백 개 추정 결과를 만들 뿐입니다.

넷째는 비용 회계입니다. Opus 4.8 정규 가격이 동결됐고 fast mode가 내려갔어도, workflow는 token을 많이 씁니다. task당 input/output token, subagent 수, verification pass, 재시도 횟수, test 실행 비용을 기록해야 합니다. "며칠 만에 끝났다"는 문장과 "얼마를 썼는가"는 함께 봐야 합니다. AI coding agent의 ROI는 모델 가격표가 아니라 PR당 비용, reviewer 시간, rollback 빈도에서 계산됩니다.

Opus 4.8 발표의 실체는 새 모델 이름 하나가 아닙니다. Anthropic은 가격, effort, in-message system control, dynamic workflows를 한 묶음으로 냈습니다. 모델은 더 빠르고 덜 비싸야 하고, agent는 더 긴 작업을 나눠야 하며, harness는 중간에 권한과 예산을 바꿔야 합니다. 2026년의 코딩 에이전트 경쟁은 "누가 더 똑똑한 모델을 냈는가"보다 "누가 긴 실행을 통제 가능한 제품으로 만들었는가"에 가까워지고 있습니다.