Claude Sonnet 5 공개, Opus급 에이전트 성능의 가격 인하

Anthropic이 Claude Sonnet 5를 공개했습니다. 낮은 API 가격, effort 조절, GitHub Copilot 배포가 코딩 에이전트 비용 계산을 바꿉니다.

AI 요약

무슨 일: Anthropic이 2026년 6월 30일 Claude Sonnet 5를 공개했습니다.
- claude-sonnet-5는 Claude Free·Pro 기본 모델, Claude Code, Claude Platform, GitHub Copilot 선택 모델로 배포됩니다.
가격: 8월 31일까지 입력 100만 토큰 2달러, 출력 100만 토큰 10달러입니다.
- 이후 표준 가격은 입력 3달러, 출력 15달러이고, Anthropic은 Opus 4.8 가격을 입력 5달러, 출력 25달러로 비교했습니다.
개발자 영향: 코딩 에이전트의 모델 선택 기준이 최고 점수보다 effort, 토큰 비용, 사이버 가드레일로 쪼개집니다.

Anthropic이 6월 30일 공개한 Claude Sonnet 5는 새 최상위 모델이라는 발표가 아닙니다. 회사는 Sonnet 5를 “가장 에이전트적인 Sonnet 모델”로 소개하면서도, 비교 대상을 Opus 4.8과 Sonnet 4.6 사이에 놓았습니다. 개발자가 봐야 할 지점은 성능 순위표의 1위가 아니라, Opus급에 가까운 도구 사용·코딩·브라우저 작업을 Sonnet급 가격으로 얼마나 자주 쓸 수 있느냐입니다.

출시 조건도 가격 신호를 분명하게 냅니다. Anthropic은 2026년 8월 31일까지 Claude Platform에서 Sonnet 5를 입력 100만 토큰당 2달러, 출력 100만 토큰당 10달러로 제공합니다. 이후 표준 가격은 입력 3달러, 출력 15달러입니다. 같은 발표에서 Opus 4.8 가격은 입력 5달러, 출력 25달러로 제시됐습니다. 코딩 에이전트가 장기 작업에서 계획, 검색, 실행, 테스트, 재시도를 반복한다는 점을 생각하면 이 차이는 한 번의 채팅보다 하루 단위 운영비에서 더 크게 보입니다.

Claude Sonnet 5 공식 벤치마크 표

공식 벤치마크 표입니다.

Sonnet 5가 겨냥한 자리는 최고 모델이 아니라 기본 실행 모델입니다

Anthropic 발표문에서 Sonnet 5는 Free와 Pro 플랜의 기본 모델로 들어갑니다. Max, Team, Enterprise 사용자도 사용할 수 있고, Claude Code와 Claude Platform에도 즉시 배포됩니다. 모델 이름은 API에서 claude-sonnet-5입니다. 이 배포 방식은 Sonnet 5를 연구용 고가 모델이 아니라 일상 실행 모델로 놓겠다는 뜻에 가깝습니다.

Anthropic이 강조한 작업도 일반 질의응답보다 에이전트 실행에 맞춰져 있습니다. 발표문은 Sonnet 5가 계획을 세우고, 브라우저와 터미널 같은 도구를 사용하고, 몇 달 전에는 더 크고 비싼 모델이 필요했던 수준의 자율 작업을 처리한다고 설명합니다. 코딩, 도구 사용, 지식 업무, 추론이 개선됐다는 문장 뒤에는 비용-성능 곡선이 붙어 있습니다. 모델 카드보다 운영팀이 먼저 보게 되는 것은 “어떤 effort에서 얼마를 쓰면 어느 정도 결과가 나오나”입니다.

이 지점에서 Sonnet 5는 Opus 4.8을 대체한다고 말하기 어렵습니다. Anthropic도 시스템 카드에서 Sonnet 5가 Opus나 Mythos급 모델보다 능력 최전선을 높이지 않는다고 적었습니다. 대신 Sonnet 4.6보다 코딩, 에이전트 검색, 멀티모달 추론, 전문 업무 성능이 뚜렷하게 올랐다고 설명합니다. 모델 라우팅 관점에서는 “가장 어려운 작업은 Opus, 대부분의 반복 실행은 Sonnet”이라는 분리가 더 자연스럽습니다.

비용-성능 곡선은 모델 이름보다 effort를 앞으로 끌어냅니다

발표문에서 가장 실무적인 자료는 BrowseComp와 OSWorld-Verified 비용-성능 그래프입니다. BrowseComp는 에이전트 검색 평가이고, OSWorld-Verified는 컴퓨터 사용 평가입니다. Anthropic은 Sonnet 5가 Sonnet 4.6보다 엄격하게 개선됐고, Opus 4.8보다 넓은 비용-성능 선택지를 제공한다고 설명했습니다. 일부 높은 effort 작업에서는 Opus 4.8 수준에 닿을 수 있다는 표현도 붙었습니다.

여기서 effort는 단순한 “느리게 생각하기” 옵션이 아닙니다. 코딩 에이전트에서는 문제 재현, 저장소 검색, 테스트 실행, 실패 로그 해석, 수정안 생성, 재검증이 모두 토큰과 시간으로 청구됩니다.

낮은 effort에서 빠르게 처리할 작업, 중간 effort에서 비용 효율을 볼 작업, 높은 effort에서 Opus를 대체해 볼 작업이 나뉩니다. 개발팀이 모델을 하나만 고르는 것이 아니라 작업 유형별 정책을 짜야 하는 이유입니다.

Anthropic은 6월 30일 발표 후 같은 날 비용-성능 차트의 BrowseComp 방법론을 수정했다는 변경 내역도 남겼습니다. 원래 차트가 표준 에이전트 검색 방법론을 반영하지 않아 Sonnet 5 성능을 낮게 추정했고, 이후 1000만 토큰 예산, 압축, 프로그램 방식 도구 호출을 쓰는 시스템 카드 방법론에 맞춰 업데이트했다는 설명입니다. 이 메모는 벤치마크 숫자를 읽는 개발자에게 중요합니다. 에이전트 평가는 정적 문제 풀이보다 실행 예산, 도구 호출 방식, 중간 상태 압축에 민감합니다.

GitHub Copilot 배포는 Sonnet 5를 IDE 선택지로 바꿉니다

같은 날 GitHub는 Claude Sonnet 5를 GitHub Copilot에서 일반 제공한다고 공지했습니다. 대상은 Copilot Pro, Pro+, Max, Business, Enterprise 사용자입니다. 선택 표면도 넓습니다. VS Code, Visual Studio, Copilot CLI, GitHub Copilot cloud agent, Copilot App, github.com, GitHub Mobile, JetBrains, Xcode, Eclipse에서 점진적으로 모델을 선택할 수 있습니다.

GitHub Copilot의 Claude Sonnet 5 모델 선택 화면

GitHub가 붙인 설명은 Anthropic 발표와 결이 같습니다. 내부 테스트에서 Sonnet 5는 CLI형 작업에 강했고, 프롬프트 캐시 활용과 낮은 effort 지연 시간이 경쟁력 있었다고 합니다.

Copilot에서는 이 모델이 사용량 기반 과금의 공급자 정가에 따라 청구됩니다. Copilot 사용자는 “Claude가 들어왔다”가 아니라 “업무별 모델 비용표가 IDE 안으로 들어왔다”는 변화를 보게 됩니다.

이 배포는 JetBrains 사용자에게도 별도 의미가 있습니다. GitHub는 같은 날 JetBrains AI Assistant의 에이전트 선택기에서 GitHub Copilot을 1급 선택지로 고를 수 있게 됐다고 발표했습니다. Copilot 모델을 고르고 추론 깊이를 조정하며, 다단계 작업을 넘기면 Copilot이 프로젝트를 읽고 변경을 제안하고 명령을 실행하며 반복한다는 설명입니다. Sonnet 5가 그 모델 선택지에 들어가면, IDE 안의 에이전트 경쟁은 제품 브랜드보다 모델·비용·권한 조합으로 보이기 시작합니다.

안전 평가는 “더 강한 Sonnet”의 경계를 같이 그립니다

Anthropic은 Sonnet 5가 Sonnet 4.6보다 에이전트 안전성에서 개선됐다고 설명했습니다. 악성 요청 거절, 프롬프트 인젝션 저항, 환각, 아첨 성향이 나아졌다는 주장입니다. 시스템 카드는 헌법 준수, 오용 견고성, 자기 주도 위험 행동 지표가 대체로 개선됐고, 일부 harmful system prompt 취약성이나 prefill 관련 지표에서는 작은 퇴행이 있었다고 더 구체적으로 적습니다.

사이버 평가에서는 선을 분명히 그었습니다. Anthropic은 Sonnet 5를 사이버 능력에 최적화한 모델이 아니라고 설명합니다. 발표문은 Firefox 취약점 익스플로잇 평가에서 Sonnet 계열 모델이 완전한 작동 익스플로잇을 만들지 못했고, Opus 4.8과 Mythos 5보다 사이버 능력이 낮다고 적었습니다. 다만 Sonnet 5가 이전 Sonnet보다 강해졌기 때문에 기본 사이버 보호 장치를 켠 상태로 출시한다고 밝혔습니다.

이 부분은 코딩 에이전트 사용자에게 양면적입니다. 일반 개발 작업에서는 더 낮은 가격으로 장기 실행을 맡길 수 있지만, 보안 연구와 취약점 재현 업무에서는 가드레일과 모델 선택을 별도로 설계해야 합니다. Anthropic도 고급 사이버 작업에는 완화된 제한이 필요한 경우 Opus 4.8을 권한다고 각주에 남겼습니다. Sonnet 5는 “무조건 더 강한 모델”이라기보다, 일반 코딩·업무 자동화의 실행 단가를 낮추되 위험한 사이버 영역은 기본 보호 장치로 묶는 배치입니다.

토크나이저 변경은 가격표만 보면 놓치는 변수입니다

가격 인하처럼 보이는 발표에도 계산할 항목이 하나 더 있습니다. Anthropic은 Sonnet 5가 Sonnet 4.6의 업그레이드지만 업데이트된 토크나이저를 사용한다고 설명했습니다. 같은 입력이 콘텐츠 유형에 따라 약 1.0배에서 1.35배 토큰으로 매핑될 수 있다는 내용입니다. 8월 31일까지의 도입 가격은 이 전환을 비용 중립에 가깝게 만들려는 목적이라고 적었습니다.

이 문장은 모델 교체 작업에서 그냥 지나치기 어렵습니다. 저장소 전체를 읽는 코딩 에이전트, 긴 문서를 요약하는 업무 에이전트, 브라우저 사용 기록을 압축하는 에이전트는 입력 토큰 비중이 큽니다.

입력 단가가 내려가도 토큰 수가 늘면 실제 청구액은 워크로드별로 달라집니다. 기존 Sonnet 4.6 기반 비용 대시보드가 있다면, 같은 프롬프트 묶음을 Sonnet 5 토크나이저로 다시 샘플링해야 합니다.

GitHub Copilot의 최근 비용 기능도 같은 문제를 가리킵니다. GitHub는 6월 30일 엔터프라이즈 관리자가 비용 센터별 사용자 단위 AI 크레딧 예산을 REST API로 설정할 수 있다고 발표했습니다. 추가 사용량이 시작되기 전에도 포함 사용량 풀에서 개인을 막을 수 있는 구조입니다. Sonnet 5처럼 여러 IDE와 CLI 표면에 배포되는 모델은 개발자 생산성 기능이면서 동시에 예산 관리 대상입니다.

개발팀은 모델 라우팅 정책을 더 작게 쪼개야 합니다

Sonnet 5 발표를 코딩 에이전트 관점에서 읽으면 세 가지 정책 질문이 남습니다. 첫째, 어떤 작업을 Sonnet 5 기본값으로 둘 것인가입니다. 테스트 생성, 리팩터링 초안, 로그 분석, 문서 정리, 단순 버그 수정은 낮은 effort 또는 중간 effort Sonnet 5가 맞을 가능성이 큽니다. 반대로 설계 변경, 대규모 마이그레이션, 보안 민감 작업, 실패 비용이 큰 배포 자동화는 Opus급 모델이나 사람 리뷰를 유지해야 합니다.

둘째, effort를 누가 정할 것인가입니다. 개발자가 매번 드롭다운에서 고르게 하면 비용 통제는 느슨해집니다. 에이전트 런타임이 파일 수, 테스트 실패 횟수, diff 크기, 권한 범위, 외부 도구 호출 여부에 따라 effort를 올리는 방식이 더 안정적입니다. Sonnet 5의 핵심 변화는 모델 하나의 능력이 아니라 이런 정책을 만들 만큼 비용-성능 선택지가 촘촘해졌다는 점입니다.

셋째, 가드레일 실패를 어떤 로그로 볼 것인가입니다. Anthropic은 Sonnet 5가 프롬프트 인젝션 저항과 악성 요청 거절에서 개선됐다고 말하지만, 실제 저장소에는 패키지 스크립트, 문서 안 지시문, 테스트 데이터, 외부 웹페이지가 섞입니다. 코딩 에이전트가 브라우저와 터미널을 함께 쓰는 순간, 모델 안전성만으로는 충분하지 않습니다. 명령 승인, 파일 권한, 네트워크 제한, 비밀값 마스킹, 실행 로그 보존이 모델 선택과 같은 수준의 설정이 됩니다.

이번 발표의 실제 경쟁자는 Opus가 아니라 “기본값”입니다

Claude Sonnet 5는 Anthropic 내부 서열에서 Opus 4.8이나 Mythos를 넘는 모델로 소개되지 않았습니다. 그 대신 Free·Pro 기본 모델, Claude Code, Claude Platform, GitHub Copilot에 들어갑니다. 이 배포 조합은 더 조용하지만 실무 영향이 큽니다. 개발자는 최고 성능 모델을 가끔 쓰는 것보다, 충분히 강한 모델을 매일 수십 번 쓰는 비용에서 더 자주 막힙니다.

그래서 Sonnet 5의 경쟁자는 다른 연구실의 최고 점수 모델만이 아닙니다. Copilot의 모델 선택기, Claude Code의 기본값, 자체 에이전트 라우터의 비용 정책, 엔터프라이즈 예산 한도가 모두 경쟁 표면입니다. Sonnet 5가 성공하려면 벤치마크에서 Opus를 완전히 이길 필요가 없습니다. 중간 effort에서 충분한 결과를 내고, 실패할 때 사람에게 넘기며, 위험한 작업에서 멈추고, 비용 대시보드에서 설명 가능한 숫자로 남으면 됩니다.

이번 발표는 모델 경쟁이 “가장 똑똑한 모델”에서 “가장 자주 호출해도 되는 모델”로 내려오는 장면입니다. Anthropic은 Sonnet 5로 그 자리를 노리고 있고, GitHub는 같은 날 Copilot 안에 그 선택지를 넣었습니다. 다음 비교 기준은 벤치마크 표의 최고점보다 실제 저장소에서의 성공률, 재시도 횟수, 캐시 적중률, 토큰 증가율, 리뷰어가 되돌린 diff 비율이 될 가능성이 큽니다.