Mythos가 41개 V8 버그 중 21개를 뚫었다, exploit 벤치마크 경고

Anthropic이 Mythos Preview의 exploit 평가와 CVD dashboard를 공개했습니다. V8 21/41 ACE, 1596개 취약점 공개가 보안팀의 새 기준을 만듭니다.

AI 요약

무슨 일: Anthropic이 2026년 5월 22일 Claude Mythos Preview의 exploit 개발 평가를 공개했습니다.
- 대상은 ExploitBench, ExploitGym, SCONE-bench 세 벤치마크입니다.
숫자: Mythos Preview는 ExploitBench에서 41개 V8 CVE 중 21개에서 ACE를 달성했습니다.
공개 운영: CVD dashboard는 281개 오픈소스 프로젝트에 1596개 취약점을 disclosed했다고 기록했습니다.
- 97개는 upstream patch, 88개는 CVE 또는 GHSA를 받았습니다.
주의점: 방어팀에는 patch triage 속도, exploit 재현성, disclosure backlog가 모델 성능만큼 중요해졌습니다.

Anthropic Frontier Red Team이 2026년 5월 22일 Measuring LLMs' ability to develop exploits를 공개했습니다. 이 글은 Claude Mythos Preview가 취약점을 찾는 수준을 넘어 exploit primitive를 만들고, sandbox를 넘어가고, 공격 체인을 완성할 수 있는지를 세 벤치마크로 측정합니다. 같은 날 coordinated vulnerability disclosure dashboard도 공개됐습니다. dashboard는 Mythos Preview가 찾은 오픈소스 취약점이 maintainer disclosure와 patch로 얼마나 이어졌는지를 숫자로 보여줍니다.

이번 공개가 일반 모델 벤치마크와 다른 지점은 평가 목표입니다. MMLU나 SWE-bench류 점수는 모델이 문제를 풀었는지 봅니다. ExploitBench와 ExploitGym은 패치된 취약점, vulnerable build, 실행 harness, 제한 시간, 자동 채점 조건을 주고 unauthorized code execution까지 도달했는지 봅니다. Anthropic은 Mythos Preview를 일반 출시하지 않고 Project Glasswing과 Cyber Verification Program 같은 제한 접근 경로로 운영한다고 설명해 왔습니다. 5월 22일 글은 그 결정을 뒷받침하는 계량 자료입니다.

21/41

ExploitBench에서 Mythos Preview가 ACE를 달성한 V8 CVE

157

ExploitGym intended vulnerability 기준 성공 task

3500만 달러

SCONE-bench simulation exploit revenue

1596

CVD dashboard에 disclosed된 취약점 수

ExploitBench는 Carnegie Mellon University와 Bugcrowd 연구자가 만든 V8 exploit 개발 평가입니다. V8은 Chrome, Edge, Android WebView, Node.js, Electron 앱의 기반이 되는 JavaScript와 WebAssembly 엔진입니다. 이 벤치마크는 41개 패치된 V8 취약점 환경을 사용하고, 모델이 단순 proof-of-concept를 넘어서 exploit primitive와 arbitrary code execution을 구성하는지 봅니다. Anthropic은 모든 Claude 모델을 같은 ExploitBench harness에서 실행했고, 결과와 transcript를 benchmark 저자에게 전달해 검증받았다고 밝혔습니다.

ExploitBench의 채점은 T5 coverage부터 T1 full control까지 이어지는 capability ladder입니다. T5는 vulnerable code path에 도달하는 수준이고, T4는 bug를 재현하는 proof-of-concept입니다. T3는 V8 sandbox 내부 primitive, T2는 sandbox 밖 read/write나 infoleak, T1은 control flow hijack 또는 arbitrary code execution입니다. 이 구분은 보안팀에 익숙한 차이를 숫자로 만듭니다. crash가 난다는 사실과 브라우저 탭을 장악한다는 사실은 같은 "취약점 재현"이 아닙니다.

Anthropic 글에서 가장 큰 숫자는 21입니다. Baseline과 Nudged variant를 합쳐 Mythos Preview는 41개 CVE 중 21개에서 ACE를 달성했습니다. 다른 일반 모델은 ACE를 1건도 기록하지 못했습니다. scoreboard에서 유일하게 ACE를 달성한 다른 모델은 proprietary scaffold를 사용했고, 41개 중 2건에 그쳤습니다. Anthropic은 모든 모델이 vulnerable path에 도달하거나 bug를 trigger할 수 있었지만, V8 sandbox 안에서 exploit primitive를 만들고 sandbox를 넘어가는 단계가 capability cliff였다고 설명했습니다.

ExploitGym successes 공식 chart

ExploitGym은 더 넓은 target set을 사용합니다. UC Berkeley, Max Planck Institute for Security and Privacy, UC Santa Barbara, Arizona State University 연구진이 만든 이 benchmark는 OSS-Fuzz, V8, Linux kernel을 포함한 898개 패치된 취약점을 대상으로 합니다. 모델은 vulnerable source code와 build script, vulnerability description, compiled binary, launch script, remote target을 받습니다. 목표는 target의 security model이 허용하지 않는 privilege level에서 code execution을 얻고 dynamically generated flag를 회수하는 것입니다.

ExploitGym 결과도 같은 방향을 가리킵니다. 두 시간 wall-clock limit과 각 개발사의 recommended harness 조건에서 Mythos Preview는 intended vulnerability 기준 157개 task에서 unauthorized code execution을 달성했습니다. unintended vulnerability를 통한 flag capture까지 포함하면 226개입니다. 같은 표에서 Opus 4.6은 intended vulnerability 15개, alternative path 포함 36개로 제시됐습니다. 모델 이름 하나가 바뀌었다기보다 exploit chain을 끝까지 밀고 가는 능력이 세대 단위로 이동했다는 쪽에 가까운 차이입니다.

SCONE-bench는 smart contract exploitation을 측정합니다. Anthropic은 MATS와 Anthropic Fellows Program과 함께 만든 benchmark를 업데이트하면서, 모든 모델의 latest knowledge cutoff 이후인 2026년 1월 1일 뒤 보고된 12개 exploit을 사용했습니다. 모델은 local simulation에서 smart contract 취약점을 찾아 자금을 빼내는 exploit을 작성합니다. 성공 금액은 실제 exploit 발생일의 CoinGecko historical exchange rate로 USD 환산했습니다.

SCONE-bench revenue 공식 chart

이 실험에서 Mythos Preview는 3500만 달러 상당의 simulated exploit revenue를 기록했습니다. Anthropic은 이 수치가 다음으로 가까운 모델보다 1500만 달러, 약 75% 높다고 적었습니다. 차이는 단지 한두 문제에서 큰 금액을 얻은 결과가 아닙니다. Mythos Preview는 테스트된 모든 vulnerability를 exploit한 유일한 모델이었고, truebit과 makina 같은 문제에서도 다른 모델과 구분됐습니다. Anthropic은 기존 모델의 revenue 성장이 release time 기준 log-linear trajectory를 보였고, Opus 4.5 이후에는 doubling time이 1.1개월에서 0.7개월로 짧아졌다고 설명했습니다.

수치가 공격자에게만 유리한 소식은 아닙니다. 같은 공개에는 disclosure dashboard가 붙어 있습니다. Anthropic은 2026년 2월부터 Claude Mythos Preview의 early snapshot으로 오픈소스 취약점을 찾고, 외부 보안 연구 업체와 함께 triage와 validation을 거친 뒤 critical 또는 high severity finding을 maintainer에게 보고했다고 설명했습니다. dashboard는 2026년 5월 22일 10:27 PT 기준 281개 프로젝트에 1596개 취약점을 disclosed했고, 97개가 upstream patch됐으며, 88개가 CVE 또는 GitHub Security Advisory를 받았다고 기록했습니다.

CVD 단계	공식 수치	운영 의미
발견 후보	23019 findings	모델 출력은 대량 후보를 만들지만, 그대로 공개 가능한 보고서는 아닙니다.
외부 검토	1900 findings reviewed	human triage와 reproduce 작업이 공개 속도의 병목입니다.
valid 확인	1726 findings, 90.8% true positive	dashboard는 maintainer 판단 전 외부 보안 업체 기준의 proxy라고 주석을 붙입니다.
패치	97 upstream patched, 88 advisories	AI 발견 속도와 maintainer remediation 속도 사이의 backlog가 드러납니다.

dashboard에서 보이는 또 다른 장치는 disclosure ledger입니다. Anthropic은 검증된 finding마다 sealed report의 SHA-3-512 hash를 먼저 공개해 possession proof를 남긴다고 설명합니다. disclosure window 안에 있는 finding은 identifier와 project, bug class를 숨기고 hash와 commitment date만 보여줍니다. 시간이 지나 disclosure window가 닫히면 CVE, GHSA, project, bug class, finding detail을 공개합니다. 이 방식은 "우리가 나중에 끼워 맞춘 것이 아니다"라는 시간 증명을 남기면서, maintainer에게 patch 시간을 주려는 절충입니다.

공개된 advisory 예시는 보안팀이 이 dashboard를 왜 봐야 하는지 보여줍니다. dashboard에는 nginx WebDAV module의 unauthenticated remote file write, temporalio/temporal의 cross-namespace workflow 조작, HashiCorp Nomad path traversal이 보입니다. Ghost Content API SQL injection, Mastodon SSRF와 signature bypass, ImageMagick heap buffer overflow도 포함됩니다. AI가 찾은 취약점이라는 라벨보다 프로젝트 이름과 bug class가 더 중요합니다. 이 목록은 실험실 benchmark가 아니라 운영 중인 dependency와 service의 patch queue로 이어집니다.

Anthropic은 dashboard의 숫자를 절대적인 impact 측정값으로 읽지 말라고 선을 긋습니다. true positive rate는 maintainer가 최종 확인한 비율이 아니라 외부 security research firm이 수동 검토에서 valid로 판단한 비율입니다. 일부 finding은 이미 보고됐거나, 프로젝트 threat model 밖이라 maintainer가 fix하지 않을 수도 있습니다. direct disclosure로 maintainer가 untriaged finding을 요청한 경우도 있습니다. 이 주석은 보안 자동화에서 흔한 과장을 줄입니다. 모델은 많은 후보를 만들지만, 제품 보안에서는 재현, severity 합의, embargo, patch release, advisory publication이 각각 별도 작업입니다.

개발자에게 닿는 실무 변화는 patch prioritization입니다. 지금까지 많은 팀은 SCA alert, CVSS, exploit-in-the-wild 여부, exposed asset 여부를 합쳐 우선순위를 정했습니다. Mythos Preview류 모델이 패치된 취약점에서 exploit primitive를 빠르게 구성한다면, "아직 public exploit이 없다"는 판단의 유효기간이 짧아집니다. 특히 V8, Linux kernel, OSS-Fuzz 대상 프로젝트처럼 dependency graph 아래쪽에 있는 컴포넌트는 downstream 제품이 많아 patch delay가 넓게 번집니다.

AppSec 팀에는 다른 압력이 생깁니다. AI로 후보를 대량 생성할 수 있어도 triage 인력과 maintainer 응답 속도는 선형으로 늘지 않습니다. Anthropic dashboard의 23019 candidate, 1900 reviewed, 1596 disclosed, 97 patched라는 간격은 model capability보다 운영 capacity를 보여주는 숫자입니다. 사내에서 비슷한 agent를 돌리는 팀은 "몇 건을 찾았나"보다 "얼마나 재현했고, 어떤 severity 기준으로 보고했고, 어떤 disclosure SLA로 닫았나"를 먼저 설계해야 합니다.

모델 접근 정책도 제품 질문이 됩니다. Anthropic은 글 말미에서 Mythos-level 모델이 앞으로 6-12개월 안에 넓게 사용 가능해질 수 있다고 봅니다. 이 문장은 예측이지만, 회사의 deployment policy와 연결됩니다. Cyber Verification Program은 악성 cyber threat를 더 강하게 차단하면서 방어자가 자기 software와 infrastructure를 보호하는 사용은 허용하려는 장치입니다. 개발자 입장에서는 API access tier, logging, abuse monitoring, researcher access program 같은 운영 정책이 benchmark 점수만큼 중요합니다.

이번 공개를 "AI가 보안을 끝냈다"로 읽으면 사실을 놓칩니다. ExploitBench는 41개 패치된 V8 CVE이고, ExploitGym은 실험 harness 안의 898개 task입니다. SCONE-bench도 local simulation입니다. 실제 공격은 target fingerprinting, operational security, persistence, detection evasion, 법적 위험, patch 상태, 환경 차이를 동반합니다. 반대로 "실험일 뿐"이라고 낮추면 더 큰 신호를 놓칩니다. benchmark는 바로 그 차이를 줄이기 위해 vulnerable build, randomized heap layout, security mitigation toggle, flag verification 같은 조건을 넣었습니다.

한국 개발팀이 지금 적용할 수 있는 기준은 세 가지입니다. 첫째, AI 보안 agent를 도입할 때 raw finding count를 KPI로 삼지 않습니다. 재현율, maintainer 응답률, patch merge까지의 시간, false positive 처리 비용을 같이 봅니다. 둘째, browser engine, runtime, parser, image library, auth middleware처럼 exploit primitive가 제품 전체 권한으로 이어지는 컴포넌트를 별도 risk tier로 둡니다. 셋째, public exploit 여부를 늦은 지표로 보고, patch된 취약점과 benchmark 재현 가능성까지 우선순위 입력으로 넣습니다.

Anthropic의 5월 22일 공개는 모델 홍보와 보안 경고가 함께 들어 있는 문서입니다. Mythos Preview가 세 benchmark에서 앞선다는 사실은 Anthropic의 기술 성과입니다. 동시에 1596개 disclosed vulnerability와 97개 patched upstream이라는 dashboard는 방어 업무가 얼마나 빨리 밀릴 수 있는지 보여줍니다. AI가 exploit 개발의 전문성을 낮춘다면, 방어팀이 먼저 자동화해야 할 부분은 exploit 생성이 아니라 triage, patch routing, dependency ownership, disclosure bookkeeping입니다.