Devlery
Blog/AI

Glasswing 150곳 확대, Mythos가 만든 패치 병목

Anthropic이 Project Glasswing을 150개 신규 조직으로 확대했습니다. Claude Mythos가 만든 취약점 발견 이후의 검증과 패치 병목을 봅니다.

Glasswing 150곳 확대, Mythos가 만든 패치 병목
AI 요약
  • 무슨 일: Anthropic이 2026년 6월 2일 Project Glasswing을 약 150개 신규 조직으로 확대했습니다.
    • 신규 그룹은 15개 이상 국가의 전력, 물, 의료, 통신, 하드웨어, 핵심 소프트웨어 벤더를 포함합니다.
  • 수치: CVD dashboard는 23,019개 findings, 1,900개 candidates, 90.8% true positive를 표시했습니다.
  • 개발자 영향: AI 보안 모델의 병목은 취약점 발견보다 triage, disclosure, patch, 배포 로그로 옮겨갑니다.
    • Anthropic은 Mythos-class 모델이 6-12개월 안에 다른 회사에서도 나올 수 있다고 봅니다.
  • 주의점: Mythos Preview는 일반 공개 제품이 아니라 보안 요구사항을 충족한 파트너에게만 열리는 gated access입니다.

Anthropic은 2026년 6월 2일 Project Glasswing을 약 150개 신규 조직으로 확대한다고 발표했습니다. 기존 초기 파트너는 약 50곳이었습니다. 신규 그룹은 15개 이상 국가에 기반을 두며 전력, 물, 의료, 통신, 하드웨어, 핵심 소프트웨어 벤더와 비영리 유지보수 조직을 포함합니다. 각 조직은 Claude Mythos Preview 접근 전 Anthropic의 보안 요구사항을 통과해야 합니다.

발표에서 숫자가 먼저 보입니다. Anthropic은 신규 파트너 다수가 공격당하면 1억 명 이상에게 영향이 갈 수 있는 codebase를 운영한다고 추정했습니다. 회사는 이미 초기 파트너들이 Mythos Preview로 1만 건 이상의 high 또는 critical severity 보안 결함을 찾았다고 적었습니다. 4월 7일 Project Glasswing 공개 때의 메시지가 "강력한 cyber model을 공개하지 않고 방어자에게 먼저 준다"였다면, 6월 2일 발표는 "찾은 뒤 누가 검증하고 고칠 것인가"로 초점을 옮깁니다.

Project Glasswing

Project Glasswing은 Claude Mythos Preview라는 unreleased frontier model을 중심으로 시작했습니다. 초기 발표는 Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, Linux Foundation, Microsoft, NVIDIA, Palo Alto Networks가 참여한다고 적었습니다. Anthropic은 Mythos Preview가 주요 운영체제와 웹브라우저에서 고위험 취약점을 찾았고, OpenBSD의 27년 된 취약점, FFmpeg의 16년 된 취약점, Linux kernel privilege escalation chain을 예시로 들었습니다.

이 모델은 일반 개발자에게 열리지 않습니다. Anthropic은 4월 발표에서 Claude Mythos Preview를 일반 제공할 계획이 없다고 밝혔습니다. 목표는 misuse safeguards가 마련된 뒤 Mythos급 능력을 방어 목적에 맞게 scale로 제공하는 것입니다. 6월 2일 발표도 같은 선을 유지합니다. 접근은 넓어지지만, 신규 조직은 보안 요구사항을 충족해야 하고, Anthropic은 향후 critical infrastructure provider, critical open-source maintainer, safety tester를 우선하겠다고 했습니다.

Anthropic이 적은 시간표는 더 노골적입니다. 회사는 6-12개월 안에 다른 AI 회사도 Mythos-class 모델을 갖게 될 수 있고, 일부는 오용 방지 장치 없이 공개할 수 있다고 예상했습니다. 이 문장은 모델 경쟁의 과장이 아니라 release policy의 압박으로 읽어야 합니다. 취약점 탐지가 싸고 빨라지면 공격자와 방어자가 같은 능력을 쓰는 시간이 좁아집니다. 방어자에게 필요한 것은 모델 접근권만이 아니라 finding을 중복 없이 검증하고 maintainer에게 전달하고 patch가 배포됐는지 추적하는 운영 체계입니다.

150곳
신규 Glasswing 조직
15개국+
신규 파트너 기반 국가
1억 명+
대형 공격 시 영향 추정

이 관점은 Anthropic의 coordinated vulnerability disclosure dashboard에서 더 분명해집니다. Dashboard는 2026년 5월 22일 10:27 PT 기준이라고 표시합니다. 2월부터 Anthropic은 Claude Mythos Preview의 early snapshot으로 open-source software 취약점을 찾기 시작했고, 외부 보안 연구 업체와 함께 triage, validation, maintainer report를 진행했습니다. 이 페이지는 model benchmark가 아니라 취약점 처리 공정표에 가깝습니다.

CVD 단계수치운영 의미
Discovered23,019 findings모델이 만든 원시 후보 풀입니다.
Candidates1,900 findings외부 연구 업체 검토 대상으로 정리된 묶음입니다.
Reviewed1,726 findings사람과 보안 업체가 재현, 심각도, report 품질을 확인했습니다.
Confirmed valid90.8% true positives검토된 후보 중 실제 취약점으로 판단된 비율입니다.
Reported467 + 1,129 findings외부 검토 뒤 보고되거나 Anthropic이 maintainer 요청으로 직접 전달했습니다.

이 표에서 개발자가 볼 항목은 90.8%보다 23,019와 467 사이의 간격입니다. Dashboard 설명은 "true positive"도 impact의 proxy일 뿐이라고 적습니다. Maintainer가 보고서를 받은 뒤 fix 여부를 판단하기 전에는 실제 패치 효과를 알 수 없습니다. Anthropic은 더 신뢰할 수 있는 지표가 patch created 수라고 설명하지만, patch는 lagging indicator입니다. 취약점이 맞다는 판단과 보안 업데이트가 실제 사용자에게 설치되는 일 사이에는 advisory, release, downstream package, 배포 정책이 끼어 있습니다.

Anthropic의 5월 22일 initial update는 같은 병목을 문장으로 풀었습니다. 회사는 1,000개 이상 open-source project를 스캔했다고 밝히고, 발견량이 늘어날수록 triage와 disclosure capacity가 병목이 된다고 설명했습니다. 6월 2일 expansion은 이 병목을 150개 신규 조직으로 더 크게 만듭니다. 더 많은 파트너가 Mythos Preview로 codebase를 스캔하면 더 많은 finding이 나오고, 더 많은 maintainer와 vendor가 report queue를 받습니다.

4월 발표의 benchmark도 이 판단에 영향을 줍니다. Anthropic은 Mythos Preview가 CyberGym vulnerability reproduction에서 83.1%, Opus 4.6이 66.6%라고 적었습니다. Agentic coding 항목에서는 SWE-bench Pro 77.8%, Terminal-Bench 2.0 82.0%, SWE-bench Verified 93.9%를 제시했습니다. Terminal-Bench 실험은 Terminus-2 harness, adaptive thinking maximum effort, task당 100만 token budget, five attempts 평균 조건을 달았습니다. 이 숫자는 공개 leaderboard와 단순 비교하기보다 "긴 작업 budget을 쓰는 cyber agent"의 운영 비용과 검증 비용을 함께 봐야 합니다.

Red Team의 Claude Mythos Preview 기술 글은 모델이 단순 lint scanner가 아님을 보여줍니다. Linux kernel exploit 설명에서는 dangling pointer, slab page 재사용, AF_PACKET receive ring, CONFIG_HARDENED_USERCOPY, KASLR 우회, kernel stack read 같은 단계를 길게 추적합니다. 이런 능력은 방어자에게 유용하지만, 같은 보고서는 공격자에게도 재현 가능한 reasoning pattern을 제공합니다. Anthropic이 preview를 닫아둔 이유는 모델 출력 하나가 proof-of-concept exploit 체인으로 이어질 수 있기 때문입니다.

초기 파트너 발언도 접근 통제의 이유를 보여줍니다. Cisco는 AI capability가 critical infrastructure 보호의 긴급성을 바꿨다고 했고, AWS는 Claude Mythos Preview를 critical codebase에 적용해 보안을 강화하고 있다고 밝혔습니다. Microsoft는 CTI-REALM open-source security benchmark에서 이전 모델 대비 개선을 봤다고 했습니다. Linux Foundation은 open source maintainer가 보안팀을 따로 둘 수 없었던 구조를 언급했습니다. 서로 다른 조직이 같은 말을 합니다. 모델 접근권보다 report 품질, maintainer capacity, 고객 배포가 실제 병목입니다.

6월 2일 발표에서 새로 들어온 산업군은 이 문제를 더 현실적으로 만듭니다. 전력, 물, 의료, 통신은 patch window가 짧지 않습니다. 병원 시스템은 downtime을 허용하기 어렵고, water utility나 grid operator는 vendor firmware와 legacy system이 섞여 있습니다. Hardware vendor는 silicon, firmware, driver, management software가 함께 움직입니다. Mythos Preview가 취약점을 찾았다는 사실만으로는 이 시스템들이 바로 고쳐지지 않습니다. Fix 검증, rollout plan, rollback plan, customer communication이 함께 필요합니다.

이 지점에서 Claude Security와 Mythos Preview를 구분해야 합니다. Anthropic은 6월 2일 발표에서 공개 frontier model을 쓰는 Claude Security를 더 넓은 방어자 접근 수단으로 언급했습니다. Claude Security는 Claude Enterprise 고객용 public beta로 codebase를 scan하고 patch를 제안하는 제품입니다. Mythos Preview는 gated Glasswing access입니다. 보안팀이 "Anthropic 보안 모델"이라고 한 묶음으로 구매나 통제를 판단하면 위험합니다. 접근 권한, 모델 능력, logging, data boundary가 다릅니다.

개발팀이 지금 배울 첫 번째 항목은 finding format입니다. AI scanner가 취약점 후보를 만들면 report에는 affected version, 재현 절차, exploitability 근거, severity rationale, duplicate 여부, patch 후보, regression test가 들어가야 합니다. Maintainer가 이 정보를 받지 못하면 model output은 work queue가 아니라 노이즈가 됩니다. CVD dashboard가 external security research firm을 끼운 이유도 이 품질 관리를 위한 것입니다.

두 번째 항목은 중복 제거입니다. Anthropic은 초기 발표와 dashboard에서 coordinated vulnerability disclosure를 강조했습니다. 같은 open-source project를 여러 AI security product가 동시에 스캔하면 maintainer는 비슷한 report를 여러 번 받습니다. 기업 내부에서도 code owner, AppSec, platform team, vendor security team이 같은 finding을 따로 처리할 수 있습니다. Deduplication key, hash, affected file, dataflow path, sink/source, exploit precondition을 구조화해 두지 않으면 23,019개 findings는 보안 개선보다 ticket backlog가 됩니다.

세 번째 항목은 patch 책임입니다. Anthropic은 6월 2일 발표에서 지원 범위를 finding에서 disclosing, fixing, patched software deployment로 옮기겠다고 적었습니다. 이 순서는 중요합니다. AI가 patch를 제안하더라도 maintainer는 compatibility, performance, ABI, backwards behavior, customer support를 봐야 합니다. Security team이 patch를 merge해도 downstream user가 업데이트하지 않으면 위험은 남습니다. Dashboard 설명도 "patched upstream"이 널리 설치됐다는 뜻은 아니라고 선을 긋습니다.

네 번째 항목은 모델 접근 governance입니다. Glasswing 신규 조직은 Anthropic 보안 요구사항을 충족해야 접근합니다. 기업 보안팀도 내부적으로 같은 질문을 해야 합니다. 누가 cyber-capable model에 접근하는가, prompt와 output은 어디에 저장되는가, exploit detail은 어떤 repo나 ticket system에 남는가를 먼저 정해야 합니다. 외부 maintainer에게 전달되기 전 검토자와 embargo 기간에 닫을 Slack channel, issue tracker도 정책으로 써야 합니다.

커뮤니티 반응은 접근 통제의 정치성을 보여줍니다. Reddit의 r/cybersecurity와 r/Anthropic 글들은 Glasswing을 open source maintainer와 critical infrastructure 방어자에게 필요한 조치로 정리했습니다. 반대로 r/eutech와 관련 보도 댓글은 ENISA 같은 유럽 기관이 Mythos 접근권을 확보하는 일이 미국 AI 회사와 정부에 대한 의존 문제로 이어진다고 지적했습니다. 6월 2일 확장이 15개 이상 국가를 포함한다고 해도, 접근권은 여전히 Anthropic과 파트너 심사 구조 안에 있습니다.

한국 개발팀에도 접점이 있습니다. 미국 critical infrastructure 고객에게 software, firmware, cloud service, AI agent를 공급하는 회사라면 Glasswing류 report를 받을 수 있습니다. 고객은 "이 finding을 재현했는가", "patch는 언제 나오는가", "CVE나 GHSA를 낼 것인가", "downstream package까지 배포됐는가"를 물을 것입니다. 보안 제품 회사라면 AI scanner의 marketing number보다 triage SLA, false positive 처리, maintainer workflow integration을 설명해야 합니다.

AI 에이전트 제품을 만드는 팀은 더 넓게 봐야 합니다. Mythos Preview의 cyber capability는 agentic coding과 reasoning 능력에서 나온다고 Anthropic은 설명했습니다. 같은 능력은 코드 생성, terminal 작업, browser automation, repository search에도 쓰입니다. 제품이 shell, browser, package manager, cloud console을 호출한다면 "보안 도구가 아닌데요"라는 답은 부족합니다. 권한, sandbox, audit log, output redaction, abuse monitoring이 제품 요구사항으로 들어갑니다.

이번 발표의 실무 결론은 한 문장으로 줄일 수 있습니다. AI가 취약점을 더 빨리 찾는 시장에서는 패치 시스템이 제품입니다. Anthropic은 150개 신규 조직으로 접근을 넓히며 방어자에게 모델을 주겠다고 했지만, CVD dashboard의 숫자는 발견 이후의 손작업을 숨기지 않습니다. 23,019개 findings에서 maintainer가 받아볼 수 있는 보고서와 실제 패치까지 가는 통로가 좁으면, frontier cyber model은 보안팀을 돕는 동시에 유지보수자의 queue를 폭발시킵니다.

앞으로 볼 지표는 Mythos Preview의 다음 benchmark 점수보다 disclosure와 patch의 처리량입니다. Anthropic이 향후 expansion에서 어떤 보안 요구사항을 적용하는지, CVD dashboard가 severity와 patched upstream 수를 어떻게 갱신하는지 봐야 합니다. Claude Security가 일반 enterprise workflow에서 얼마나 낮은 false positive와 reviewable patch를 내는지도 별도 지표입니다. Project Glasswing의 뉴스 가치는 "AI가 취약점을 찾았다"가 아니라 "AI가 만든 취약점 발견 속도를 소프트웨어 생태계가 따라갈 수 있는가"에 있습니다.