Fable 5 복귀, 99% 차단 뒤에 붙은 탈옥 점수표

Anthropic이 Fable 5 접근을 복구했습니다. 99% 차단 분류기, 4가지 탈옥 심각도 기준, HackerOne 접수가 새 조건입니다.

AI 요약

무슨 일: Anthropic이 2026년 7월 1일 Claude Fable 5와 Claude Mythos 5 접근 복구를 알렸습니다.
- 6월 12일 미국 수출통제 지시로 전면 중단된 뒤, 6월 30일 통제가 해제됐다는 공식 설명입니다.
새 조건: Amazon 보고서의 특정 우회 기법을 겨냥한 안전 분류기가 99% 이상 차단한다고 Anthropic이 밝혔습니다.
- 차단된 요청은 거절만 하는 대신 Claude Opus 4.8로 넘어가며, 일반 코딩·디버깅의 오탐도 늘 수 있습니다.
개발자 영향: 모델 선택표에 성능·가격뿐 아니라 탈옥 심각도, 대체 라우팅, 정부 사전 평가가 들어옵니다.
주의점: AWS, Google Cloud, Microsoft Foundry 재개 일정은 발표 시점에 확정되지 않았고, 7월 7일 뒤 Fable 5는 사용 크레딧 조건으로 바뀝니다.

Anthropic이 2026년 7월 1일 업데이트에서 Claude Fable 5와 Claude Mythos 5 접근 복구를 알렸습니다. 공식 발표에 따르면 미국 정부가 6월 12일 적용한 수출통제는 6월 30일 해제됐습니다. Fable 5는 Claude Platform, Claude.ai, Claude Code, Claude Cowork에서 다시 제공됩니다. 이 소식은 6월 22일 devlery가 다룬 "전면 중단"의 후속 사건이지만, 이번 글의 초점은 중단 원인 반복이 아닙니다. 새로 붙은 조건은 99% 차단 분류기, Opus 4.8 대체 라우팅, 탈옥(jailbreak) 심각도 점수표, 정부 사전 평가 협력입니다.

복구 조건은 제품 안내보다 운영 계약에 가깝습니다. Anthropic은 Pro, Max, Team, 일부 Enterprise 플랜에서 7월 7일까지 주간 한도의 최대 50%를 Fable 5에 쓸 수 있다고 안내했습니다. 그 뒤에는 사용 크레딧으로 접근합니다. AWS, Google Cloud, Microsoft Foundry는 가능한 빨리 다시 열겠다고 했지만, 같은 발표 안에서 확정 날짜는 제시하지 않았습니다. 모델이 돌아왔다는 제목만 보고 이전 실험을 그대로 재개하면 비용, 라우팅, 클라우드 배포 상태를 놓치기 쉽습니다.

중단 사흘, 복구 19일

Fable 5와 Mythos 5의 원래 발표일은 6월 9일입니다. Anthropic의 출시문은 두 제품이 같은 기반 모델을 공유한다고 설명했습니다. Fable 5에는 일반 사용을 위한 강한 안전장치가 붙고, Mythos 5는 Project Glasswing 파트너의 방어 목적 사용을 위해 일부 안전장치를 완화합니다. 가격은 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러로 공개됐습니다. 회사는 출시문에서 Fable 5의 안전 분류기가 사이버보안, 생물학·화학, 증류 관련 요청을 감지하면 응답을 Claude Opus 4.8이 처리한다고 적었습니다.

6월 12일에는 같은 모델이 멈췄습니다. Anthropic의 중단 성명은 미국 정부가 국가안보 권한을 근거로 외국 국적자의 Fable 5와 Mythos 5 접근을 차단하라고 지시했다고 밝혔습니다. Anthropic은 국적을 실시간으로 신뢰성 있게 확인할 방법이 없어 두 모델을 모든 고객에게 비활성화했습니다. 성명에는 미국 동부시간 오후 5시 21분에 지시를 받았다는 시각, 모든 고객에게 급히 접근을 끊을 수밖에 없었다는 설명, 다른 Anthropic 모델은 영향받지 않는다는 안내가 들어 있었습니다.

7월 1일 복구문은 이 중단의 사후 보고서 역할을 합니다. Anthropic은 정부가 Amazon 연구진 보고서를 인지한 뒤 지시가 내려왔다고 설명했습니다. 보고서에는 Fable 5 안전장치를 우회해 일부 소프트웨어 취약점을 식별하고, 한 사례에서는 취약점 악용 방식을 보여주는 코드까지 만들었다는 내용이 있었다고 합니다. Anthropic은 자체 테스트에서 Claude Opus 4.8, GPT-5.5, Kimi K2.7 같은 덜 강한 모델도 같은 취약점을 식별할 수 있었고, 단일 취약점 악용 시연도 여러 모델이 만들 수 있었다고 반박했습니다. 회사의 주장은 "Fable 5만의 Mythos급 위험이 드러난 것은 아니다"입니다.

이 논쟁에서 개발팀이 확인해야 할 부분은 어느 쪽의 말이 더 설득력 있는가가 아닙니다. 제품에 들어간 최상위 모델은 보안 보고서, 정부 지시, 분류기 업데이트, 클라우드 재개 일정에 동시에 묶입니다. API 이름이 다시 열려도 이전과 같은 모델 경험이 보장되는 것은 아닙니다. 안전장치가 달라졌고, 오탐 가능성이 늘었고, 특정 요청은 Opus 4.8로 넘어갑니다. 릴리스 노트 한 줄이 아니라 장애 복구 문서처럼 읽어야 합니다.

99% 차단은 성능 개선이 아니라 분류기 경계 조정입니다

Anthropic이 새로 내놓은 가장 구체적인 숫자는 99%입니다. 회사는 Amazon 보고서에 나온 특정 우회 기법을 겨냥한 개선된 안전 분류기를 학습했고, 이 기법을 99% 이상 차단한다고 밝혔습니다. 같은 문단에서 미국 상무부 산하 Center for AI Standards and Innovation 연구진이 이전 안전장치와 새 안전장치를 모두 테스트했고 매우 강하다고 봤다는 설명도 붙였습니다. 수치만 보면 깔끔한 패치처럼 보이지만, 발표문은 곧바로 대가를 적습니다. 일반 코딩과 디버깅 요청에서도 정상 요청이 더 자주 걸릴 수 있습니다.

Fable 5 안전 분류기 경계 공식 다이어그램

출처: Anthropic 공식 발표. Fable 5는 일반 분류기보다 안전 여백을 넓게 잡아 일부 정상 요청도 차단할 수 있다고 설명합니다.

이 다이어그램은 Fable 5의 사용자 경험을 잘 보여줍니다. 일반 안전장치에서는 정상 요청과 차단 요청의 경계가 정상 영역 끝에 가깝게 놓입니다. Fable 5에서는 경계가 더 왼쪽으로 이동합니다. 정상일 가능성이 큰 요청도 사이버보안과 연결돼 있거나 의도가 모호하면 안전 여백 안에서 막힐 수 있습니다. Anthropic은 이런 보수적인 설정 때문에 일부 합법적인 요청이 Opus 4.8로 넘어갈 수 있다고 설명합니다. 보안팀에는 방어 목적 취약점 점검이 필요한데, 모델은 그 작업을 공격 가능성과 같은 표면에서 봅니다.

문제는 이 대체 라우팅이 개발자 로그에서 어떻게 보이느냐입니다. Fable 5로 요청했는데 응답이 Opus 4.8에서 나왔다면, 품질 평가와 비용 추적은 모델 이름 하나로 끝나지 않습니다. 취약점 수정, 코드베이스 스캔, 테스트 실패 원인 분석 같은 작업은 정상 개발 업무이면서도 보안 분류기를 건드릴 수 있습니다. 팀은 requested_model, served_model, safety_classifier_triggered, fallback_reason 같은 이벤트를 따로 기록해야 합니다. 그렇지 않으면 "Fable 5가 느리다"나 "Fable 5가 답을 피한다"는 사용감만 남고 실제 라우팅 원인은 사라집니다.

탈옥 점수표는 CVSS를 모델 우회에 맞추려는 시도입니다

이번 발표에서 더 큰 새 항목은 탈옥 심각도 기준입니다. Anthropic은 AI 업계에 탈옥의 심각도를 객관적으로 설명하는 합의가 없다고 적었습니다. 보안 취약점에는 CVSS 같은 점수 체계가 있지만, 모델 안전장치 우회에는 어느 발견을 긴급하게 고쳐야 하는지, 정부가 언제 개입해야 하는지 말해 주는 공통 언어가 부족하다는 진단입니다. Anthropic은 Amazon, Microsoft, Google, 다른 Project Glasswing 파트너와 함께 합의형 기준 초안을 만들겠다고 밝혔습니다.

제안된 기준은 4개입니다. 첫째, 탈옥이 기존 도구보다 얼마나 큰 능력 상승을 주는지입니다. 둘째, 같은 기법이 얼마나 많은 공격 작업에 통하는지입니다. 셋째, 실제 공격으로 바꾸는 데 필요한 사람의 노력과 재시도 수입니다. 넷째, 그 기법을 얻기 얼마나 쉬운지입니다. 이 4개 항목은 보안팀의 triage와 비슷합니다. 하나의 프롬프트가 낮은 위험의 정상 작업 경계를 조금 넘는지, 여러 공격 범주를 한 번에 열어 주는지, 이미 온라인에 널리 퍼졌는지에 따라 대응 속도가 달라집니다.

탈옥 유형과 안전 분류기 관계 공식 다이어그램

출처: Anthropic 공식 발표. Anthropic은 경미한 탈옥, 좁은 유해 탈옥, 보편 탈옥을 서로 다른 위험 범주로 나눕니다.

이 그림에서 경미한 탈옥은 안전 여백 안의 정상 요청을 되찾는 수준입니다. 좁은 유해 탈옥은 특정 유해 작업 하나를 통과시킵니다. 보편 탈옥은 넓은 유해 작업 묶음을 열어 줍니다. Anthropic은 Fable 5에서 지금까지 발견된 탈옥을 대체로 경미한 범주로 설명하면서도, 완전한 탈옥 저항은 현실적으로 어렵다고 인정했습니다. 그래서 회사는 "탈옥이 전혀 없다"가 아니라 "심각도를 빨리 분류하고, 24시간 채널로 받고, 고위험 발견은 예비 완화를 즉시 배포한다"는 운영 모델을 제시합니다.

이 접근은 개발자에게도 실무적인 장점을 줍니다. 보안 연구자가 모델 우회를 발견했을 때 "위험하다"는 표현만으로는 제품팀이 대응 우선순위를 정하기 어렵습니다. 능력 상승폭이 낮고 기존 공개 모델로도 가능한 결과라면 모델 회수보다 분류기 개선과 문서 업데이트가 맞을 수 있습니다. 반대로 전문가도 빠르게 따라가기 어려운 능력이 단일 프롬프트로 열리고, 이미 공개 채널에 퍼졌다면 모델 제공자는 임시 차단, 대체 모델 라우팅, 고객 공지, 정부 보고를 동시에 해야 합니다. Fable 5 사건은 그 기준이 없을 때 상용 모델이 먼저 멈출 수 있다는 사례가 됐습니다.

정부 협력은 사전 출시 평가로 이동합니다

Anthropic은 이번 복구와 함께 미국 정부 협력도 넓히겠다고 밝혔습니다. 발표문에는 사전 출시 정부 접근과 평가, 주요 탈옥과 오용 패턴에 대한 빠른 정보 공유, 공동 연구 전담 자원, 공통 업계 기준 협력이 들어 있습니다. 회사는 국가안보 관련 능력 최전선을 실질적으로 끌어올리는 모델에 대해 지정된 정부 파트너가 모델과 안전장치를 미리 평가할 수 있게 하겠다고 썼습니다. 단순 보고가 아니라 출시 전 평가 절차를 모델 배포 계약 안으로 넣는 방향입니다.

이 내용은 6월 2일 백악관의 AI 혁신·보안 행정명령과도 맞물립니다. 행정명령은 CISA와 관련 기관의 지침, AI 기반 취약점 탐지, 중요 인프라 운영자와의 협력, AI 사이버보안 clearinghouse 구성을 다룹니다. Anthropic은 복구문에서 Commerce, CAISI, CISA, Treasury, 국가안보 기관과의 협력을 언급했습니다. Fable 5가 다시 열렸다는 사실보다, 다음 최전선 모델의 출시 전 검토가 정부와 업계 공동 절차가 될 가능성이 더 큽니다.

개발팀에는 이 변화가 조달 조건으로 나타납니다. Enterprise 계약서에는 데이터 보관, 비밀 정보 처리, 모델 지역, 클라우드 제공자, 장애 통지뿐 아니라 정부 사전 평가와 위험 발견 공유가 들어갈 수 있습니다. Anthropic은 Fable 5에서 30일 고객 데이터 보관이 탈옥 연구와 완화에 필요하다고 기존 성명에서 설명한 바 있습니다. 민감한 코드와 보안 로그를 다루는 조직은 생산성 모델 도입과 보안 감사 요구가 같은 문서에서 충돌할 수 있습니다.

사용 조건은 7월 7일과 클라우드 일정에서 갈립니다

Fable 5를 바로 다시 쓰려는 팀은 두 날짜를 봐야 합니다. 첫째는 7월 1일입니다. 이 날짜부터 Claude Platform, Claude.ai, Claude Code, Claude Cowork에서 글로벌 사용자 접근이 복구됩니다. 둘째는 7월 7일입니다. Pro, Max, Team, 일부 Enterprise 플랜에서 주간 한도의 최대 50%를 추가 비용 없이 Fable 5에 쓸 수 있는 기간이 이때 끝납니다. 이후에는 사용 크레딧 설정이 필요합니다. Anthropic은 표준 Enterprise 좌석에는 포함 Fable 5 한도가 없고, 크레딧이 꺼져 있으면 접근할 수 없다고 각주에 적었습니다.

클라우드 제공자 경로도 확인해야 합니다. 발표문은 AWS, Google Cloud, Microsoft Foundry 접근을 가능한 빨리 다시 열겠다고 했습니다. 하지만 "가능한 빨리"는 SLA가 아닙니다. 기존 배포가 Bedrock, Vertex AI, Microsoft Foundry에 묶여 있다면 Anthropic 자체 API가 열렸다는 소식만으로 복구된 것이 아닙니다. 계정별 모델 목록, 지역별 제공 상태, 가격표, 사용량 한도, 거절 로그를 직접 확인해야 합니다. 6월 12일 중단은 하나의 모델 이름이 여러 배포 채널에서 동시에 흔들릴 수 있다는 사실을 남겼습니다.

Mythos 5는 더 좁습니다. Anthropic은 6월 26일 미국 정부 승인 뒤 일부 미국 조직에 Mythos 5 접근을 복구했다고 밝혔고, Project Glasswing의 국내외 파트너 접근 확대를 정부와 계속 조율한다고 했습니다. 방어 목적 사이버보안 조직에는 이 부분이 더 중요하지만, 일반 제품팀은 Mythos 접근보다 Fable 5 분류기와 Opus 4.8 대체 정책을 먼저 봐야 합니다. 제한 접근 모델은 점수표보다 자격 심사, 로그, 보고, 사용 목적 증빙이 더 큰 비용이 됩니다.

커뮤니티의 질문은 성능보다 예측 가능성에 몰렸습니다

Hacker News의 수출통제 해제 스레드는 확인 시점에 909점과 628개 댓글을 기록했습니다. 상위 토론은 Fable 5가 얼마나 좋아졌는지보다 상용 최전선 모델을 핵심 워크플로에 넣을 때의 예측 가능성을 물었습니다. 한 축은 정부가 며칠에서 몇 주 동안 모델 접근을 끊을 수 있다는 운영 리스크입니다. 다른 축은 7월 7일까지의 한도 포함, 이후 크레딧 전환, 클라우드 재개 일정 미정 같은 실제 사용 조건입니다.

개발자 반응에서 눈에 띄는 부분은 "오픈소스로 갈 것인가"가 아니라 "대체 경로를 갖출 것인가"입니다. 완전히 자체 모델로 갈 수 없는 팀도 많습니다. Fable 5 같은 모델이 장기 코딩, 취약점 분석, 복잡한 지식 업무에서 확실한 이점을 줄 수 있기 때문입니다. 그러나 같은 모델이 정부 지시와 안전 분류기 업데이트로 멈출 수 있다면, 제품팀은 모델 성능표 옆에 대체 모델, 로컬 평가셋, 요청 재시도 정책, 공급자 장애 시 기능 저하 범위를 같이 둬야 합니다.

Hacker News의 별도 Redeploying Fable 5 스레드에서는 공식 블로그의 뜻을 두고 해석이 오갔습니다. 보안 작업을 완전히 막는다는 뜻인지, 일부 보안·디버깅 요청을 더 보수적으로 Opus 4.8로 넘긴다는 뜻인지가 쟁점이었습니다. Anthropic 발표문은 후자에 가깝습니다. 회사는 Fable 5가 일반 사용 가능한 모델로 돌아오지만, 특정 사이버보안 요청에서는 분류기가 더 공격적으로 작동하고 정상 요청도 오탐될 수 있다고 적었습니다.

제품팀 체크리스트는 모델 이름보다 로그부터 시작합니다

Fable 5를 다시 켜기 전 첫 번째 점검 항목은 모델 라우팅 로그입니다. 요청한 모델과 실제 응답 모델을 분리해 저장해야 합니다. Fable 5 요청이 Opus 4.8로 넘어갔는지, 사용자에게 알림이 갔는지, 결과 품질과 비용이 어떻게 달라졌는지 기록해야 합니다. Anthropic은 사용자가 차단을 알 수 있다고 설명하지만, 제품 내부 분석에서는 그 이벤트가 별도 필드로 남아야 합니다. 그래야 보안 기능에서 발생한 품질 저하와 일반 모델 성능 문제를 구분할 수 있습니다.

두 번째 항목은 보안 작업의 예외 경로입니다. 취약점 재현, 패치 검증, 침투 테스트 리포트 요약, SBOM 분석, 의존성 취약점 triage는 정상 방어 업무입니다. 그러나 모델 분류기는 이런 작업을 공격 준비와 같은 어휘로 볼 수 있습니다. 팀은 방어 목적 작업을 어떤 모델에 맡길지, 어느 단계에서 사람 승인이 필요한지, 외부 코드 실행을 허용할지 정해야 합니다. "Fable 5가 돌아왔다"가 아니라 "보안 업무는 어떤 분류기와 대체 모델을 통과하는가"가 운영 질문입니다.

세 번째 항목은 데이터 보관과 고객 고지입니다. Anthropic은 기존 중단 성명에서 Fable의 탈옥 연구와 완화를 위해 30일 고객 데이터 보관이 필요하다고 설명했습니다. 보안 로그, 고객 코드, 비밀값이 포함될 수 있는 프롬프트를 다루는 팀은 이 정책을 그대로 수용할 수 있는지 확인해야 합니다. 공급자 안전장치가 강해질수록 모델 제공자는 더 많은 감시와 분석을 원하고, 고객은 더 좁은 데이터 노출을 원합니다. 이 충돌은 엔터프라이즈 계약과 내부 보안 심사에서 먼저 드러납니다.

네 번째 항목은 7월 7일 뒤의 비용입니다. 주간 한도의 최대 50% 포함은 짧은 복귀 프로모션에 가깝습니다. 이후 사용 크레딧으로 넘어가면 조직별 예산, 좌석 유형, API와 제품 표면의 비용 구분이 필요합니다. 특히 Claude Code나 Claude Cowork에서 에이전트 작업을 많이 돌리는 팀은 대화형 채팅보다 긴 실행 시간을 씁니다. 모델 복구 직후 일주일 동안의 성능만 보고 월간 비용을 예측하면 실제 크레딧 청구와 맞지 않을 수 있습니다.

이번 사건의 새 뉴스는 복구가 아니라 기준입니다

Fable 5는 돌아왔습니다. 그러나 7월 1일 발표의 본문은 "다시 사용 가능"보다 훨씬 길게 분류기, 탈옥 유형, 업계 기준, 정부 평가, HackerOne 접수를 설명합니다. Anthropic은 Amazon 보고서의 특정 우회 기법을 99% 이상 차단한다고 말하면서도, 정상 코딩과 디버깅 요청의 오탐 비용을 인정했습니다. 이 대목은 AI 개발 도구의 실무 기준이 성능 점수에서 안전장치 운영으로 이동했다는 뜻입니다.

6월 22일의 질문은 "정부가 최상위 모델을 끌 수 있는가"였습니다. 7월 1일의 질문은 더 구체적입니다. 정부와 모델 제공자는 어떤 점수표로 탈옥을 분류할 것인가. 어떤 발견이 모델 회수, 분류기 패치, 대체 모델 라우팅, 24시간 감시, 정부 보고를 촉발할 것인가. 개발자는 요청한 모델과 실제 응답 모델의 차이를 어떻게 감지할 것인가. Fable 5 복구는 이 질문들에 임시 답을 붙인 첫 대형 사례입니다.

앞으로 최전선 모델을 제품에 넣는 팀은 모델 선택표를 세 칸으로 나눠야 합니다. 첫 칸은 성능과 가격입니다. 둘째 칸은 접근권입니다. 어느 국가, 어느 클라우드, 어느 좌석, 어느 크레딧 조건에서 쓸 수 있는지입니다. 셋째 칸은 안전장치 운영입니다. 어떤 요청이 분류기에 걸리고, 어느 모델로 넘어가며, 어떤 로그와 고지가 남는지입니다. Fable 5가 다시 켜졌다는 소식은 반갑지만, 실제 운영 문서는 이 세 칸을 모두 채울 때 완성됩니다.