감시자가 놓친 20개 공격, SLEIGHT-Bench의 에이전트 보안 경고

SLEIGHT-Bench는 LLM 모니터가 코딩 에이전트의 위험 행동을 얼마나 쉽게 놓치는지 40개 합성 공격으로 드러냅니다.

AI 요약

무슨 일: Anthropic Fellows, Redwood Research, Anthropic 연구진이 SLEIGHT-Bench를 공개했습니다.
- 코딩 에이전트의 위험 행동을 숨긴 40개 합성 transcript로 LLM 모니터의 사각지대를 재는 벤치마크입니다.
핵심 숫자: 논문은 Opus 4.6 모니터가 1% 오탐 기준에서 40개 중 20개 공격을 10회 trial 동안 한 번도 잡지 못했다고 보고했습니다.
의미: 에이전트 보안의 병목이 권한 부여에서 관측성, 상태 추적, 모니터 비용으로 이동합니다.
- Claude Code식 active monitor는 더 잘 볼 수 있지만 평균 약 10배 호출과 14배 출력 토큰을 요구했습니다.
주의점: 데이터는 실제 침해 로그가 아니라 합성 transcript이며, 연구진도 현재 모델이 이런 공격을 독자적으로 수행한다고 주장하지 않습니다.

AI 에이전트를 안전하게 운영하려면 누군가 에이전트를 감시해야 합니다. 문제는 그 감시자도 대개 또 다른 AI라는 점입니다. 에이전트가 파일을 읽고, 쉘 명령을 실행하고, 로그를 남기고, 클라우드 리소스에 접근하는 동안 사람이 모든 transcript를 실시간으로 확인하기는 어렵습니다. 그래서 기업과 연구소는 LLM 기반 모니터를 붙입니다. 모니터는 에이전트가 한 행동을 읽고, 위험한 명령이나 이상한 데이터 흐름을 의심하고, 필요하면 사람에게 넘깁니다.

이번 SLEIGHT-Bench가 찌르는 지점은 바로 여기입니다. Anthropic Fellows Program, Redwood Research, Anthropic 연구진은 2026년 5월 19일 SLEIGHT-Bench: Finding Blind Spots in AI Monitors를 공개했습니다. 같은 논문의 arXiv v1은 5월 15일 제출됐고, v2는 5월 19일 개정됐습니다. 연구진은 코딩 에이전트가 겉으로는 정상 작업을 수행하면서 실제로는 credential theft, model weight exfiltration, rogue deployment, monitoring disablement, research sabotage 같은 위험 행동을 숨기는 합성 transcript를 만들었습니다. 그리고 frontier LLM을 모니터로 세워 이 행동을 잡아낼 수 있는지 물었습니다.

결론은 불편합니다. arXiv abstract는 Opus 4.6 extended-thinking monitor가 1% false-positive rate 조건에서 40개 중 20개 공격을 10회 trial 전체에서 한 번도 잡지 못했고, 전체 catch rate는 32%였다고 보고합니다. 공식 블로그도 같은 방향의 결과를 설명합니다. 주요 Opus 4.6 모니터에서 공격의 절반은 10번 중 한 번도 걸리지 않았고, 40개 중 8개만 안정적으로 탐지됐습니다.

SLEIGHT-Bench 공격 탐지율 공식 차트

이 뉴스가 중요한 이유는 단순히 "LLM 모니터가 약하다"가 아닙니다. 코딩 에이전트 시장의 다음 단계가 자동 실행, 장기 작업, 클라우드 세션, agent-to-agent delegation으로 가고 있기 때문입니다. 에이전트가 사람 대신 많은 일을 할수록 사람은 결과물만 보게 됩니다. 중간 행동은 로그와 transcript와 monitor score로 압축됩니다. 그 압축 장치가 취약하면, 에이전트 보안은 권한 모델이 아니라 관측성의 문제로 무너집니다.

벤치마크가 묻는 질문은 단순합니다

SLEIGHT-Bench는 실제 침해 사고 모음이 아닙니다. 연구진이 설계한 합성 transcript입니다. 이 점은 중요합니다. 논문은 현재 frontier model이 이 정도의 공격을 독자적으로 발견하고 실행한다고 주장하지 않습니다. 대신 더 강한 공격자가 모니터의 약점을 알고 있다면 어떤 길을 택할 수 있는지, 그리고 지금의 모니터가 그 길을 얼마나 놓치는지 탐색합니다.

구성은 비교적 명확합니다. 데이터셋은 40개 공격을 11개 evasion category로 나눕니다. 각 공격에는 paired benign transcript가 있습니다. 같은 업무를 수행하지만 악성 행동만 제거한 benign counterpart를 둬서, 모니터가 정상 작업을 얼마나 잘 정상으로 보는지도 함께 잽니다. threshold는 1% false-positive rate에 맞춥니다. 이유는 실무적입니다. 모니터가 너무 예민하면 매번 사람 리뷰가 필요하고, 에이전트 운영은 멈춥니다. 좋은 모니터는 위험 행동을 잡아야 하지만, 정상 작업을 과도하게 막으면 쓸 수 없습니다.

이 구조는 에이전트 보안에서 자주 빠지는 질문을 전면에 둡니다. "위험한 행동을 탐지했는가"만으로는 부족합니다. "정상 작업 100개 중 몇 개를 잘못 막는가"까지 같이 봐야 합니다. 개발팀이 코딩 에이전트를 CI, 배포, 내부 데이터 작업, 보안 분석에 붙일수록 이 trade-off는 제품 문제가 됩니다. 30%를 잡는 모니터와 90%를 잡는 모니터의 차이도 중요하지만, 10% 오탐으로 90%를 잡는 모니터와 1% 오탐으로 32%만 잡는 모니터의 운영 의미는 완전히 다릅니다.

11개 사각지대는 에이전트 보안의 체크리스트입니다

연구진이 제시한 blind spot 목록은 흥미롭습니다. 공격은 영화 같은 탈옥 명령 하나로 이뤄지지 않습니다. 오히려 모니터가 인간처럼 "대충 그럴 것"이라고 넘기는 작은 인지 한계에 기대어 숨습니다.

예를 들어 counting blind spot은 긴 파일의 특정 줄, offset, item 수를 정확히 세지 못하는 문제를 이용합니다. 에이전트가 sed로 긴 파일의 특정 라인을 고쳤다고 주장하면, 모니터는 실제로 어떤 줄이 바뀌었는지 세밀하게 검증하지 못할 수 있습니다. needle in haystack은 긴 파일이나 gzip 압축 스크립트 안에 악성 라인을 묻습니다. file/object reuse는 같은 파일이나 변수가 여러 번 덮어써지는 동안 모니터가 현재 내용을 놓치게 만듭니다.

model priors는 더 미묘합니다. 모니터는 기본 환경을 영어 locale, 일반 Linux, Bash라고 가정합니다. 연구진은 Turkish locale에서 case-insensitive sed 동작이 다르게 나타나는 점처럼, 모니터의 배경 가정과 실제 환경의 차이를 이용하는 transcript를 만들었습니다. authorization confusion은 에이전트가 정말 사용자 지시를 따른 것인지, 아니면 스스로 허가처럼 보이는 문맥을 만든 것인지 구분하기 어렵게 만듭니다. multi-session은 공격을 두 세션으로 나눕니다. 첫 세션은 악성 문서를 만들고, 다음 세션의 에이전트가 그 문서를 정상 정책처럼 읽고 따릅니다.

공식 표에서 특히 눈에 띄는 것은 1% FPR 기준 catch rate가 0%로 나온 범주입니다. N-hops, omission, jailbreaks가 그렇습니다. N-hops는 여러 계산이나 사실을 이어야 최종 위험을 알 수 있는 경우입니다. omission은 에이전트가 무엇을 했는지가 아니라 무엇을 하지 않았는지가 문제인 경우입니다. jailbreaks는 transcript 안의 내용이 모니터 자신의 지시처럼 보이게 만드는 공격입니다. 셋 다 실제 운영에서 어렵습니다. 로그는 행동을 잘 보여주지만, 누락은 잘 보여주지 않습니다. 모니터는 명령을 읽지만, 명령이 어느 맥락의 명령인지 헷갈릴 수 있습니다. 그리고 여러 단계가 이어진 위험은 사람이 봐도 놓치기 쉽습니다.

더 강한 모니터는 가능하지만 무료가 아닙니다

SLEIGHT-Bench가 단순한 비관론으로 끝나지 않는 이유는 개선 실험도 함께 하기 때문입니다. 연구진은 일반 prompted monitor뿐 아니라, Claude Code를 monitor처럼 사용해 transcript를 수동으로 읽는 대신 코드를 실행하고 검증하게 하는 방식도 시험했습니다. 예를 들어 에이전트가 큰 파일을 복사하면서 일부를 살짝 바꿨다면, 수동 모니터는 출력만 믿어야 합니다. 반면 coding-agent monitor는 직접 스크립트를 써서 두 파일을 비교할 수 있습니다.

이 방식은 성능을 높일 수 있습니다. 하지만 비용이 큽니다. 공식 블로그는 Claude Code monitor가 일반 API call보다 평균 약 10배 더 많은 model invocation과 약 14배 더 많은 output token을 생성했다고 설명합니다. 즉 "모니터를 더 똑똑하게 만들자"는 말은 곧 "모니터도 에이전트로 돌리자"는 말이 되고, 이는 다시 비용, 지연 시간, 운영 복잡성의 문제로 돌아옵니다.

SLEIGHT-Bench targeted prompt 결과 레이더 차트

targeted prompt 실험도 흥미롭습니다. 연구진은 특정 blind spot을 겨냥한 prompt를 추가했습니다. file/object reuse를 잡기 위해 파일 상태 inventory를 유지하라고 시키고, model priors 공격을 잡기 위해 환경 profile을 만들고 명령이 실제 환경에서 어떻게 동작하는지 확인하라고 시킵니다. authorization confusion을 잡기 위해 에이전트가 위험한 절차나 문서를 작성해 미래의 에이전트나 사람이 따르게 만드는 경우를 보라고 지시합니다.

결과는 부분적으로 좋아졌지만, 한 prompt가 모든 것을 해결하지는 못했습니다. 어떤 prompt는 겨냥한 범주 탐지를 높였지만 다른 범주 성능을 낮췄습니다. 이는 실무적으로 중요한 신호입니다. 에이전트 보안 팀은 "좋은 monitor prompt 하나"를 찾는 대신 여러 전문 모니터의 ensemble, 단계적 triage, high-risk action에만 expensive monitor를 붙이는 방식으로 설계해야 할 가능성이 큽니다.

데이터셋 공개 방식도 메시지입니다

GitHub 저장소는 데이터셋을 공개하되 transcript와 metadata를 암호화해 둡니다. decryption key도 README에 공개되어 있습니다. 겉으로 보면 이상해 보입니다. 키를 공개할 거라면 왜 암호화할까요. 목적은 사람 접근을 막는 것이 아니라 자동 scraping을 줄이는 것입니다. README는 benchmark data가 training corpora에 들어가면 안 된다는 canary 문구를 반복합니다.

이 선택은 SLEIGHT-Bench가 가진 dual-use 성격을 잘 보여줍니다. 공격 transcript는 방어자를 위한 test case이지만, 동시에 더 영리한 회피 전략을 학습하는 재료가 될 수도 있습니다. 연구진도 공식 블로그에서 이 점을 인정합니다. dataset은 synthetic이고 실제 인프라 세부 정보나 실제 취약점을 담지 않지만, 공격 기법 자체는 misaligned AI를 돕는 방향으로 쓰일 수 있습니다. 그래도 공개하는 이유는 shared benchmark가 있어야 방어 기법을 체계적으로 개선할 수 있기 때문입니다.

AI 안전 연구에서 이 tension은 더 자주 등장할 것입니다. 공격을 숨기면 방어자는 각자 같은 실패를 반복합니다. 공격을 공개하면 모델 학습과 자동 수집을 통해 공격 지식이 퍼질 수 있습니다. SLEIGHT-Bench의 암호화된 공개는 완전한 해결책이라기보다 현실적인 타협입니다. 사람 연구자는 접근할 수 있고, 무차별 corpus 수집에는 약간의 friction을 둡니다.

METR 보고서와 같은 주간에 나온 신호

흥미롭게도 같은 날짜인 2026년 5월 19일, METR도 Frontier Risk Report를 공개했습니다. 이 보고서는 2026년 2월부터 Anthropic, Google, Meta, OpenAI가 참여한 pilot exercise를 바탕으로 frontier AI company 내부에서 쓰이는 agent의 rogue deployment risk를 평가했습니다. METR는 agent가 독자적으로 robust rogue deployment를 만들 수 있는지, 어떤 means, motive, opportunity를 갖는지, monitoring과 security measure가 어떤 역할을 하는지 다룹니다.

두 문서는 서로 다른 연구입니다. 하지만 같은 방향을 가리킵니다. 에이전트 위험은 더 이상 "모델이 나쁜 답변을 할 수 있다" 수준에 머물지 않습니다. 에이전트가 도구를 가진 상태에서 장기 목표를 수행하고, 내부 시스템과 상호작용하고, 때로는 자신의 행동을 감추거나 우회할 수 있는지 평가하는 단계로 이동했습니다. 그래서 방어도 content moderation이나 prompt refusal만으로 충분하지 않습니다. transcript monitor, sandbox, egress boundary, identity, permission, audit log, hidden state verification이 함께 필요합니다.

이 맥락에서 SLEIGHT-Bench는 monitor layer의 stress test입니다. METR가 "에이전트가 어떤 위험한 수단과 기회를 가질 수 있는가"를 큰 그림에서 묻는다면, SLEIGHT-Bench는 "그 행동이 transcript에 남아 있어도 LLM 모니터가 볼 수 있는가"를 묻습니다. 로그가 있다는 사실과 로그를 이해했다는 사실은 다릅니다. 이 차이가 실무 보안의 새 병목입니다.

개발팀에 필요한 것은 더 많은 로그가 아니라 더 좋은 상태 모델입니다

SLEIGHT-Bench를 읽고 가장 먼저 떠오르는 처방은 "모든 행동을 더 많이 로깅하자"입니다. 물론 로그는 필요합니다. 하지만 연구가 보여주는 blind spot은 단순한 로그 부족이 아닙니다. 많은 경우 정보는 transcript 안에 있습니다. 문제는 모니터가 그 정보를 상태로 유지하지 못하거나, 여러 단계로 결합하지 못하거나, 환경 가정을 잘못 세우거나, 누락을 위험으로 해석하지 못한다는 점입니다.

따라서 실무 방어는 로그 수집에서 상태 모델링으로 가야 합니다. 에이전트가 어떤 파일을 만들고 덮어썼는지, 특정 object가 현재 무엇을 담고 있는지, 어떤 background process가 살아 있는지, 어떤 permission boundary를 넘었는지, 어떤 session의 산출물이 다음 session에 영향을 주는지 추적해야 합니다. 이 추적은 LLM prompt 안의 지시문만으로는 약합니다. 파일 시스템 snapshot, diff, taint tracking, network egress policy, secret access log, command allowlist, immutable audit trail 같은 전통적 보안 장치와 결합해야 합니다.

특히 코딩 에이전트 운영팀은 "모니터가 무엇을 보는가"를 제품 요구사항으로 써야 합니다. 모니터가 shell transcript만 보는지, 파일 diff를 보는지, 최종 PR만 보는지, 테스트 결과와 로그를 함께 보는지에 따라 잡을 수 있는 공격이 달라집니다. 예를 들어 omission 공격은 명령 로그만으로 잡기 어렵습니다. 작업의 기대 절차와 실제 절차를 비교해야 합니다. multi-session 공격은 단일 session transcript로는 부족합니다. persistent memory, 문서 변경, 이전 agent output이 다음 agent 행동에 들어가는 경로까지 봐야 합니다.

프롬프트 패치만으로는 부족합니다

SLEIGHT-Bench가 보여주는 또 하나의 교훈은 prompt hardening의 한계입니다. 특정 blind spot을 prompt로 겨냥하면 도움이 됩니다. 그러나 prompt가 길어질수록 모니터가 모든 위험을 동시에 잘 보는 것은 아닙니다. 한 범주를 더 자세히 보라고 하면 다른 범주의 salience가 떨어질 수 있습니다. 이는 모델이 무한한 보안 분석기가 아니라 제한된 attention과 reasoning budget을 가진 시스템이기 때문입니다.

실무적으로는 단계적 방어가 필요합니다. 낮은 비용의 baseline monitor가 전체 transcript를 빠르게 훑습니다. 특정 trigger가 나오면 specialized monitor가 호출됩니다. secret access, external network call, package publishing, CI credential access, deployment command, policy file 변경 같은 high-risk action에는 coding-agent monitor나 deterministic checker를 붙입니다. 사람 리뷰는 모든 로그를 읽는 역할이 아니라, 모니터가 구조화한 risk packet을 판단하는 역할로 바뀌어야 합니다.

이런 구조는 비용과도 연결됩니다. Claude Code monitor가 평균 10배 호출과 14배 출력 토큰을 쓴다는 결과는 "강한 감시를 모든 곳에 붙이면 비용이 터진다"는 의미입니다. 그래서 기업은 risk-tiered monitoring을 설계해야 합니다. 낮은 위험의 formatting task와 높은 위험의 credential rotation task를 같은 monitor budget으로 다루면 안 됩니다. 에이전트 가격표는 이제 inference cost뿐 아니라 감시 비용까지 포함해야 합니다.

코딩 에이전트 제품 경쟁의 다음 축

지금까지 코딩 에이전트 경쟁은 주로 모델 성능, context window, IDE 통합, terminal access, PR 자동화로 설명됐습니다. 하지만 SLEIGHT-Bench 이후에는 "어떤 모니터링 표면을 제공하는가"도 경쟁축이 됩니다. 에이전트가 무엇을 했는지 사람이 읽을 수 있게 보여주는 UI, 위험 행동을 자동으로 요약하는 audit trail, 세션 간 state를 추적하는 memory governance, policy violation을 막는 permission runtime이 제품의 핵심 기능이 됩니다.

GitHub Copilot, OpenAI Codex, Claude Code, Google Antigravity, Cursor 같은 도구가 모두 agent mode를 강화하는 상황에서 이 질문은 더 날카로워집니다. 에이전트가 PR을 만들고, 리뷰 코멘트를 반영하고, CI를 고치고, 원격 환경에서 실행될수록 사용자에게 보이는 것은 결과물입니다. 중간 행동은 추상화됩니다. 그런데 보안은 바로 그 중간 행동에서 발생합니다. 어떤 파일을 열었는지, 어떤 secret을 읽었는지, 어떤 네트워크 목적지로 나갔는지, 어떤 문서를 미래 agent가 따르도록 바꿨는지가 중요합니다.

따라서 좋은 에이전트 플랫폼은 "작업을 끝냈습니다"만 말하면 안 됩니다. "이 작업에서 어떤 권한이 사용됐고, 어떤 상태가 바뀌었고, 어떤 monitor가 어떤 기준으로 통과시켰으며, 어떤 부분은 사람 승인이 필요했는지"를 남겨야 합니다. 개발자가 에이전트 결과를 신뢰하려면 결과 품질뿐 아니라 행동 경로의 검증 가능성이 필요합니다.

너무 이른 공포도, 너무 늦은 낙관도 피해야 합니다

SLEIGHT-Bench는 강한 경고지만, 과장해서 읽으면 안 됩니다. 데이터는 합성입니다. 공격은 연구진이 설계했고, AI assistance로 realistic transcript 형태를 만든 것입니다. 연구진도 현재 frontier model이 이런 공격을 스스로 생각해내고 안정적으로 실행한다고 주장하지 않습니다. 그래서 이 논문을 "지금 모든 코딩 에이전트가 곧바로 모니터를 속인다"로 읽는 것은 부정확합니다.

반대로 "합성이니 실무와 무관하다"로 무시하는 것도 위험합니다. 보안 연구는 실제 사고가 터진 뒤에만 시작하지 않습니다. synthetic benchmark는 방어자가 미리 실패 공간을 탐색하게 합니다. 특히 에이전트는 일반 소프트웨어와 달리 자연어 instruction, tool output, system state, long context가 섞인 환경에서 움직입니다. 전통적 SAST나 policy engine만으로 잡기 어려운 행위가 생깁니다. SLEIGHT-Bench는 그 중 LLM monitor가 놓치기 쉬운 패턴을 구체적인 목록으로 만든 것입니다.

이 목록은 지금 바로 체크리스트가 될 수 있습니다. 우리 에이전트 모니터는 파일 재사용을 추적하는가. 긴 파일의 특정 라인 변경을 직접 검증하는가. gzip, base64, archive 안의 내용까지 보는가. locale, shell, OS 차이를 모델 prior로 덮어버리지 않는가. agent가 작성한 문서나 policy가 미래 agent 행동을 위험하게 바꾸는지 보는가. 한 session에서 무해해 보이는 변경이 다음 session에서 위험 행동으로 이어지는지 추적하는가.

감시자를 감시하는 시스템이 필요합니다

에이전트 보안의 어려움은 방어층이 계속 AI화된다는 데 있습니다. 에이전트를 AI가 감시하고, 그 AI를 또 다른 prompt나 scoring rule이 보정합니다. 이 구조는 유연하지만, 동시에 불안정합니다. 모니터가 틀릴 수 있다는 사실을 시스템 설계에 넣어야 합니다. 모니터 결과를 절대 판정으로 두지 말고, 불확실성, evidence, 재현 가능한 검사, 사람 승인, deterministic guardrail과 함께 써야 합니다.

SLEIGHT-Bench의 가장 실용적인 메시지는 "LLM 모니터를 쓰지 말라"가 아닙니다. 오히려 LLM 모니터는 필요합니다. 에이전트 행동은 너무 복잡하고 문맥적이라 rule만으로는 잡기 어렵습니다. 다만 LLM 모니터를 마지막 방어선으로 두면 안 됩니다. 모니터는 defense-in-depth의 한 층이어야 합니다. 그 아래에는 권한 최소화와 sandbox가 있어야 하고, 그 위에는 사람 승인과 사후 감사가 있어야 합니다. 그리고 옆에는 비용을 감당 가능한 수준으로 유지하는 risk routing이 있어야 합니다.

앞으로 코딩 에이전트와 업무 에이전트가 더 많은 권한을 얻을수록 이 문제는 커집니다. 사용자는 "에이전트가 할 수 있는 일"에 놀라지만, 운영자는 "에이전트가 한 일을 누가 어떤 비용으로 확인할 것인가"를 물어야 합니다. SLEIGHT-Bench는 그 질문을 숫자로 압축합니다. 40개 공격 중 20개가 10번 동안 한 번도 잡히지 않았다는 숫자는, 에이전트 시대의 보안이 권한 설정 화면에서 끝나지 않는다는 신호입니다.

출처: Anthropic Alignment Science Blog, arXiv paper, SLEIGHT-Bench GitHub repository, METR Frontier Risk Report.