CAPTCHA 통과한 AI, 0.88 AUC가 잡은 풀이 과정

Roundtable과 arXiv 논문은 AI 에이전트가 CAPTCHA 정답을 맞혀도 클릭 순서와 행동 과정에서 구분된다고 주장합니다.

AI 요약

무슨 일: Roundtable이 2026년 5월 28일 AI 에이전트와 인간의 CAPTCHA 풀이 과정을 비교한 연구 개요를 공개했습니다.
- 연결된 arXiv 논문은 CogCAPTCHA30에서 process feature classifier 평균 AUC 0.88을 보고했습니다.
의미: 정답률보다 클릭 순서, 방향 변화, 과선택 같은 풀이 과정이 AI agent 방어 신호가 될 수 있습니다.
반전: 논문은 Claude, GPT, Gemini 같은 frontier agent가 일부 작은 모델보다 인간 행동 과정에 덜 가깝다고 설명합니다.
주의점: 공개된 행동 신호는 공격자의 학습 대상이 되며, 논문도 cross-task 일반화와 표본 제한을 명시했습니다.

Roundtable Research가 2026년 5월 28일 CAPTCHAs can still detect AI agents라는 연구 개요를 공개했습니다. 연결된 1차 논문은 2026년 5월 7일 arXiv에 제출되고 5월 9일 개정된 Process Matters more than Output for Distinguishing Humans from Machines입니다. 저자 Milena Rmus, Mathew D. Hardy, Thomas L. Griffiths, Mayank Agrawal은 AI 에이전트가 CAPTCHA 정답을 맞히는지보다, 어떤 순서와 오류 패턴으로 문제를 푸는지가 인간 검증에 더 강한 신호를 줄 수 있다고 주장합니다.

이 뉴스는 "AI가 신호등 이미지를 고를 수 있는가"라는 낡은 질문을 넘깁니다. 논문이 겨냥한 문제는 웹 브라우저를 조작하는 AI agent가 계정 생성, 티켓 구매, 설문 응답, 결제 전환 같은 state-changing workflow에서 인간처럼 보일 수 있는가입니다. Roundtable은 정답 자체를 output으로, 클릭 순서와 방향 변화와 과선택(overselection)을 process로 나눕니다. 연구의 숫자는 분명합니다. CogCAPTCHA30이라는 30개 과제 배터리에서 process-level feature classifier의 평균 AUC는 0.88로 보고됐습니다.

Roundtable의 CAPTCHA 결과 도표

정답을 맞히는 것과 인간처럼 푸는 것은 다릅니다

Roundtable 개요 글은 먼저 흔한 주장 하나를 받아들입니다. vision-language model은 굴뚝, 소화전, 신호등 같은 이미지를 알아볼 수 있고, 이미지 분류형 CAPTCHA는 2010년대 초반 딥러닝 이후 더 이상 순수한 "AI-hard" 문제로 보기 어렵습니다. 논문도 현대 AI가 여러 CAPTCHA 변형을 인간에 가까운 정확도로 풀 수 있다는 선행 연구를 언급합니다.

저자들이 추가한 구분은 output equivalence와 process equivalence입니다. 두 시스템이 같은 답을 냈다고 해서 같은 인지 과정으로 답을 냈다는 뜻은 아닙니다. 논문은 Classic CAPTCHA와 Cross-Tile CAPTCHA에서 인간과 frontier agent의 수행 점수가 통계적으로 구분되지 않았다고 설명합니다. 하지만 클릭 방향, side bias, row/column exploration 같은 process-level interaction feature는 인간과 agent를 안정적으로 나눴습니다.

CAPTCHA 예시는 이 논문의 도입부 역할입니다. 연구팀은 여기서 끝내지 않고 CogCAPTCHA30을 구성했습니다. CAPTCHA 하나에 29개 인지 과제를 더해 decision making, memory, perception, planning, reasoning을 다룹니다. 각 과제는 최종 정답이나 점수뿐 아니라 탐색 패턴, 결과 민감도, trial-to-trial adaptation처럼 시간이 지나며 드러나는 행동 특징을 남기도록 설계됐습니다.

CogCAPTCHA30 과제 수

0.88

평균 process-feature AUC

150

frontier agent full-battery runs

실험은 브라우저를 쓰는 agent를 대상으로 했습니다

논문은 실험 환경을 비교적 구체적으로 적었습니다. 인간 데이터는 Prolific 참가자 100명을 대상으로 수집했고, platform issue가 있는 run을 제외해 97명을 분석에 남겼습니다. AI 쪽은 GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5라는 세 가지 frontier vision-language agent를 비교했습니다. 각 모델은 50회 full-battery run을 수행해 총 150개 agent run을 만들었습니다.

에이전트는 사람과 같은 browser-based interface에서 과제를 수행했습니다. 각 trial에서 agent는 screenshot을 받고 target coordinates, tile index, categorical choice 같은 structured JSON action을 반환했습니다. Playwright 기반 execution layer가 이 action을 DOM click, keypress, input event로 바꿨습니다. 이 설정은 단순 텍스트 benchmark와 다릅니다. 실제 AI agent 제품이 웹 페이지를 보고 클릭하는 방식에 가까운 실험입니다.

이 방식이 개발자에게 중요한 이유는 CAPTCHA가 더 이상 로그인 화면의 작은 퍼즐만 의미하지 않기 때문입니다. 2026년의 AI agent는 브라우저에서 form을 채우고, checkout을 통과하고, support portal을 조작하고, 내부 admin tool에 접근할 수 있습니다. 논문 실험처럼 screenshot, JSON action, Playwright event가 연결되면 user-agent 문자열이나 IP reputation만으로는 같은 Chrome session 안의 인간과 agent를 나누기 어렵습니다. Roundtable 논문은 이 구간에서 클릭 순서와 오류 후 반응 같은 로그가 추가 신호가 되는지 봤습니다.

CogCAPTCHA30은 정답률보다 행동 흔적을 봅니다

논문 초록은 process-level feature가 task performance alone보다 강한 판별 신호를 제공한다고 요약합니다. 여기서 task performance는 accuracy, earned points 같은 output 지표입니다. process feature는 정답까지 가는 동안의 선택 순서, 반복, 오류 후 반응, 탐색 경향을 포함합니다. 연구팀은 인간과 agent가 같은 점수대에 도달해도 이런 과정 특징은 다르게 남는다고 봤습니다.

논문 Figure 1의 CAPTCHA 비교에서 언급된 신호는 순차 클릭 패턴, 방향 변화, 과선택입니다. 사람이 grid를 훑을 때는 확신 없는 tile을 다시 보거나, 작은 경계 부분을 두고 선택을 망설이거나, 행과 열을 일정하지 않게 이동할 수 있습니다. agent는 screenshot과 prompt를 받아 좌표를 계산하고, Playwright 이벤트로 클릭합니다. output은 같아도 interaction trace는 다를 수 있습니다.

Roundtable 글은 이를 "Process Turing Test"로 부릅니다. 고전적 Turing Test가 대화 output을 보고 기계와 인간을 구분하는지 묻는다면, Process Turing Test는 행동이 만들어지는 과정이 인간과 구분되지 않는지 봅니다. 이 표현은 마케팅적이지만, 보안 제품팀에는 현실적인 질문입니다. 봇 방어는 대화 상대의 철학적 지능을 판정하는 일이 아니라, 특정 workflow에서 자동화와 인간을 구분할 수 있는 반복 가능한 신호를 찾는 일입니다.

더 큰 모델이 더 인간적인 것은 아니었습니다

모델 비교 결과는 직관과 조금 다릅니다. Roundtable 글은 Claude, GPT, Gemini 같은 state-of-the-art frontier model이 smaller models인 Qwen, Centaur보다 human process feature에 덜 가까웠다고 요약했습니다. arXiv 논문 본문도 Claude Sonnet 4.5와 GPT-5가 가장 먼 축에 있었고, 평가된 off-the-shelf model 중 가장 작은 Base Qwen 1.5B가 평균적으로 더 가까웠다고 설명합니다.

이 결과는 "작은 모델이 더 좋다"는 단순 결론이 아닙니다. 논문이 측정한 것은 과제 성공률이 아니라 인간 행동 과정과의 거리입니다. Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro가 정답을 더 빠르고 일관되게 찾을수록 인간의 실수, 망설임, 제한된 작업기억, trial-by-trial adaptation과 다른 흔적을 남길 수 있습니다. 웹 보안의 판별 대상은 모델 capability가 아니라 해당 session이 Prolific 참가자 97명의 행동 분포와 얼마나 가까운지입니다.

Centaur도 중요한 비교 대상입니다. 논문은 Centaur를 10.7M human decisions와 160개 이상 cognitive experiment로 fine-tuned된 70B 모델로 설명합니다. Roundtable 글은 Centaur가 다른 모델보다 human process feature space에서 더 잘 맞았다고 썼습니다. 사람의 선택 데이터를 대규모로 학습한 모델이 일반 frontier agent보다 인간 행동에 가까웠다는 결과는 자연스럽습니다. 동시에 그것은 공격자도 human process data를 모으면 탐지를 회피할 수 있다는 경고입니다.

fine-tuning은 통했지만 과제 밖에서는 약했습니다

연구팀은 Qwen2.5-1.5B-Instruct에 두 가지 fine-tuning을 적용했습니다. A-SFT는 action-level supervised fine-tuning으로 개별 인간 행동을 모방합니다. P-SFT는 process-level fine-tuning으로 task-level behavioral process feature를 직접 최적화합니다. 논문은 evaluation target과 supervision feature가 맞는 경우 P-SFT가 A-SFT와 Centaur보다 인간 행동에 더 가까워졌다고 보고했습니다.

그러나 이 효과는 제한적이었습니다. 논문 Figure 2는 일부 process feature를 optimization objective에서 숨기고 evaluation에만 쓰면 P-SFT의 이점이 줄어든다고 설명합니다. supervised feature space와 다른 task로 cross-task evaluation을 하면 P-SFT의 장점은 사라지거나 A-SFT 수준에 가까워졌습니다. Roundtable 글도 feature 일부를 제외하거나 cross-task generalization을 요구하면 gap이 다시 나타난다고 설명합니다.

논문 Figure 2가 보안팀에 주는 교훈은 공개된 CAPTCHA 방식 하나를 모방하는 것은 가능하다는 점입니다. 특정 사이트가 클릭 속도, 방향 전환 수, tile 재클릭 비율만 본다는 사실이 알려지면 공격자는 그 feature를 목표로 fine-tuning하거나 rule-based jitter를 넣을 수 있습니다. 하지만 검증 과제가 계속 바뀌고, 측정 feature가 숨겨지고, 여러 cognitive task 사이를 넘나들면 모방 비용은 올라갑니다.

웹 서비스의 질문은 "AI를 허용할 것인가"로 바뀝니다

AI agent가 웹을 사용하는 시대에 모든 자동화를 차단하는 정책은 오래 버티기 어렵습니다. 여행 예약, 장보기, 사내 업무 자동화, 고객 지원, 개발자 portal 조작은 점점 agent workflow에 들어갑니다. 서비스가 봐야 할 질문은 "AI인지 아닌지" 하나가 아니라, 어떤 agent를 어떤 권한으로 어디까지 허용할지입니다.

예를 들어 가격 조회나 배송 상태 확인은 읽기 전용 agent에게 열 수 있습니다. 반면 계정 생성, 결제, 티켓 대량 구매, 환불 요청, 권한 변경은 human verification과 rate limit이 강해져야 합니다. CAPTCHA와 행동 검증은 이 경계에서 작동합니다. 단일 퍼즐을 통과했다는 사실보다, 전체 session이 사람의 행동 제약을 얼마나 닮았는지가 더 유용한 신호가 됩니다.

개발팀에는 로그 설계가 필요합니다. 클릭 좌표, 이동 경로, focus 변화, dwell time, form 수정 횟수, 오류 후 반응, challenge retry, device signal을 모두 원시 형태로 무한히 저장할 수는 없습니다. 개인정보와 규정 문제가 있습니다. 그래서 Roundtable이 말하는 process feature 방식은 저장할 신호를 줄이고, 목적을 human-machine discrimination에 맞추는 설계 문제로 읽어야 합니다.

reCAPTCHA·Turnstile 경쟁도 행동 분석으로 이동합니다

2026년 5월 28일 연구 공개는 Roundtable의 제품 전략과도 맞물립니다. Roundtable은 Proof of Human이라는 invisible authentication system을 만들고 있습니다. 회사가 CAPTCHA 연구를 공개하는 이유는 명확합니다. Google reCAPTCHA, hCaptcha, Cloudflare Turnstile, FingerprintJS 같은 기존 검증 도구와 경쟁하려면 "사람에게 퍼즐을 더 어렵게 내는 방식"이 아니라 "사용자 마찰 없이 행동 신호를 읽는 방식"을 설득해야 합니다.

그렇다고 Roundtable의 주장을 그대로 제품 성능으로 읽으면 안 됩니다. 논문은 연구 환경에서 특정 task battery와 특정 agent를 비교했습니다. production traffic에는 mobile browser, accessibility tool, VPN, shared device, keyboard-only user, screen reader, low-end device, network jitter가 들어갑니다. 행동 기반 검증은 좋은 신호를 만들 수 있지만, 장애를 가진 사용자나 비표준 입력 장치를 쓰는 사용자에게 불공정하게 작동할 수 있습니다.

따라서 서비스 운영자는 검증 점수를 차단 결정 하나에 바로 연결하기보다 risk scoring, step-up verification, human appeal, allowlist, bot identity verification을 함께 써야 합니다. 특히 AI agent를 합법적으로 허용하려는 서비스라면 "인간처럼 위장한 agent"와 "서명된 권한 범위 안에서 동작하는 agent"를 나눠야 합니다. CAPTCHA 연구는 전자를 잡는 데 가깝고, 후자에는 agent identity와 delegated authorization이 필요합니다.

커뮤니티 반응은 "움직이는 표적"에 모였습니다

2026년 5월 29일 Hacker News front page에는 이 글이 CAPTCHAs can still detect AI agents라는 제목으로 올라왔습니다. 같은 날 Reddit r/Futurology에도 공유됐습니다. 초기 댓글은 과장된 확신보다 실무적인 회의가 많았습니다. 한 댓글은 modern detection이 puzzle 자체보다 주변 행동 신호를 본다고 해석했습니다. 다른 댓글은 신호가 공개되면 모델이 그 신호를 모방하도록 학습될 수 있고, 탐지는 계속되는 back-and-forth가 될 것이라고 봤습니다.

이 회의는 논문 결론과도 맞습니다. 저자들은 process-level supervision이 인간 행동 모방을 개선할 수 있지만, 적절한 task-specific process representation이 필요하다고 썼습니다. 또한 논문 제한으로 1.5B 모델, 제한된 structured sequential decision-making task, discrete low-cardinality action space, single participant pool을 적었습니다. 연구는 "영구적인 CAPTCHA 해법"보다 "현재 agent의 행동 과정에는 아직 측정 가능한 차이가 있다"는 주장에 가깝습니다.

보안팀은 이 차이를 제품으로 만들 때 세 가지를 구분해야 합니다. 첫째, off-the-shelf agent를 막는 신호입니다. 둘째, 신호를 아는 공격자가 모방할 때도 남는 신호입니다. 셋째, 사용자를 괴롭히지 않으면서 법적·접근성 기준을 지키는 신호입니다. Roundtable 논문은 첫째와 둘째 사이의 연구 질문을 다뤘고, 셋째는 실제 배포에서 별도로 검증해야 합니다.

AI 제품팀이 봐야 할 실무 영향

AI agent를 만드는 팀에는 Roundtable 논문이 반대편의 신호입니다. 브라우저 agent가 CAPTCHA를 풀거나 form을 조작할 수 있다는 데모는 더 이상 충분하지 않습니다. 실제 서비스는 process-level detection을 넣을 수 있고, GPT-5·Gemini 2.5 Pro·Claude Sonnet 4.5 실험처럼 지나치게 정확한 클릭과 일정한 반응 시간을 볼 수 있습니다. agent가 합법적인 사용자 권한으로 동작한다면, 인간처럼 위장하기보다 자신의 identity와 권한 범위를 증명하는 방향이 더 안전합니다.

보안·플랫폼 팀에는 acceptance policy가 필요합니다. 어떤 endpoint에서 agent traffic을 허용할지, 어떤 요청은 human-in-the-loop를 요구할지, 어떤 행동은 더 강한 verification을 요구할지 정해야 합니다. 단순 read API와 결제·권한 변경·대량 구매 API를 같은 bot policy로 묶으면, 좋은 agent도 막고 나쁜 agent도 놓칠 수 있습니다.

데이터 팀에는 evaluation drift가 남습니다. 행동 기반 detector는 모델이 바뀌고 브라우저 자동화 도구가 바뀌면 성능이 흔들립니다. GPT-5, Gemini 2.5 Pro, Claude Sonnet 4.5를 대상으로 얻은 결과가 다음 세대 agent에도 그대로 유지된다는 보장은 없습니다. 서비스는 detector AUC만 저장하지 말고 false positive, false negative, appeal rate, accessibility impact, attack replay 결과를 같이 봐야 합니다.

Roundtable 연구의 가장 큰 메시지는 CAPTCHA의 부활이 아닙니다. 웹은 AI agent가 "무엇을 할 수 있는가"가 아니라 "어떻게 했는가"를 묻기 시작했습니다. 정답을 맞힌 agent도 클릭 순서와 오류 패턴에서 흔적을 남길 수 있습니다. 그 흔적이 얼마나 오래 유효할지는 공격자와 방어자의 반복 실험에 달려 있습니다. 2026년의 인간 검증은 퍼즐 하나가 아니라, 브라우저 session 전체의 행동 과정을 둘러싼 측정 문제로 바뀌고 있습니다.