ARC-AGI-3가 증명한 것: 최고의 AI도 인간의 12%에 불과하다

François Chollet이 만든 ARC-AGI-3가 3월 25일 출시되었습니다. 최초의 인터랙티브 AI 추론 벤치마크에서 최고 AI는 12.58%, GPT-5.4와 Grok 4.20은 0%를 기록했습니다. 1,000개 레벨, $2M 상금, 그리고 AI 지능 측정의 패러다임이 바뀌었습니다.

3월 25일, François Chollet의 ARC Prize 팀이 ARC-AGI-3를 출시했습니다. 정적 퍼즐을 푸는 기존 벤치마크와 달리, 비디오 게임과 유사한 인터랙티브 환경에서 AI의 추론 능력을 측정하는 최초의 벤치마크입니다. 150개 이상의 환경, 1,000개 이상의 레벨, $2M 이상의 상금. 30일간의 프리뷰에서 가장 뛰어난 AI는 12.58% 를 기록했습니다. 인간은 100% 입니다. GPT-5.4와 Grok 4.20은 0% 를 기록했습니다.

정적 퍼즐의 한계

ARC-AGI는 François Chollet이 2019년에 시작한 프로젝트입니다. "Abstraction and Reasoning Corpus"의 약자로, AI가 정말 '생각'할 수 있는지를 측정하려는 시도입니다. 기존 벤치마크들이 대규모 데이터셋에서 패턴을 얼마나 잘 인식하는지를 측정했다면, ARC는 처음 보는 문제를 얼마나 잘 풀 수 있는지를 묻습니다.

ARC-AGI-1과 2는 정적 그리드 퍼즐이었습니다. 입력 그리드를 보고 규칙을 추론해서 출력 그리드를 맞추는 방식이었습니다. 이진 합격/불합격으로 채점했고, 인간에게는 쉽지만 AI에게는 어려운 문제들이었습니다. ARC-AGI-2에서 현재 최고 AI는 1-2%에 불과합니다.

하지만 정적 퍼즐에는 근본적인 한계가 있었습니다. 한 번의 시도로 답을 맞히는 능력만 측정할 뿐, 환경을 탐색하고, 시행착오를 거치며, 경험에서 배우는 능력은 측정하지 못했습니다. 인간 지능의 핵심인 '적응적 학습'이 빠져 있었던 것입니다.

비디오 게임으로 AI를 시험하다

ARC-AGI-3는 패러다임 자체를 바꿨습니다.

ARC-AGI 벤치마크 진화

V1ARC-AGI-1

정적 그리드 퍼즐

이진 합격/불합격

측정: 패턴 추론

AI ~10%

V2ARC-AGI-2

정적 그리드 퍼즐 (고난도)

조합적 일반화

측정: 개념 결합

AI ~1-2%

V3ARC-AGI-3

인터랙티브 게임 환경

행동 효율성 vs 인간

측정: 적응적 학습

AI 12.58%

공통점: 모든 버전에서 인간 성능은 95-100%. AI와의 격차는 줄어들지 않고 있습니다.

에이전트는 설명서도, 지시사항도, 승리 조건 안내도 없이 게임 환경에 놓입니다. 스스로 탐색하고, 규칙을 발견하고, 8-10개의 점진적 레벨을 통과해야 합니다. 각 환경은 수작업으로 설계되어 사전 학습 데이터에 존재하지 않습니다. 암기로는 해결할 수 없습니다.

프리뷰 기간 동안 공개된 세 가지 게임이 이 설계 철학을 보여줍니다. ls20은 심볼 매칭과 변환이 필요한 맵 내비게이션입니다. ft09는 겹치는 요소들의 패턴 매칭 논리 퍼즐입니다. vc33은 지정된 높이에 맞춰 오브젝트 볼륨을 조절하는 게임입니다. 세 게임 모두 규칙을 직접 알려주지 않습니다. 플레이어가 시행착오를 통해 발견해야 합니다.

평가 방식도 혁신적입니다. 단순히 "풀었는가/못 풀었는가"가 아니라, 행동 효율성(action efficiency) 을 측정합니다. 인간이 10번의 행위로 레벨을 클리어했다면, AI가 같은 레벨을 100번의 행위로 클리어한 경우 10%의 효율성을 기록합니다. 효율성의 제곱 비율을 사용하기 때문에, 인간보다 10배 느리면 점수는 ~1%로 급격히 떨어집니다.

12.58% vs 100%: 숫자가 드러내는 현실

30일간의 프리뷰에서 1,200명 이상의 인간이 3,900회 이상의 게임 세션을 완료하며 베이스라인을 형성했습니다. 그리고 AI가 도전했습니다.

결과는 충격적입니다. 프론티어 LLM 에이전트는 1%도 채우지 못했습니다. Claude Opus 4.6이 간신히 3% 미만을 기록했고, GPT-5.4와 Grok 4.20은 공개 데모 태스크에서 전부 0점이었습니다. 수천억 달러의 투자와 수조 토큰의 학습 데이터로 만들어진 가장 강력한 언어 모델들이, 비디오 게임 형태의 간단한 퍼즐 앞에서 무력했습니다.

1위를 차지한 것은 LLM이 아니었습니다. StochasticGoose 라는 팀이 CNN(합성곱 신경망)과 구조화된 탐색을 결합한 방법으로 12.58%를 기록했습니다. 2위 Blind Squirrel은 상태 그래프 탐색으로 6.71%, 3위 Explore It Till You Solve It은 프레임 그래프 방식으로 3.64%를 달성했습니다. arXiv에 발표된 3위 팀의 논문(Rudakov et al.)은 핵심 발견을 이렇게 요약했습니다.

"체계적인 상태 추적이 모델 크기보다 더 중요합니다."

이것은 의미심장합니다. 가장 큰 모델이 아니라, 가장 체계적으로 탐색하는 시스템이 이겼습니다. 수천억 파라미터의 프론티어 모델이 0%를 기록하는 동안, 상대적으로 단순한 CNN 기반 시스템이 12.58%를 달성한 것입니다.

Chollet의 선언: 암기는 지능이 아니다

ARC-AGI-3의 설계 철학을 이해하려면 François Chollet의 근본적인 주장을 알아야 합니다. Keras를 만든 것으로 유명한 이 AI 연구자는 Google에서 나와 NDEA라는 새 연구소를 설립했고, "인간 프로그래머만큼 유연하고 창의적인 AI"를 만드는 것을 목표로 합니다.

Chollet은 두 가지를 엄격히 구분합니다. 스킬(skill) 과 지능(intelligence) 입니다.

스킬은 이미 아는 것을 반복하는 능력입니다. LLM이 학습 데이터에서 본 패턴을 재현하는 것이 여기에 해당합니다. 지능은 처음 보는 문제를 해결하는 능력입니다. Chollet은 이를 비유합니다.

"스킬은 이미 있는 도로를 따라 여행하는 것이고, 지능은 미지의 목적지로 향하는 새로운 길을 만드는 것입니다."

The Decoder와의 인터뷰에서 Chollet은 더 직접적으로 말했습니다. 2010년대의 AI 돌파구는 근본적 통찰이 아니라 컴퓨팅 비용 하락의 결과였으며, GPT-4.5가 ARC에서 10%에 머무른 것은 "사전학습 스케일링만으로는 유연한 지능을 만들 수 없다"는 증거라고 주장했습니다.

ARC-AGI-3는 이 철학의 궁극적 구현입니다. 설명서가 없으므로 사전 학습된 지식으로 답할 수 없습니다. 각 환경이 고유하므로 패턴 매칭으로 풀 수 없습니다. 효율성을 측정하므로 무작위 탐색으로는 점수를 얻을 수 없습니다. 암기가 아닌 학습을, 패턴 인식이 아닌 추론을, 단일 추론이 아닌 적응을 요구합니다.

$2M 상금, 그리고 오픈소스 강제

ARC Prize 2026은 $2M 이상의 상금으로 3개 트랙을 운영합니다. 체크포인트는 6월 30일과 9월 30일, 최종 제출은 11월 2일, 결과 발표는 12월 4일입니다.

가장 주목할 만한 규칙이 있습니다. 모든 참가 솔루션은 MIT 또는 CC0 라이선스로 오픈소스해야 합니다. 그리고 Kaggle 평가 환경에서는 외부 API 호출이 금지됩니다. 이는 OpenAI, Anthropic, Google의 폐쇄형 API에 의존하는 솔루션을 사실상 배제합니다. 로컬에서 돌릴 수 있는 에이전트나 오픈 웨이트 모델만 참가할 수 있습니다.

이것은 의도적 설계입니다. Chollet은 HN 토론에서 명확히 밝혔습니다.

"AGI라면 새로운 작업에 적응하는 데 인간 개입이 필요 없습니다. 하네스가 필요하다면, 스스로 만들 수 있어야 합니다."

오픈소스 강제는 또 다른 효과도 있습니다. 상위권 솔루션의 기술이 즉시 공개되면서, AI 추론 능력 향상을 위한 연구가 가속화됩니다. ARC Prize 2025에서 상위 솔루션이 공개된 이후 관련 연구가 급증했던 전례가 있습니다.

커뮤니티의 치열한 논쟁

HN 커뮤니티 핵심 논쟁 (245점, 172댓글)

찬성: "올바른 방향이다"

• 효율성 패널티는 무차별 대입을 방지하는 정당한 설계
• 인터랙티브 환경이 정적 퍼즐보다 지능을 더 잘 측정
• 오픈소스 강제가 AI 연구 발전에 기여

반대: "측정 방식에 문제가 있다"

• 제곱 효율성 비율이 점수를 인위적으로 낮춤
• 인간 베이스라인이 퍼즐 애호가 편향 ($5/게임 보상)
• 외부 API 금지 = 사실상 LLM 배제, 검색 효율성만 측정?
• "시력은 인간에게 제공되는 하네스 아닌가?"

철학적 논쟁

• "이 테스트는 AGI를 증명하지 않는다. AGI가 아님을 증명한다"
• "100%를 달성하면 AGI가 아니라 ASI(초지능)에 해당"
• "직접 해봤는데 목표를 이해 못하겠다. 나는 확실히 AGI가 아니다"

Hacker News에서 245점을 기록한 스레드에는 172개의 댓글이 달렸고, 격렬한 논쟁이 벌어졌습니다.

평가 방식의 공정성이 가장 큰 쟁점이었습니다. Tiberium이라는 사용자는 제곱 효율성 비율의 문제를 지적했습니다. 모든 퍼즐을 풀어도 인간보다 10배 느리면 ~1%밖에 안 되기 때문에, "모델이 몇 레벨을 완료했는지조차 알 수 없다"는 비판이었습니다. 반면 ACCount37은 "모든 시도가 외부 효과에 직접적, 간접적 영향을 미치므로 효율성 측정은 정당하다"고 반박했습니다.

인간 베이스라인의 대표성도 논란이었습니다. 테스터들이 게임당 $5를 받는 자발적 참가자였기 때문에 퍼즐 애호가 편향이 있다는 지적에, Chollet은 직접 응답했습니다.

"테스터들은 샌프란시스코의 실직자 또는 저소득자였지, 스탠포드 PhD가 아닙니다. 이 게시판의 대부분 사람들이 그들보다 훨씬 잘할 것입니다."

가장 흥미로운 논쟁은 "하네스(harness)" 금지 규칙에 관한 것이었습니다. ARC-AGI-3는 AI에게 커스텀 도구 사용을 금지합니다. 한 사용자 Causal은 이 비대칭성을 꼬집었습니다.

"시력은 인간에게 제공되는 하네스라고 느껴지는데, LLM에게는 허용되지 않습니다."

Chollet의 대답은 유머러스하면서도 날카로웠습니다. "그러면 로봇이 물리적으로 테스트 센터에 와서 게임을 플레이하는 것도 방법이죠."

그리고 예상 가능한 반응도 있었습니다. 여러 사용자가 직접 게임을 플레이해본 후 고백했습니다. stevvo는 "첫 번째 게임을 시도했지만 목표 자체를 이해하지 못했다"고 했고, typs는 농담 섞인 자기 비하를 남겼습니다.

"나는 확실히 AGI가 아닙니다."

이것이 AI 산업에 의미하는 것

ARC-AGI-3의 결과는 불편한 질문을 던집니다. 수천억 달러의 투자로 만들어진 프론티어 모델들이, 비디오 게임 형태의 간단한 퍼즐에서 0%를 기록하는 것을 어떻게 해석해야 할까요?

먼저 명확히 해야 할 것이 있습니다. GPT-5.4가 ARC-AGI-3에서 0%를 기록했다고 해서 그것이 쓸모없는 모델이라는 뜻은 아닙니다. LLM은 코드 생성, 문서 요약, 번역, 대화 등에서 이미 엄청난 실용성을 보여주고 있습니다. ARC-AGI-3가 측정하는 것은 이런 실용적 스킬이 아니라, 처음 보는 환경에서 스스로 규칙을 발견하고 적응하는 능력입니다. 그리고 이 능력에서 현재 AI는 인간과 압도적인 격차를 보입니다.

이 격차가 중요한 이유는 AGI 내러티브 때문입니다. OpenAI, Anthropic, Google 모두 AGI를 최종 목표로 내세우고 있습니다. 투자자들은 이 약속에 수천억 달러를 베팅하고 있습니다. ARC-AGI-3는 그 약속과 현실 사이의 거리를 숫자로 보여줍니다. 12.58% — 그것도 LLM이 아닌 CNN 기반 시스템의 점수입니다.

물론 Chollet 자신도 ARC-AGI가 AGI의 완전한 정의는 아님을 인정합니다. HN 토론에서 한 사용자 modeless의 말이 이를 정확히 포착합니다.

"이 테스트는 AGI를 가지고 있음을 증명하지 않습니다. AGI를 가지고 있지 않음을 증명합니다."

즉, ARC-AGI-3를 만점 받는다고 AGI인 것은 아니지만, ARC-AGI-3에서 0%를 받는 시스템이 AGI라고 주장하기는 어렵습니다.

스케일링의 끝, 새로운 시작

Chollet은 The Decoder 인터뷰에서 AI 발전의 다음 단계를 제시했습니다. 단순히 모델을 키우는 것(파라미터 스케일링)이 한계에 도달했다면, 테스트 시간 적응(test-time adaptation) 이 새로운 전환점이라는 것입니다. 모델이 추론 시점에 스스로 전략을 수정하고, 프로그램을 재구성하는 능력입니다.

그는 구체적인 아키텍처도 제안합니다. 대규모 데이터에서 추출한 재사용 가능한 추상화(딥 네트워크)와, 맞춤형 솔루션을 조립하는 심볼릭 프로그램 검색, 그리고 문제 해결 경험을 통해 지속적으로 확장되는 글로벌 라이브러리. 이 "프로그래머형 메타러너" 가 완전히 새로운 문제에 최소한의 재학습으로 대응할 수 있다는 비전입니다.

ARC-AGI-3 대회의 결과가 12월에 발표되면, 우리는 이 비전에 얼마나 가까워졌는지 구체적인 데이터를 얻게 됩니다. 모든 솔루션이 오픈소스로 공개된다는 점에서, 그 데이터는 AI 커뮤니티 전체의 자산이 됩니다.

확실한 것은 하나입니다. ARC-AGI-3는 AI 산업에 불편하지만 필요한 거울을 들이밀었습니다. 벤치마크 점수와 마케팅 문구 뒤에 숨겨진 질문, "이 AI가 정말 '생각'하는가?"에 대해 숫자로 답하는 거울입니다. 그리고 지금 그 거울은 12.58%를 비추고 있습니다.