AI가 수학자도 못 푼 문제를 풀었다: FrontierMath가 증명한 능력의 새 체제

Epoch AI의 FrontierMath 벤치마크에서 GPT-5.4 Pro가 미해결 수학 문제를 처음 풀었습니다. 4개 프론티어 모델이 같은 문제를 해결하며 "능력 체제"의 도래를 시사합니다.

수학에서 "미해결 문제(open problem)"는 특별한 의미를 가집니다. 여러 전문 수학자가 수년간 시도했지만 풀지 못한 문제입니다. 알려진 풀이법이 없고, 새로운 아이디어가 필요합니다. AI가 기존 지식을 잘 정리하고 재조합하는 것은 이미 알고 있습니다. 하지만 인간이 풀지 못한 문제를 AI가 풀 수 있는가?

이제 그 질문에 대한 공식적인 답이 나왔습니다. 예.

Epoch AI가 운영하는 FrontierMath Open Problems 벤치마크에서, GPT-5.4 Pro가 Ramsey 이론 기반의 하이퍼그래프 문제를 풀어 문제 출제자의 공식 검증을 받았습니다. 그리고 이후 Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4 xhigh — 총 4개의 프론티어 모델이 같은 문제를 독립적으로 풀 수 있음이 확인됐습니다.

Hacker News에서 400 포인트, 575개의 댓글을 기록한 이 사건은, AI의 수학적 능력에 대한 가장 뜨거운 논쟁을 촉발했습니다.

FrontierMath — AI의 수학 능력을 측정하는 새 기준

이 사건을 이해하려면, 먼저 FrontierMath가 무엇인지 알아야 합니다.

Epoch AI(AI 연구 및 벤치마크 기관, Schmidt Sciences 지원)가 운영하는 FrontierMath는 AI 모델의 수학 능력을 측정하는 벤치마크입니다. 일반적인 수학 벤치마크(MATH-500, AIME 등)와는 레벨이 다릅니다. 전문 수학자가 자신의 연구에서 직접 가져온 문제로 구성되어 있으며, 4단계 난이도 체계를 가지고 있습니다.

Tier 1-3: 290개 문제 — 대학원 수준부터 연구 수준까지
Tier 4: 48개 문제 — 최고 난이도, 전문 수학자도 상당한 시간이 필요한 문제

GPT-5.4 Pro의 FrontierMath 성적은 Tier 1-3에서 50%, Tier 4에서 38% 입니다. 역대 누적으로 Tier 4 중 42% (20/48) 가 AI 모델에 의해 해결됐습니다.

하지만 FrontierMath의 진정한 야심은 그 위에 있습니다.

FrontierMath Open Problems — 인류가 아직 못 푼 문제들

FrontierMath Open Problems는 기존 벤치마크와 완전히 다른 차원입니다. 여기에 포함된 문제는 현재 인간이나 AI 어느 쪽도 풀지 못한 진짜 미해결 연구 수학 문제입니다.

⭐ Open Problems

14문제|첫 번째 문제 해결!

미해결 연구 수학 · 2~100명의 수학자가 시도

Tier 4

48문제|GPT-5.4 38% · 누적 42% 해결

최고 난이도 · 전문 연구자 수준

Tier 1-3

290문제|GPT-5.4 50% 해결

대학원~연구 수준

출처: Epoch AI · Schmidt Sciences 지원

파일럿 릴리스에는 14개의 미해결 문제가 포함되어 있습니다. 각 문제는 전문 수학자가 자신의 연구에서 직접 기여한 것으로, "직접 풀고 싶은 문제" 를 제안합니다. 출제자들의 추산에 따르면, 각 문제에 2~~4명에서 50~~100명의 수학자가 진지하게 시도한 적이 있습니다.

핵심적인 설계 원칙이 있습니다 — 모든 문제의 해답은 프로그램으로 자동 검증 가능해야 합니다. 주관적 판단이 아니라, 코드로 정답 여부를 확인할 수 있어야 합니다. 이것이 수학에서 AI 벤치마크를 만들 수 있는 이유입니다 — 수학은 답이 맞는지 틀리는지를 프로그램으로 검증할 수 있는 몇 안 되는 지적 영역이기 때문입니다.

Ramsey 하이퍼그래프 문제 — AI가 풀어낸 것

첫 번째로 해결된 문제는 UNC Charlotte의 Will Brian 교수가 출제한 Ramsey-style 하이퍼그래프 문제입니다.

수학적 배경을 간략히 설명하면, 이 문제는 무한 급수의 동시 수렴 연구에서 등장하는 수열 H(n) 의 하한(lower bound)을 개선하는 것입니다. 하이퍼그래프에서 "partition" 속성을 갖지 않는 최대 크기의 구조를 만들어야 합니다. 기존에 알려진 재귀적 하한(k₁ = 1, kₙ = ⌊n/2⌋ + k⌊n/2⌋ + k⌊(n+1)/2⌋)보다 더 좋은 구조를 찾는 것이 도전이었습니다.

Kevin Barreto와 Liam Price — 두 명의 수학/AI 연구자가 GPT-5.4 Pro와의 대화를 통해 해법을 이끌어냈습니다. 이들은 Erdős-type 문제 연구에서 쌓아온 프롬프팅 워크플로우를 활용했습니다. 결과는 H(n) ≥ (26/25)·kₙ (n ≥ 15) — 기존 하한을 상수 배수(c = 26/25)만큼 개선하는 구성(construction)이었습니다.

해법의 형태는 전통적인 "연필과 종이" 증명이 아니라, 하이퍼그래프를 구성하는 Python 프로그램이었습니다. 계산 조합론(computational combinatorics)에 가까운 형태입니다.

문제 출제자 Will Brian의 반응은 이랬습니다.

"흥미로운 해법입니다. AI의 이런 접근이 가능할지 이전에 궁금해했지만, 구현하기 어려워 보였습니다. 이제 그것이 완벽하게 작동하는 것을 봅니다. 우리의 하한 구조에 있던 비효율을 제거했습니다."

"능력 체제" — 4개 모델이 같은 문제를 푸는 의미

이 사건의 가장 중요한 발견은 GPT-5.4 Pro 하나가 문제를 풀었다는 것이 아닙니다. 이후 3개의 다른 프론티어 모델도 같은 문제를 풀 수 있었다는 것입니다.

Claude Opus 4.6 (max 설정)
Gemini 3.1 Pro
GPT-5.4 (xhigh 설정)

❓단일 이상치 (Outlier)

"1개 모델만 해결"

→ "우연일 수 있다"

🤖

✗

✅능력 체제 (Capability Regime)

"4개 모델이 독립적으로 해결"

→ "현 세대의 일반적 능력"

GPT-5.4 Pro

Opus 4.6

Gemini 3.1

GPT-5.4 xhigh

단일 사건 → 구조적 전환

Epoch AI는 이를 "능력 체제(capability regime)" 의 증거라고 해석합니다. 하나의 모델이 운 좋게 답을 맞힌 것이 아니라, 현 세대 프론티어 모델들이 적절한 프롬프팅 하에 도달할 수 있는 능력의 경계에 이 문제가 위치해 있다는 뜻입니다.

이것은 중요한 구분입니다. Knuth 교수의 문제를 Claude가 풀었을 때, 그것이 "특정 모델의 특이한 능력"인지 "현 세대 AI의 일반적 능력"인지 판단하기 어려웠습니다. 이제 4개의 서로 다른 모델이 같은 문제를 풀 수 있다는 것은, 이것이 일반적 능력에 가깝다는 강력한 증거입니다.

커뮤니티 반응 — "진정으로 새로운 것인가?"

Hacker News에서 575개의 댓글이 달린 이 토론은, AI의 수학적 능력에 대한 가장 근본적인 질문을 중심으로 전개됐습니다.

회의론: "재조합일 뿐"

상당수의 댓글은 AI가 "진정으로 새로운(truly novel)" 것을 만들었는지 의문을 제기했습니다.

"LLM은 기존 아이디어를 재조합하는 것이지, 근본적으로 새로운 개념을 만드는 것이 아닙니다."

이 비판에는 일리가 있습니다. GPT-5.4 Pro의 해법은 기존 수학적 구조의 "비효율을 제거"한 것이지, 완전히 새로운 수학적 개념을 도입한 것은 아닙니다. 하한을 26/25 배 개선한 것은 의미 있지만, 수학의 역사를 바꿀 혁명적 발견은 아닙니다.

긍정론: "정의의 문제"

반면 다른 진영은 "truly novel"의 정의 자체가 논쟁적이라고 반박했습니다.

인간 수학자의 발견도 대부분 기존 아이디어의 새로운 조합입니다. Newton이 미적분을 발명한 것도, Leibniz가 비슷한 시기에 독립적으로 발견한 것도, 기존 수학적 도구의 새로운 조합이었습니다. "순수한 창조"와 "영리한 재조합"의 경계는 수학에서도 명확하지 않습니다.

핵심 관찰: "검증 가능한 도메인"

가장 통찰력 있는 댓글들은, AI의 수학 능력이 특별한 이유가 검증 가능성(verifiability) 에 있다고 지적했습니다.

수학과 코딩은 답이 맞는지 틀리는지를 프로그램으로 검증할 수 있는 영역입니다. AI가 에세이를 잘 쓰는지, 예술적 가치가 있는 그림을 그리는지는 주관적이지만, 수학 증명이 맞는지는 객관적으로 확인할 수 있습니다. FrontierMath가 가치 있는 이유가 바로 이것입니다 — AI의 능력을 반박 불가능하게 측정할 수 있는 벤치마크이기 때문입니다.

실무적 의미 — AI 수학 연구 보조의 현실화

이 사건이 개발자와 AI 실무자에게 의미하는 바는 무엇일까요?

첫째, AI 활용 연구의 체계화. Kevin Barreto와 Liam Price가 사용한 "프롬프팅 워크플로우" — Erdős-type 문제 연구에서 쌓아온 체계적 프롬프팅 방법론 — 는 AI를 연구 도구로 활용하는 구체적 방법론이 성숙하고 있음을 보여줍니다. 단순히 "이 문제를 풀어줘"가 아니라, 문제를 구조화하고, 탐색 방향을 안내하며, 후보 해를 검증하는 체계적 워크플로우입니다.

둘째, 계산 조합론의 AI 가속. 이번 해법이 Python 프로그램 형태였다는 점은 시사적입니다. AI가 가장 잘하는 것은 "코드를 생성하여 수학적 구조를 탐색하는 것"입니다. 전통적인 증명보다 계산적 구성(computational construction)에서 AI의 강점이 더 잘 발휘됩니다.

셋째, 벤치마크의 진화. MATH-500이나 AIME 같은 기존 벤치마크는 이미 포화 상태입니다 — 최신 모델들이 거의 100%를 기록합니다. FrontierMath Open Problems는 "풀린 적 없는 문제"로 구성되어 있기 때문에, AI 능력의 진정한 프론티어를 추적할 수 있는 새로운 기준이 됩니다.

전망 — 남은 13개 문제와 그 너머

FrontierMath Open Problems의 14개 문제 중 하나가 풀렸습니다. 13개가 남아 있습니다. 이 문제들 중 일부는 조합론, 수론, 위상수학 등 다양한 분야에 걸쳐 있으며, 풀리면 학술 논문으로 출판될 수 있는 수준입니다.

4개 모델이 첫 번째 문제를 풀 수 있었다는 사실은, 나머지 문제들 중 일부도 현 세대 모델의 사정거리 안에 있을 수 있음을 시사합니다. 동시에, 가장 어려운 문제들은 현재 모델의 능력으로는 접근조차 어려울 수 있습니다 — 그것이 바로 벤치마크의 가치입니다.

FrontierMath Open Problems는 AI 수학 능력의 실시간 지표 역할을 할 것입니다. 새로운 모델이 출시될 때마다, 이 미해결 문제들에 도전하여 얼마나 많은 문제를 추가로 풀 수 있는지가 모델 능력의 진정한 척도가 됩니다.

이번 사건이 말해주는 것은 명확합니다 — AI는 기존 지식의 정리자를 넘어, 새로운 지식의 생산자로 진입하고 있습니다. 그 "새로운 지식"의 범위와 깊이에 대해서는 논쟁이 계속되겠지만, 전문 수학자가 출제하고 검증한 미해결 문제를 풀었다는 사실 자체는 논쟁의 여지가 없습니다.

능력 체제가 도래했습니다. 질문은 이제 "AI가 미해결 문제를 풀 수 있는가?"가 아니라, "어디까지 풀 수 있는가?" 입니다.