Devlery
Blog/AI

80년 난제의 반례, OpenAI 모델이 연 연구 자동화의 문

OpenAI 모델이 Erdős unit distance 추측을 반박했습니다. 핵심은 AI 대체보다 검증 가능한 연구 자동화입니다.

80년 난제의 반례, OpenAI 모델이 연 연구 자동화의 문
AI 요약
  • 무슨 일: OpenAI가 내부 범용 추론 모델이 Erdős의 planar unit distance 추측을 반박하는 증명을 생성했다고 발표했습니다.
    • 공식 증명은 무한히 많은 n에 대해 n^(1+δ)개의 unit-distance pair를 만드는 구성을 제시합니다.
  • 의미: 사건의 핵심은 "AI가 수학자를 대체했다"가 아니라, 모델 산출물과 외부 검토가 이어진 연구 자동화 파이프라인입니다.
  • 주의점: 모델명, 접근 가능성, 재현 절차는 제한적으로 공개됐습니다. 수학적 의미는 companion remarks와 후속 검증을 함께 읽어야 합니다.

OpenAI가 이번에는 챗봇 기능이나 코딩 에이전트가 아니라 순수 수학 문제로 AI 뉴스의 중심에 섰습니다. 2026년 5월 20일 OpenAI는 내부 범용 추론 모델이 Paul Erdős가 1946년에 제기한 planar unit distance 문제의 오래된 추측을 반박하는 증명을 생성했다고 발표했습니다. 문제는 짧게 말하면 이렇습니다. 평면 위에 n개의 점을 놓을 때, 서로 정확히 거리 1인 점쌍을 최대 몇 개 만들 수 있을까요.

OpenAI의 공식 발표에 따르면 이번 모델은 수학 전용 시스템도, 특정 증명 전략을 탐색하도록 만든 scaffold도, unit distance 문제에 맞춘 전용 모델도 아니었습니다. 회사는 "new general-purpose reasoning model"이 Erdős 문제 모음에서 이 문제를 풀었고, 그 뒤 AI grading pipeline, 내부 검토, 외부 수학자 검토, human-edited exposition을 거쳐 증명과 companion remarks를 공개했다고 설명합니다.

이 문장을 그대로 받아들이면 "AI가 80년 난제를 풀었다"는 자극적인 제목이 먼저 떠오릅니다. 하지만 개발자와 AI 제품팀이 봐야 할 부분은 조금 다릅니다. 이번 사건은 모델 하나의 지능을 과시하는 데모라기보다, AI가 낸 연구 산출물을 사람이 검증하고, 단순화하고, 해석하고, 공개 가능한 문서로 만드는 흐름을 보여줍니다. 연구 에이전트가 진짜 업무가 되려면 필요한 것은 멋진 답변이 아니라 검증 가능한 결과물, 출처, 리뷰, 반론을 견디는 문서입니다.

어떤 문제가 반박됐나

planar unit distance 문제는 설명하기 쉽습니다. n개의 점을 평면에 놓고, 두 점 사이 거리가 정확히 1인 경우를 세면 됩니다. 한 줄로 점을 놓으면 대략 n - 1개의 pair가 나옵니다. 정사각 격자로 놓으면 더 많은 pair가 나옵니다. Erdős의 고전적 구성과 그 변형은 오랫동안 이 문제의 중심 직관이었습니다. OpenAI 글은 그동안 "square grid" 계열 구성이 사실상 최적일 것이라는 믿음이 있었다고 정리합니다.

공식 증명 PDF인 "Planar Point Sets with Many Unit Distances"는 첫 정리에서 어떤 고정된 δ > 0가 존재하고, 무한히 많은 양의 정수 n에 대해 ν(n) >= n^(1+δ)가 성립한다고 밝힙니다. 여기서 ν(n)n개 점으로 만들 수 있는 unit-distance pair의 최대 수입니다. 이 형태는 n^(1+o(1))류의 예상 경계를 정면으로 깨는 결과입니다.

OpenAI 발표는 한 가지 중요한 숫자도 덧붙입니다. 원래 AI proof 자체는 명시적인 δ를 주지 않았지만, Princeton의 Will Sawin이 다듬은 forthcoming refinement에서는 δ = 0.014를 취할 수 있다고 설명합니다. 이 숫자는 일반 독자에게 작아 보일 수 있습니다. 그러나 여기서 중요한 것은 계수의 크기가 아니라 지수에 고정된 양의 여유가 생겼다는 사실입니다. "거의 선형"으로 보이던 세계에서 다항식 개선이 들어온 것입니다.

반례가 숫자론을 타고 온 이유

이 결과가 흥미로운 이유는 단순히 AI가 어려운 문제를 맞혔기 때문만은 아닙니다. 방법이 예상 밖입니다. OpenAI 글은 새 증명이 algebraic number theory의 도구를 조합기하 문제에 끌어왔다고 설명합니다. 증명 PDF와 companion remarks는 infinite class field tower, Golod-Shafarevich theory, CM field, splitting primes, root discriminant 같은 용어를 반복해서 다룹니다.

직관만 잡아보면 이렇습니다. Erdős의 고전적 격자 구성은 Gaussian integers, 즉 a + bi 꼴의 수와 연결해서 볼 수 있습니다. 어떤 수가 여러 방식으로 같은 길이의 벡터를 만들면, 그만큼 같은 거리의 점쌍을 많이 만들 수 있습니다. 이번 구성은 이 아이디어를 훨씬 복잡한 number field 쪽으로 밀어붙입니다. 풍부한 대칭을 가진 수체를 만들고, 그 안에서 절댓값 1의 원소를 많이 얻은 뒤, 이를 평면의 unit translation 후보로 바꾸는 흐름입니다.

companion remarks의 서문은 이 점을 더 명확히 합니다. 외부 수학자들은 이번 논증이 "human-digested, somewhat simplified, and somewhat generalized version"이라고 설명합니다. 즉 공개된 companion remarks는 모델이 뱉은 원문을 그대로 전시한 것이 아니라, 수학자들이 읽고 정리하고 일반화한 설명입니다. 이 차이가 중요합니다. AI가 낸 출력이 곧 논문이 되는 것이 아니라, 출력이 연구 공동체의 언어로 번역되고 검증돼야 의미가 생깁니다.

OpenAI unit distance companion remarks 첫 페이지

모델 산출물과 사람의 검증 사슬

OpenAI가 공개한 proof PDF에는 "Statement on AI Use"가 들어 있습니다. 이 부분은 이번 뉴스의 기술적 핵심입니다. 문서에 따르면 내부 모델은 AI가 작성한 문제 진술을 받았고, 그 출력은 AI grading pipeline으로 보내졌습니다. 해당 파이프라인이 높은 신뢰도로 정답 가능성을 표시한 뒤에야 내부 인간 연구자와 수학자들이 solution을 자세히 보기 시작했습니다. 이후 AI-assisted verification과 rewriting, 외부 수학자 검토, human-edited exposition이 이어졌습니다.

이 설명은 두 가지를 동시에 말합니다. 첫째, OpenAI는 이번 결과를 "완전히 자동화된 방식으로 풀었다"고 주장합니다. 둘째, 공개 가능한 수학 결과가 되기까지는 자동화 이후의 인간 검토가 결정적이었습니다. 연구 에이전트 논의에서 이 둘을 분리하지 않으면 쉽게 과장으로 흐릅니다. 모델이 아이디어를 찾는 능력과, 그 아이디어가 공동체에서 받아들여질 수 있는 지식이 되는 과정은 다른 문제입니다.

개발자 입장에서는 이 구조가 낯설지 않습니다. 코딩 에이전트가 패치를 만들면 CI, 리뷰, 테스트, 배포 정책이 붙어야 합니다. 보안 에이전트가 취약점을 찾으면 재현 절차와 영향 범위, false positive 검토가 필요합니다. 연구 에이전트도 마찬가지입니다. 수학에서는 그 검증 단위가 증명이고, 이번 사례에서는 외부 수학자들의 companion remarks와 공개 PDF가 그 역할을 했습니다.

단계이번 사례AI 제품팀이 볼 지점
문제 설정AI-written prompt로 unit distance 문제를 모델에 전달작업 명세가 검증 가능한 형태인지가 성능만큼 중요합니다.
초기 판정AI grading pipeline이 high confidence 표시자동 평가기는 triage 도구이지 최종 권위가 아닙니다.
외부 검토수학자들이 correctness를 확인하고 설명을 단순화전문가 검토와 공개 문서가 신뢰를 만듭니다.
지식화proof PDF와 companion remarks 공개결과물은 재검토 가능한 artifact로 남아야 합니다.

수학자들은 무엇을 봤나

OpenAI 발표에는 Noga Alon, Tim Gowers, Arul Shankar, Jacob Tsimerman의 평가가 실렸습니다. 그대로 장문 인용하기보다 핵심만 옮기면, 이들은 이번 결과가 오래된 조합기하 문제를 실제로 건드렸고, 인간이 썼다면 매우 강한 논문으로 평가했을 정도의 증명이라는 점을 강조합니다. 동시에 companion remarks의 여러 절은 결과의 의미를 더 조심스럽게 해석합니다. AI proof가 중요한 것은 단순한 답이 아니라, discrete geometry와 algebraic number theory 사이의 예상 밖 연결을 드러냈기 때문입니다.

특히 Thomas Bloom의 설명은 AI 연구 자동화의 방향을 잘 보여줍니다. 중요한 질문은 "AI가 정답을 냈는가"만이 아니라 "이 증명이 문제에 대해 우리에게 새 이해를 줬는가"입니다. OpenAI 글은 Bloom의 판단을 "moderated yes"로 소개합니다. 즉 대답은 예이지만, 그것은 모델의 원시 출력만으로 완결되는 예가 아닙니다. 수학자들이 구조를 읽고, 기존 문헌과 연결하고, 더 단순한 설명으로 바꾸면서 새 이해가 생깁니다.

이 지점은 AI 개발 생태계에서도 중요합니다. 지금 많은 에이전트 데모는 "작동했다"는 스크린샷을 보여줍니다. 그러나 고난도 업무에서 중요한 것은 작동 여부가 아니라 왜 작동했는지, 어디까지 일반화되는지, 누가 검토했는지, 실패했을 때 어떤 경계가 있는지입니다. 수학은 이런 요구를 가장 극단적으로 드러내는 분야입니다. 증명은 설득력이 없으면 아무리 화려한 출력이라도 지식이 되지 못합니다.

커뮤니티 반응은 열광과 검증 질문 사이

Hacker News에서도 반응은 컸습니다. HN Algolia 기준 이 OpenAI 글은 story 48212493으로 올라왔고, 조회 시점에는 1,296 points와 945 comments를 기록했습니다. 논의는 놀라움만으로 채워지지 않았습니다. 일부는 범용 모델이 특정 수학 문제에서 새로운 구성을 찾았다는 점을 강하게 받아들였고, 일부는 모델 접근성, chain-of-thought 공개 범위, 자동 grading의 신뢰도, 인간 수학자의 검증 역할을 물었습니다.

Reddit의 r/mathematics와 r/MachineLearning에서도 비슷한 긴장이 보였습니다. r/mathematics 쪽에서는 n^(1+O(1/log log n)) 경계에 대한 반례라는 수학적 의미, Will Sawin의 단순화와 강화, AI grading pipeline과 외부 검토의 관계가 논의됐습니다. r/MachineLearning 쪽에서는 이것이 "일반 목적 모델"의 성취인지, 아니면 공개되지 않은 도구와 절차의 성취인지에 더 관심이 모였습니다.

이 반응은 건전합니다. AI 연구 자동화에서 가장 위험한 태도는 두 극단입니다. 하나는 모델이 냈으니 무조건 믿자는 태도입니다. 다른 하나는 모델이 냈으니 원천적으로 의미가 없다는 태도입니다. 이번 사례는 둘 다 피해야 합니다. OpenAI가 내놓은 자료는 수학자 검토를 통과한 강한 신호입니다. 동시에 모델 자체, 탐색 절차, grading pipeline, 재현 가능성은 아직 제한적으로만 공개됐습니다.

AlphaGeometry와 다른 종류의 신호

AI와 수학의 만남은 새롭지 않습니다. Google DeepMind의 AlphaGeometry, AlphaProof 계열은 올림피아드 수준의 기하 문제와 형식적 추론에서 이미 큰 인상을 남겼습니다. Lean 같은 proof assistant 생태계도 수학 증명의 검증 가능성을 크게 바꾸고 있습니다. 그런 흐름 속에서 이번 OpenAI 발표가 차별화되는 지점은 "범용 추론 모델"이라는 주장과, 전용 시스템이 아니라는 설명입니다.

물론 여기에도 조심할 점이 있습니다. 전용 시스템이 아니라는 말은 도구가 전혀 없었다는 뜻과 같지 않습니다. OpenAI의 공개 설명만으로는 내부 모델의 훈련 데이터, test-time compute, candidate filtering, grading pipeline의 세부를 알 수 없습니다. 따라서 이번 결과를 "모든 범용 챗봇이 곧 연구자를 대체한다"로 확장하는 것은 무리입니다. 더 정확한 해석은 frontier reasoning model이 고난도 연구 아이디어를 제안할 수 있는 단계에 들어섰고, 그 결과를 검증하는 인간-기계 workflow가 현실적 경쟁력이 됐다는 것입니다.

이 차이는 제품 전략에도 연결됩니다. 앞으로 AI 연구 도구는 답변창보다 검증 체계에서 차별화될 가능성이 큽니다. 수학이면 formalization, citation trail, proof simplification, reviewer workflow가 중요합니다. 생명과학이면 실험 설계, 데이터 provenance, wet lab 검증이 중요합니다. 소프트웨어라면 테스트, 샌드박스, 코드 리뷰, 공급망 검사가 붙어야 합니다. 모델의 첫 답이 아니라 결과가 통과해야 하는 문턱이 제품의 핵심이 됩니다.

개발자가 얻을 수 있는 실무적 교훈

첫 번째 교훈은 평가기를 최종 판정자로 착각하지 않는 것입니다. OpenAI 사례에서 AI grading pipeline은 중요한 필터였지만, 최종 신뢰는 외부 수학자 검토와 공개 문서에서 나왔습니다. 에이전트 제품에서도 자동 평가기는 후보를 줄이고 우선순위를 매기는 데 강합니다. 그러나 실제 배포, 법적 책임, 보안 조치, 연구 발표는 여전히 domain expert review를 요구합니다.

두 번째 교훈은 artifact가 남아야 한다는 점입니다. 이번 발표가 단순 PR로 끝나지 않은 이유는 proof PDF와 companion remarks가 공개됐기 때문입니다. 독자는 OpenAI 글만 읽지 않고, 정리된 증명과 외부 수학자들의 해설을 볼 수 있습니다. AI 에이전트가 만든 산출물도 마찬가지입니다. 어떤 입력을 받았고, 어떤 판단을 했고, 어떤 근거로 결과를 냈으며, 어떤 사람이 검토했는지를 남기지 않으면 조직 안에서 반복 가능한 능력이 되기 어렵습니다.

세 번째 교훈은 반례 탐색의 가치입니다. OpenAI 글은 모델의 생각 흐름에서 많은 부분이 널리 믿어진 upper bound를 증명하려 하기보다 반례 구성을 시도하는 방향이었다고 소개합니다. 연구와 개발 모두에서 이것은 흥미로운 패턴입니다. AI가 기존 직관을 따라 답을 요약하는 데서 그치지 않고, "이 전제가 틀렸다면 어디서 깨질까"를 체계적으로 탐색할 수 있다면 큰 가치가 생깁니다. 보안, 테스트, 과학, 제품 전략에서 모두 같은 말이 됩니다.

과장하지 않아야 더 큰 사건

이번 발표를 둘러싼 가장 쉬운 문장은 "AI가 수학자를 이겼다"입니다. 그러나 그 문장은 사건을 작게 만듭니다. 실제로 더 큰 변화는 AI가 독립적으로 새로운 수학적 경로를 제안하고, 인간 수학자들이 그것을 검증하고, 더 읽기 쉬운 형태로 바꾸고, 그 과정이 공개 문서로 남았다는 점입니다. 이것은 대체보다 협업에 가깝지만, 단순한 보조 도구보다 훨씬 강한 협업입니다.

앞으로 비슷한 발표가 늘어날수록 질문은 더 까다로워질 것입니다. 모델은 접근 가능한가. 증명은 formal verification까지 갔는가. 외부 리뷰어는 누구인가. 반례나 정리가 기존 문헌과 어떻게 연결되는가. 실패한 후보는 얼마나 있었는가. test-time compute와 grading pipeline은 어떤 역할을 했는가. 이런 질문을 피하면 AI 연구 자동화는 쉽게 마케팅 문구가 됩니다. 반대로 이 질문을 정면으로 다루면, AI는 과학과 공학에서 실제 생산성을 바꾸는 도구가 됩니다.

OpenAI의 unit distance 발표는 그래서 모델 경쟁 이상의 뉴스입니다. 코딩 에이전트와 업무 에이전트가 이미 "실행"의 문제를 열었다면, 이번 사례는 연구 에이전트가 "검증 가능한 지식"의 문제를 열었다는 신호입니다. 80년 난제의 반례가 중요한 이유는 단지 오래된 문제가 흔들렸기 때문이 아닙니다. AI가 만든 결과를 사람이 어떻게 믿을 수 있는 지식으로 바꿀 것인지, 그 운영 모델이 처음으로 매우 선명하게 보였기 때문입니다.