80년 Erdős 문제, AI 수학자의 첫 실명표

OpenAI의 단위거리 추측 반례는 AI 연구 자동화의 가능성과 모델명 없는 검증 공백을 동시에 드러냅니다.

AI 요약

무슨 일: OpenAI가 내부 범용 reasoning model이 Erdős의 planar unit distance problem 반례 계열을 찾았다고 발표했습니다.
- 공식 증명은 어떤 δ > 0에 대해 무한히 많은 n에서 ν(n) ≥ n^(1+δ)를 보입니다.
의미: 수학 전용 scaffold가 아니라 general-purpose model이 open problem proof를 냈다는 주장입니다.
검증: proof PDF와 외부 수학자 companion remarks는 공개됐지만, 모델명과 시도 횟수, compute budget은 빠져 있습니다.
- 그래서 이번 사건은 AI 연구 자동화의 성과이면서 동시에 reproducibility 공개 기준의 시험대입니다.
개발자 관점: 코딩 에이전트의 테스트 루프처럼, AI 과학도 verifier, provenance, human review가 제품의 일부가 됩니다.

OpenAI가 2026년 5월 20일 공개한 단위거리 문제 결과는 "AI가 수학 문제를 풀었다"는 익숙한 문장보다 더 날카로운 질문을 던집니다. 여기서 중요한 것은 단순히 모델이 어려운 정리를 맞혔다는 이야기가 아닙니다. 1946년 Paul Erdős가 제기한 평면 단위거리 문제에서 오래 믿어진 near-linear 상한 추측이 깨졌고, OpenAI는 그 반례 계열을 내부 범용 reasoning model이 찾았다고 말합니다. 공식 proof PDF와 외부 수학자들의 companion remarks도 함께 나왔습니다.

이 사건의 표면은 수학 뉴스입니다. 하지만 AI 개발자와 AI 제품 팀에게는 연구 자동화의 운영 뉴스에 가깝습니다. 모델이 낸 결과를 어떻게 채점하고, 누가 검증하고, 어떤 artifact를 공개하고, 어떤 실험 정보는 공개하지 않는가가 모두 쟁점이 됩니다. 코딩 에이전트에서 "패치가 만들어졌다"보다 "테스트와 리뷰를 통과했는가"가 중요해진 것처럼, AI 수학에서도 "proof가 나왔다"와 "연구 과정이 재현 가능한가"는 분리해서 봐야 합니다.

$OpenAI 단위거리 결과 검증 흐름$

80년 된 질문이 왜 중요했나

평면 단위거리 문제는 말로는 매우 단순합니다. 평면 위에 서로 다른 점 n개를 놓을 때, 정확히 거리 1인 점쌍을 최대 몇 개 만들 수 있는가입니다. OpenAI 발표도 이 문제를 "쉽게 말할 수 있지만 풀기 매우 어려운" 조합기하 문제로 설명합니다. 공식 글은 Brass, Moser, Pach의 책이 이를 조합기하에서 가장 잘 알려졌고 설명하기 쉬운 문제 중 하나로 불렀고, Noga Alon이 Erdős가 좋아하던 문제 중 하나로 묘사했다고 전합니다.

문제의 오래된 직관은 정사각 격자였습니다. 많은 점을 격자로 놓으면 거리 1인 이웃이 자연스럽게 생깁니다. Erdős의 1946년 논문은 이 방향에서 n^(1+Ω(1/log log n)) 수준의 construction을 제공했고, 수학자들은 오랫동안 이 계열이 거의 최적일 것이라고 기대했습니다. 즉 ν(n)이 n^(1+O(1/log log n)) 정도를 넘지 못할 것이라는 믿음입니다.

반대로 일반 상한은 더 느슨했습니다. 증명 PDF는 elementary upper bound로 O(n^(3/2))를 설명하고, Spencer-Szemerédi-Trotter 계열의 O(n^(4/3))가 알려진 최고 일반 상한이라고 정리합니다. 상한과 하한 사이에는 큰 틈이 남아 있었지만, near-linear bound 쪽에 무게를 두는 분위기가 강했습니다. 이번 결과는 그 믿음을 직접 깨는 쪽입니다.

OpenAI proof의 main theorem은 어떤 절대상수 δ > 0가 존재해 무한히 많은 n에서 ν(n) ≥ n^(1+δ)가 된다고 말합니다. 이것은 "정사각 격자가 사실상 최적"이라는 기대와 맞지 않습니다. 정확한 최대 성장률을 결정한 것은 아니지만, 오래 기대된 상한 형태가 틀렸다는 점은 분명합니다.

AI가 찾은 우회로는 격자가 아니었습니다

흥미로운 부분은 결과가 나온 경로입니다. OpenAI 발표는 proof가 수학 전용으로 훈련된 시스템, 특정 proof strategy search scaffold, unit distance problem 전용 도구에서 나온 것이 아니라 new general-purpose reasoning model에서 나왔다고 설명합니다. 모델은 Erdős 문제 모음에 대한 평가 중 이 문제에서 proof를 냈고, 그 뒤 AI grading pipeline과 인간 검토를 거쳤다는 흐름입니다.

수학적 아이디어는 정사각 격자의 직접 개선이라기보다 number field와 lattice를 거치는 우회로입니다. 공식 proof PDF는 totally real number fields의 infinite unramified tower, 3-power Galois group, rational primes의 splitting, CM field K=L(i), norm-one elements, Minkowski embedding, product of discs, planar projection을 연결합니다. 짧게 말하면, 고차원 number field 구조에서 많은 "모든 complex embedding에서 절댓값 1인" 원소를 만들고, 이를 평면 점 집합의 단위거리 쌍으로 투영하는 방식입니다.

companion remarks는 이 proof를 인간이 소화하고 단순화하며 일부 일반화한 버전이라고 설명합니다. 거기서 외부 수학자들은 Ellenberg-Venkatesh, Golod-Shafarevich, Hajir-Maire-Ramakrishna 계열 아이디어와의 연결을 짚습니다. 특히 "number fields deserve a closer look"이라는 AI proof의 사고 흐름을 인용하며, enormous degree가 단순한 번거로움이 아니라 counterexample의 원천이 될 수 있다는 점을 강조합니다.

이 대목이 AI 연구 자동화 관점에서 중요합니다. 모델이 단순 계산을 빠르게 반복한 것이 아니라, 기존 믿음을 우회하는 구조적 연결을 제안했다는 주장입니다. 물론 최종 논문은 인간이 정리하고 참조를 붙이고 검토했습니다. 그럼에도 최초 경로가 general-purpose model에서 나왔다는 점은 "AI가 전문가가 생각하지 않은 조합을 제안할 수 있는가"라는 질문에 강한 사례를 제공합니다.

층위	이번 결과가 보여준 것	아직 비어 있는 것
수학 claim	ν(n) ≥ n^(1+δ) 반례 계열과 외부 수학자 확인	정확한 최대 성장률 결정
AI claim	general-purpose model이 proof 경로를 자동 생성	모델명, sampling, attempts, compute budget
운영 claim	AI grading, 내부 검토, 외부 review가 이어진 workflow	full grading pipeline과 실패 사례 공개

proof는 공개됐지만 실험은 아직 비공개입니다

이번 발표를 읽을 때 가장 조심해야 할 지점은 "수학적 검증"과 "ML 실험의 재현성"이 다른 문제라는 점입니다. proof PDF와 companion remarks가 공개됐고, 외부 수학자들이 correctness를 확인했다는 설명은 수학 claim의 신뢰도를 크게 높입니다. 그러나 AI가 그 proof를 어떻게 얻었는지에 대한 실험 정보는 제한적입니다.

proof PDF의 Statement on AI Use는 내부 모델이 AI-written problem statement를 받았고, output이 AI grading pipeline으로 넘어갔으며, 그 pipeline이 높은 확신을 표시한 뒤 내부 인간 연구자와 외부 수학자들이 검토했다고 설명합니다. 또 preliminary AI-assisted verification and rewriting 후 외부 수학자에게 draft가 전달됐고, 그들이 proof correctness를 확인하고 단순화와 강화까지 했다고 적습니다.

하지만 ML 독자가 궁금해할 핵심 정보는 대부분 빠져 있습니다. 모델 이름이 무엇인지, 몇 번 sampling했는지, 같은 문제를 풀기 위해 얼마나 많은 시도를 했는지, compute budget이 어느 정도였는지, hidden system prompt가 있었는지, grading pipeline이 어떤 기준으로 high confidence를 냈는지는 공개되지 않았습니다. r/MachineLearning 토론도 바로 이 점을 짚었습니다. 이 결과를 "frontier models doing genuine autonomous research"로 봐야 하는지, 아니면 큰 search process에서 나온 cherry-picked지만 중요한 sample로 봐야 하는지 판단하려면 더 많은 공개가 필요하다는 반응입니다.

이 유보는 결과를 깎아내리는 이야기가 아닙니다. 오히려 AI 연구 자동화가 진짜로 중요해졌기 때문에 필요한 질문입니다. 코딩 에이전트가 버그를 고쳤다고 할 때도 우리는 patch diff만 보지 않습니다. failing test가 무엇이었는지, 몇 번 실패했는지, agent가 어떤 권한을 가졌는지, 사람 리뷰가 어디서 들어갔는지 봅니다. AI 수학에서도 같은 기준이 필요해지고 있습니다.

"Autonomous"라는 단어의 무게

OpenAI는 이번 결과를 AI가 prominent open problem을 autonomously solved한 첫 사례로 표현합니다. 이 단어는 강합니다. proof가 모델 출력에서 시작됐고, 인간이 이후에 정리와 검증을 했다는 의미에서는 자동 생성의 비중이 큽니다. 동시에 최종 artifact는 명백히 인간 수학자들의 검토와 편집을 거쳤습니다. companion remarks는 human-digested, simplified, generalized version이라고 스스로 설명합니다.

따라서 이 사건은 "AI 혼자 논문을 완성했다"로 읽기보다 "AI가 연구 경로를 제안하고, 검증 가능한 proof 후보를 만들었고, 인간 전문가가 그것을 수학 커뮤니티가 읽을 수 있는 형태로 확정했다"로 읽는 편이 정확합니다. 이것만으로도 충분히 큽니다. 연구 자동화에서 가장 어려운 부분 중 하나는 무작위 아이디어가 아니라 전문가 검증을 통과할 후보를 찾는 것입니다.

OpenAI 발표의 framing도 결국 이 방향입니다. 수학은 추론 능력을 평가하기 좋은 testbed입니다. 문제는 정밀하고, proof는 검사 가능하며, 긴 논증은 중간 어느 한 곳이 무너지면 전체가 무너집니다. 모델이 이런 논증을 유지하고 예상치 못한 분야 연결을 찾을 수 있다면, 생물학, 물리학, 재료과학, 공학, 의학에서도 연구 파트너로 쓰일 가능성이 커집니다.

하지만 여기에도 경계가 있습니다. 수학 proof는 적어도 참/거짓 검증이 상대적으로 명확합니다. 생물학이나 재료과학에서는 실험, 데이터 품질, 측정 오차, 안전성, 비용, 윤리 문제가 함께 들어옵니다. AI가 수학에서 proof 후보를 냈다고 해서 다른 과학 영역에서 곧바로 완전 자동 연구가 가능하다는 뜻은 아닙니다. 대신 "검증 가능한 중간 artifact를 만들고, 인간 전문가가 그 artifact를 판단하는 workflow"의 중요성이 더 커졌다고 보는 편이 현실적입니다.

개발자에게는 verifier의 뉴스입니다

AI 개발자 입장에서 이번 사건은 LLM benchmark보다 verifier architecture의 뉴스에 가깝습니다. 모델은 proof 후보를 만들었습니다. AI grading pipeline은 high confidence를 냈습니다. 내부 연구자와 외부 수학자는 그 결과를 검토했습니다. companion remarks는 proof를 더 읽기 쉽고 일반적인 형태로 정리했습니다. 이 전체 흐름은 하나의 research CI에 가깝습니다.

코딩 에이전트에서도 비슷한 일이 벌어지고 있습니다. agent가 코드를 고쳐도, 테스트가 없으면 믿기 어렵습니다. 테스트가 있어도 coverage가 낮으면 위험합니다. 리뷰어가 없으면 권한 경계나 보안 문제가 남습니다. 그래서 최근 코딩 에이전트 경쟁은 모델 성능뿐 아니라 sandbox, audit log, test harness, policy engine, human approval로 이동하고 있습니다. AI 수학과 AI 과학도 같은 방향으로 갑니다.

이번 발표에서 가장 부족한 것도 바로 그 CI의 로그입니다. 어떤 문제 세트를 넣었는지, 얼마나 자주 이런 성공이 나오는지, 실패한 proof 후보는 얼마나 많았는지, grading pipeline이 false positive를 얼마나 냈는지, 인간 검토에서 어떤 부분이 바뀌었는지 공개되면 연구 자동화 시스템을 더 구체적으로 평가할 수 있습니다. proof 자체가 맞다는 것과 process가 얼마나 일반화 가능한지는 서로 다른 질문입니다.

개발팀이 이 사건에서 가져갈 실무 교훈은 간단합니다. 에이전트가 점점 더 복잡한 지식 작업을 하려면 결과물보다 검증 루프를 먼저 설계해야 합니다. AI가 낸 문서, 코드, 수식, 분석은 각각 다른 verifier를 요구합니다. 테스트가 있는 코드는 자동 검증이 쉽지만, 아키텍처 판단이나 과학 가설은 더 복잡한 human-in-the-loop가 필요합니다. 이번 OpenAI 결과는 모델의 능력만큼이나 검증 workflow의 중요성을 드러냅니다.

수학 커뮤니티의 반응은 왜 갈렸나

커뮤니티 반응은 크게 두 갈래입니다. 하나는 수학적 결과의 무게를 인정하는 반응입니다. r/slatestarcodex 토론에서는 Tim Gowers의 긍정적 평가가 인용되며, 이전 AI-generated proof들과 달리 이번 결과는 진짜 milestone처럼 느껴진다는 반응이 나왔습니다. 특히 "인간이 쓴 논문이었다면 강하게 받아들였을 것"이라는 취지의 평가는 수학적 significance를 보여주는 신호입니다.

다른 하나는 ML 결과로서의 공개성 문제입니다. r/MachineLearning 토론은 proof PDF와 abridged reasoning writeup을 링크하면서, 모델명, sampling setup, attempts, compute budget, hidden prompt, grading pipeline이 없다는 점을 지적했습니다. 이 질문은 단순한 트집이 아닙니다. AI 능력 평가에서는 "한 번 성공했다"와 "반복 가능한 능력이다" 사이의 간극이 큽니다.

두 반응은 충돌한다기보다 서로 다른 층위를 봅니다. 수학자는 proof가 맞는지와 그 proof가 분야에 무엇을 의미하는지를 봅니다. ML 연구자는 그 proof가 어떤 시스템 능력을 증명하는지를 봅니다. AI 제품 개발자는 그 과정을 어떤 workflow로 제품화할 수 있는지를 봅니다. 이번 사건이 흥미로운 이유는 세 층위가 한꺼번에 열렸기 때문입니다.

OpenAI가 얻은 포지션

OpenAI는 이 발표로 AI for science 경쟁에서 강한 장면을 만들었습니다. 최근 AI 연구 자동화는 Google DeepMind의 Co-Scientist, AlphaProof, AlphaGeometry, OpenAI의 GPT-Rosalind, 여러 과학 agent framework로 확장되고 있습니다. 그중 수학은 결과 검증이 상대적으로 명확하고, symbolic rigor와 long-horizon reasoning을 동시에 요구합니다. 여기서 prominent open problem claim을 확보한 것은 브랜드와 연구 포지션 모두에서 큽니다.

다만 이번 발표는 폐쇄형 frontier lab의 전형적인 긴장도 그대로 드러냅니다. 결과는 공개하지만 시스템은 공개하지 않습니다. proof는 검증 가능하지만, discovery process는 제한적으로만 보입니다. 안전과 경쟁상 이유가 있을 수 있지만, 연구 자동화 능력을 과학적으로 평가하려는 사람에게는 아쉬운 지점입니다.

이 긴장은 앞으로 더 커질 가능성이 큽니다. AI가 코드를 고치고, 취약점을 찾고, 수학 proof를 만들고, 과학 가설을 제시할수록 결과 artifact는 공개되지만 model, prompt, toolchain, compute, 실패 로그는 비공개인 사례가 늘어날 수 있습니다. 그러면 사회는 결과를 어떻게 검증하고, credit을 어떻게 배분하고, 재현성을 어디까지 요구할지 새 기준을 만들어야 합니다.

다음에 봐야 할 것

첫째, 수학 커뮤니티의 후속 검토입니다. companion remarks가 이미 외부 수학자들의 검증을 담았지만, 시간이 지나며 더 단순한 proof, 더 강한 bound, 관련 문제 확장이 나올 수 있습니다. AI가 제안한 경로가 새로운 연구 프로그램으로 이어지는지 봐야 합니다.

둘째, OpenAI가 process disclosure를 더 할지입니다. 모델명까지는 공개하지 않더라도, 문제 세트 규모, 시도 횟수 범위, grading pipeline 개요, 실패 사례 비율, human editing의 범위를 더 설명하면 AI research automation claim의 해상도가 올라갑니다.

셋째, proof assistant와의 연결입니다. 현재 발표는 인간 수학자 검토 중심입니다. 앞으로 이런 결과가 Lean 같은 formal verification system과 더 직접적으로 연결되면, AI proof generation의 신뢰 구조가 달라질 수 있습니다. 단순히 자연어 proof를 잘 쓰는 모델보다, formal verifier와 왕복하며 proof object를 만드는 agent가 더 중요해질 가능성이 있습니다.

넷째, 다른 과학 영역으로의 확장입니다. OpenAI는 이번 결과를 biology, physics, materials science, engineering, medicine까지 연결해 설명합니다. 하지만 각 영역은 verifier가 다릅니다. 수학에서는 proof checker나 전문가 검토가 중심이지만, 생명과학에서는 실험 설계와 재현, 데이터 provenance, 안전 평가가 들어갑니다. AI 연구 자동화의 다음 병목은 모델이 아니라 검증 인프라일 가능성이 큽니다.

결론

이번 OpenAI 단위거리 결과는 과장 없이도 큰 사건입니다. 80년 가까이 이어진 Erdős 문제의 오래된 기대를 깨는 반례 계열이 나왔고, 그 출발점이 general-purpose reasoning model이었다는 설명은 AI 수학의 기준점을 바꿉니다. 동시에 이것은 "AI가 수학자를 대체한다"는 단순한 이야기가 아닙니다. 모델이 proof 후보를 만들고, AI grading이 걸러내고, 인간 수학자가 검증하고 정리하는 혼합 workflow가 전면에 등장한 사건입니다.

그래서 개발자에게 남는 질문은 "AI가 생각했는가"보다 실무적입니다. AI가 낸 어려운 결과를 어떻게 검증할 것인가. 어떤 로그와 artifact를 남겨야 재현 가능하다고 말할 수 있는가. 인간 전문가는 어느 단계에서 개입해야 하는가. 그리고 결과는 맞지만 과정은 비공개인 frontier lab 발표를 어떤 기준으로 읽어야 하는가.

OpenAI의 proof는 수학적으로 강한 신호입니다. 하지만 AI 연구 자동화의 제품 조건은 아직 남아 있습니다. 모델명 없는 수학 돌파는 충분히 놀랍습니다. 다음 단계는 그 돌파가 우연한 빛인지, 반복 가능한 연구 엔진의 초기 출력인지 가르는 공개성과 검증 체계입니다. 이번 뉴스가 중요한 이유는 바로 그 경계가 처음으로 매우 구체적인 proof와 함께 우리 앞에 놓였기 때문입니다.