AI가 에르되시 예상을 깼다, 수학 연구의 새 검증 루프

OpenAI 모델의 단위거리 예상 반증은 AI 연구 자동화의 핵심이 답 생성보다 검증 가능한 증명 루프에 있음을 보여줍니다.

AI 요약

무슨 일: OpenAI가 내부 범용 추론 모델이 Erdos 단위거리 예상을 반증했다고 발표했습니다.
- 1946년 문제의 오래된 믿음인 n^(1+o(1)) 상한을 깨는 무한 구성입니다.
핵심: 모델은 이산기하 문제에 대수적 수론 도구를 연결했고, 외부 수학자들이 증명을 검토했습니다.
주의점: 내부 모델명과 전체 사고 과정은 공개되지 않았습니다. 뉴스의 초점은 대체가 아니라 검증 루프입니다.

OpenAI가 2026년 5월 20일 꽤 강한 주장을 내놨습니다. 내부의 범용 추론 모델이 Paul Erdős가 1946년에 제기한 평면 단위거리 문제의 오래된 예상을 반증했다는 발표입니다. 문제 자체는 단순하게 들립니다. 평면 위에 n개의 점을 놓을 때, 정확히 거리 1인 점쌍을 최대 몇 개 만들 수 있을까요. 하지만 이 질문은 거의 80년 동안 조합기하학의 대표 난제로 남아 있었습니다.

OpenAI의 주장은 "모델이 답을 맞혔다"는 수준이 아닙니다. 회사는 모델이 기존에 사실상 최적이라고 믿어졌던 격자 기반 구성보다 더 많은 단위거리 쌍을 만드는 무한한 점 배치 계열을 찾았고, 외부 수학자 그룹이 증명을 확인했으며, 별도의 동반 해설 논문도 공개됐다고 설명했습니다. 공식 글에는 Noga Alon, Tim Gowers, Arul Shankar, Jacob Tsimerman 같은 수학자들의 평가도 함께 실렸습니다. 특히 Gowers는 이 결과를 AI 수학의 이정표로 평가했습니다.

이 소식은 AI 개발자에게도 중요합니다. 이유는 단순히 "AI가 수학을 풀었다"가 아닙니다. 더 흥미로운 지점은 연구 자동화가 어디로 가고 있는지입니다. 모델이 긴 논증을 만들고, 전문가가 검토할 수 있는 형태로 증명을 남기고, 이후 인간 수학자가 해설과 refinement로 의미를 확정하는 구조가 드러났습니다. 코딩 에이전트에서 테스트, 로그, 리뷰가 중요해진 것처럼, 과학과 수학 에이전트에서는 검증 가능한 증거 경로가 제품의 핵심이 됩니다.

OpenAI가 공개한 기존 단위거리 격자 구성 이미지

무엇이 깨졌나

평면 단위거리 문제는 u(n)을 n개의 평면 점에서 만들 수 있는 거리 1 점쌍의 최댓값으로 두고, 이 함수가 얼마나 빨리 커지는지를 묻습니다. 점을 일렬로 놓으면 대략 n-1개의 단위거리 쌍을 만들 수 있습니다. 정사각 격자를 쓰면 약 2n개가 나옵니다. Erdős의 고전적 구성과 그 변형은 이보다 조금 더 많은 수를 만들었고, 오랫동안 사람들은 이런 격자류 구성이 본질적으로 최선에 가깝다고 믿었습니다.

기술적으로는 n^(1+o(1)) 꼴의 상한이 예상됐습니다. 여기서 o(1)은 n이 커질수록 0으로 가는 항입니다. 즉 점쌍 수가 선형보다 아주 조금 빠르게 커질 수는 있어도, 고정된 양의 지수만큼 더 빠르게 커지지는 못할 것이라는 믿음입니다. OpenAI 발표의 핵심은 이 믿음을 깨는 반례입니다. 공식 글은 증명이 무한히 많은 n에 대해 적어도 n^(1+δ)개의 단위거리 쌍을 만드는 구성을 제시한다고 설명합니다. 원래 AI 증명은 명시적 δ 값을 주지 않았지만, Princeton의 Will Sawin이 후속 refinement에서 δ=0.014를 둘 수 있음을 보였다고 OpenAI는 덧붙였습니다.

이 숫자는 일반 독자에게 작아 보일 수 있습니다. 하지만 수학적으로는 질적으로 다른 주장입니다. o(1)은 결국 사라지는 추가 지수이고, 0.014는 작아도 고정된 양수입니다. 기존 예상이 "격자보다 본질적으로 크게 나아질 수 없다"는 쪽이었다면, 이번 결과는 "깊은 수론 구조를 쓰면 격자 직관 밖의 개선이 가능하다"는 쪽으로 방향을 바꿉니다.

1946

Erdos가 단위거리 문제를 제기한 해

2026

OpenAI가 AI 생성 반증을 발표한 해

0.014

Sawin refinement가 제시한 가능한 고정 지수

왜 대수적 수론이 등장했나

OpenAI 글이 흥미로운 이유는 반례의 모양입니다. 단위거리 문제는 초등기하처럼 보입니다. 점을 찍고, 거리를 재고, 점쌍을 세는 문제입니다. 그런데 새 증명의 핵심 재료는 대수적 수론입니다. OpenAI는 Erdős의 원래 하한을 가우스 정수, 즉 a+bi 꼴의 수로 이해할 수 있다고 설명합니다. 가우스 정수는 평면 격자와 자연스럽게 연결됩니다.

새 증명은 이 직관을 더 복잡한 대수적 수체로 확장합니다. 공식 글은 infinite class field towers와 Golod-Shafarevich 이론을 언급합니다. 이들은 대수적 수론에서는 알려진 도구지만, 평면의 단위거리 문제에 이런 방식으로 들어올 것이라고 예상하기는 쉽지 않았습니다. 수학자들의 반응도 바로 이 지점을 강조합니다. 단순히 계산을 많이 해서 반례를 찾은 것이 아니라, 서로 멀어 보이던 분야 사이의 연결을 제안했다는 점입니다.

이 대목은 AI 연구 자동화 논의에서 중요합니다. 많은 사람이 AI의 과학 기여를 문헌 검색, 계산 자동화, 증명 보조 정도로 상상합니다. 이번 사례에서 OpenAI가 강조한 것은 그보다 더 강한 주장입니다. 문제에 특화된 수학 모델이나 proof-search scaffold가 아니라, 범용 추론 모델이 Erdős 문제 모음에서 이 문제를 해결하는 증명 경로를 냈다는 설명입니다. 이 주장이 그대로 받아들여진다면, 모델의 역할은 도구 호출자가 아니라 연구 가설 생성자에 가까워집니다.

물론 여기서도 신중해야 합니다. OpenAI는 내부 모델의 이름, 학습 구성, 전체 chain-of-thought를 공개하지 않았습니다. 공개된 것은 공식 해설, proof PDF, 동반 remarks, 그리고 축약된 사고 과정입니다. 따라서 외부에서 확인할 수 있는 것은 "공개된 증명이 수학적으로 유효한가"와 "OpenAI가 설명한 검증 절차가 어떤 의미를 갖는가"입니다. "모델이 실제로 어떤 과정을 거쳐 발견했는가"는 여전히 제한적으로만 보입니다.

검증 구조가 뉴스의 본체입니다

AI가 수학 문제를 풀었다는 뉴스는 과장되기 쉽습니다. 그래서 이번 발표에서 더 중요한 것은 결과 자체만큼 검증 구조입니다. OpenAI는 proof PDF와 동반 해설 논문을 공개했고, 외부 수학자들이 증명을 검토했다고 밝혔습니다. 공식 글에는 수학자들의 평가가 실렸고, 동반 논문은 원 증명만으로는 보이지 않는 배경과 의미를 설명합니다. Thomas Bloom은 동반 note에서 이 결과가 이산기하를 더 잘 이해하게 해줬는지를 묻고, 절제된 긍정에 가깝게 답합니다.

이 구조는 코딩 에이전트의 좋은 사용법과 닮았습니다. 에이전트가 패치를 만들었다고 끝나지 않습니다. 테스트를 돌리고, diff를 읽고, 로그를 확인하고, 리뷰어가 의도를 검토해야 합니다. 수학에서는 그 대응물이 증명 검토, 동반 해설, 전문가 평가, 후속 refinement입니다. AI가 낸 결과가 가치 있으려면 사람에게 검증 가능한 형태로 남아야 합니다.

범용 추론 모델이 반례 구성과 증명 경로 제안

↓

OpenAI 연구진이 proof PDF와 축약 사고 과정 공개

↓

외부 수학자 검토와 companion remarks 작성

↓

수학 커뮤니티가 의미, 일반화, 한계를 재검토

이 점은 AI 제품을 만드는 팀에도 그대로 적용됩니다. 결과가 강해질수록 "모델이 말했다"는 증거로는 부족합니다. 어떤 문제 정의를 받았는지, 어떤 외부 자료와 도구를 사용했는지, 어떤 후보를 버렸는지, 누가 검증했는지, 어디까지가 모델의 기여이고 어디부터가 인간 연구자의 정리인지가 중요해집니다. OpenAI 발표가 흥미로운 것은 답 생성의 승리라기보다, AI 결과를 공개 지식으로 편입시키기 위한 검증 포맷을 보여줬다는 점입니다.

커뮤니티가 보는 쟁점

반응은 대체로 놀라움과 신중함이 섞여 있습니다. 수학 커뮤니티 쪽에서는 공개된 proof와 companion remarks를 중심으로 구성 자체를 읽으려는 반응이 많았습니다. Reddit의 r/mathematics 토론에서는 Golod-Shafarevich와 class field tower 아이디어가 이산기하 문제에 들어온 점, 원 증명의 역할과 Sawin refinement의 역할, OpenAI가 공개한 축약 사고 과정이 실제 발견 과정을 얼마나 보여주는지 등이 논의됐습니다.

머신러닝 커뮤니티의 질문은 조금 다릅니다. "범용 추론 모델"이라는 표현이 무엇을 뜻하는지, 문제별 search scaffold가 없었다는 설명을 어디까지 검증할 수 있는지, 모델이 훈련 데이터에서 유사한 아이디어를 보았을 가능성은 어떻게 배제되는지, 인간 수학자들의 후속 정리가 결과의 어느 부분을 바꿨는지가 논쟁점입니다. TechCrunch도 과거 AI 수학 주장들이 과장되거나 검증에서 흔들린 사례가 있었음을 상기시키며, 이번에는 수학자들이 실제로 동의한다는 점을 강조했습니다.

이 신중함은 냉소가 아니라 필요한 절차입니다. AI가 만든 과학 결과는 새로운 종류의 provenance 문제를 만듭니다. 논문 저자는 누구인가, 모델의 내부 사고 과정을 어디까지 공개해야 하는가, 사람이 증명을 다듬으면 원 기여는 어떻게 표기해야 하는가, 같은 질문입니다. 코딩 에이전트에서도 비슷한 문제가 이미 있습니다. 에이전트가 만든 패치의 책임은 사용자와 조직에 있습니다. 수학과 과학에서는 그 책임이 저자성, 검증, 공개 기록의 문제로 확대됩니다.

Google DeepMind와의 경쟁도 달라집니다

AI 수학과 과학 연구에서 가장 먼저 떠오르는 경쟁자는 Google DeepMind입니다. DeepMind는 AlphaGeometry, AlphaProof, AlphaEvolve, Co-Scientist 같은 흐름으로 수학, 알고리즘, 과학 가설 생성에 계속 투자해 왔습니다. Google 쪽 접근은 종종 특정 문제 영역에 맞춘 search, formal reasoning, 실험 루프, 도구 결합을 강조합니다. OpenAI는 이번 발표에서 범용 추론 모델이 특화 scaffold 없이 중요한 수학 문제를 해결했다는 점을 전면에 세웠습니다.

이 차이는 앞으로 중요한 경쟁축이 될 수 있습니다. 하나는 전문화된 연구 시스템입니다. 문제 형식과 검증기를 강하게 붙이고, 검색 공간을 체계적으로 탐색합니다. 다른 하나는 범용 추론 모델입니다. 여러 분야의 지식을 연결하고, 사람이 예상하지 못한 경로를 제안하는 능력을 강조합니다. 실제 제품은 둘 중 하나만 택하지 않을 가능성이 큽니다. 범용 모델이 후보를 만들고, 특화 검증기와 인간 전문가가 이를 걸러내는 혼합형이 더 현실적입니다.

개발자 관점에서 보면 이 경쟁은 "더 똑똑한 모델"보다 "더 좋은 연구 런타임" 경쟁입니다. 수학이라면 proof checker, 문헌 그래프, 문제 데이터베이스, 전문가 리뷰 워크플로가 필요합니다. 생명과학이라면 실험 데이터, 안전 필터, wet-lab 검증, 규제 검토가 붙습니다. 소프트웨어라면 테스트, CI, sandbox, 보안 정책, code owner 리뷰가 붙습니다. 결국 AI 에이전트의 성능은 모델 하나가 아니라 모델과 검증 환경의 결합으로 측정됩니다.

"AI가 수학자를 대체한다"는 결론은 너무 짧습니다

이번 결과를 보고 곧바로 "수학자는 끝났다"로 가는 해석은 뉴스를 망칩니다. 공개된 구조는 오히려 반대에 가깝습니다. 모델이 강한 아이디어를 냈고, 인간 수학자들이 그 증명을 읽고, 평가하고, 맥락화하고, 더 명시적인 수치로 다듬었습니다. AI가 의미 있는 발견자가 될 수 있다는 가능성은 커졌지만, 그 발견이 수학 공동체의 지식이 되는 과정에는 여전히 인간의 판단이 깊게 들어갑니다.

수학의 장점은 검증 가능성입니다. 주장이 맞는지 틀리는지, 적어도 원칙적으로는 증명을 따라가며 확인할 수 있습니다. 그래서 수학은 AI 추론 능력을 평가하기 좋은 테스트베드입니다. 하지만 그 검증 가능성 때문에 더 높은 기준도 요구됩니다. 공개 증명이 틀렸다면 뉴스는 바로 무너집니다. 반대로 공개 증명이 전문가 검토를 견디면, AI의 기여를 훨씬 선명하게 논의할 수 있습니다.

이 점에서 이번 발표는 AI 에이전트 전반의 방향을 보여줍니다. 앞으로 강한 에이전트는 더 많은 "초안"을 만들 것입니다. 코드 초안, 증명 초안, 실험 계획, 투자 분석, 법률 문서, 보안 리포트가 쏟아질 수 있습니다. 병목은 생성량이 아니라 검증량입니다. 누가 검토할 것인지, 어떤 기준으로 통과시킬 것인지, 어떤 로그를 남길 것인지, 틀렸을 때 책임을 어떻게 분배할 것인지가 제품과 조직의 경쟁력이 됩니다.

개발자와 AI 팀이 가져갈 점

첫째, 고위험 도메인의 AI 제품은 "정답 UI"보다 "검증 UI"가 중요합니다. OpenAI가 proof와 companion remarks를 함께 내놓은 것처럼, 제품도 결과만 보여주면 부족합니다. 근거, 중간 판단, 반례 후보, 실패한 경로, 검토자 의견을 남겨야 합니다.

둘째, 범용 모델과 특화 도구의 경계가 다시 그어지고 있습니다. 이번 발표는 범용 추론 모델의 힘을 강조하지만, 그 결과가 신뢰를 얻은 이유는 외부 수학자 검토와 공개 증명 때문입니다. 즉 모델의 일반성은 검증 인프라와 결합될 때 실무 가치가 생깁니다.

셋째, AI 연구 자동화는 과학자나 개발자의 역할을 없애기보다 역할의 위치를 바꿉니다. 사람이 모든 후보를 직접 떠올리는 대신, 더 많은 후보를 검토하고, 더 나은 질문을 고르고, 결과의 의미를 판단하는 쪽으로 이동합니다. 이는 쉬워지는 일이 아닙니다. 오히려 좋은 검토자의 가치가 올라갑니다.

마지막으로, 이 뉴스는 AI Safety 관점에서도 중요합니다. 수학 증명은 상대적으로 안전한 형태의 강한 추론 결과입니다. 그러나 같은 능력이 생물학, 사이버보안, 재료과학, 금융 전략으로 옮겨가면 영향은 훨씬 복잡해집니다. OpenAI 공식 글도 인간 판단이 여전히 중요하다고 강조합니다. 강한 모델이 더 창의적인 연구 파트너가 될수록, 공개 방식과 검증 절차, 접근 통제가 함께 발전해야 합니다.

그래서 이번 사건의 가장 정확한 제목은 "AI가 수학자를 이겼다"가 아닙니다. 더 나은 표현은 이것입니다. AI가 에르되시 예상의 반례를 제안했고, 수학자들이 그것을 검증 가능한 지식으로 바꾸는 루프가 작동했습니다. 앞으로 AI 연구 자동화의 경쟁력은 바로 그 루프를 얼마나 넓고 신뢰성 있게 만들 수 있는지에 달려 있습니다.