Karpathy의 선언: "인간이 AI 연구의 병목이다"

Andrej Karpathy가 630줄 Python으로 하룻밤에 100개 ML 실험을 자동 실행하는 Autoresearch를 공개했습니다. 20년 경험으로도 놓친 최적화를 AI가 찾아냈고, Shopify CEO는 19% 성능 향상을 보고했습니다.

Andrej Karpathy가 3월 8일, 630줄짜리 Python 스크립트 하나를 GitHub에 올렸습니다. 이름은 Autoresearch . 단일 GPU에서 AI 에이전트가 밤새 ML 실험을 자율적으로 설계하고, 실행하고, 분석합니다. 하룻밤에 약 100개의 실험을 완료합니다. Karpathy 본인은 2일간 700개 실험을 돌려 11% 학습 속도 향상을 달성했습니다. 20년 경력의 AI 연구자가 놓친 최적화를, AI 에이전트가 자는 사이에 찾아냈습니다. 그의 결론은 도발적입니다. "인간이 병목이다."

630줄로 연구를 자동화하다

Autoresearch의 구조는 놀라울 정도로 단순합니다.

인간은 program.md라는 마크다운 파일에 고수준 지시를 작성합니다. "학습 속도를 최적화해라", "메모리 사용량을 줄여라" 같은 방향만 제시합니다. AI 에이전트(Claude 또는 Codex)가 이 지시를 읽고 train.py를 자율적으로 수정합니다. 수정된 코드로 5분간 학습을 실행하고, 결과 메트릭이 개선되었는지 확인합니다. 개선이면 유지, 아니면 폐기. 그리고 다시 반복합니다.

Autoresearch Loop

인간 (1회만)

program.md에 방향 설정

↓

AI 에이전트 자율 루프 🔄

train.py 수정→

5분 학습→

메트릭 평가→

유지/폐기

⏱️ ~12실험/시간🌙 ~100실험/하룻밤

↓

인간 (아침)

100개 실험 결과 해석

이것이 전부입니다. PyTorch와 소수의 패키지 외에 외부 의존성이 없습니다. 분산 학습도, 복잡한 설정 파일도, 특별한 인프라도 필요 없습니다. 하나의 GPU, 하나의 파일, 하나의 메트릭. 시간당 약 12개의 실험이 실행되며, 밤새 80-100개의 실험이 완료됩니다.

이 단순함이 핵심입니다. Autoresearch는 복잡한 MLOps 파이프라인이 아니라, ML 연구의 가장 기본적인 루프 — "변경하고, 실행하고, 측정하고, 반복" — 를 AI 에이전트에게 위임하는 것입니다.

"루프에서 자신을 제거하라"

Karpathy의 메시지는 Autoresearch의 코드보다 더 도발적입니다.

도구를 최대한 활용하려면, 루프에서 자신을 제거해야 합니다. 다음 프롬프트를 입력하기 위해 거기 있을 수 없습니다.

이 말의 의미를 풀어보겠습니다. 전통적인 ML 연구에서 연구자는 실험의 모든 단계에 개입합니다. 가설을 세우고, 코드를 수정하고, 실험을 실행하고, 결과를 분석하고, 다음 실험을 결정합니다. 이 과정에서 연구자의 시간이 병목이 됩니다. 하루에 실행할 수 있는 실험 수가 연구자의 가용 시간에 제한되기 때문입니다.

Karpathy가 Autoresearch로 보여준 것은 이것입니다. 하이퍼파라미터 튜닝, 아키텍처 변형, 학습률 스케줄 실험 같은 "명확한 메트릭이 있는 반복적 실험"에서는, 인간이 루프에 있는 것이 오히려 속도를 늦춥니다. AI 에이전트는 밤새 100개를 시도하는데, 인간은 하루에 기껏 5-10개를 시도합니다.

이것은 AI 연구만의 이야기가 아닙니다. 측정 가능한 메트릭이 있는 모든 최적화 문제에 동일한 논리가 적용됩니다. Fortune은 이를 "Karpathy Loop"라고 명명했습니다. 인간이 프레임을 설정하고, AI가 밤새 반복하고, 아침에 결과를 확인하는 패턴입니다.

Shopify CEO의 검증 — 19% 향상

Autoresearch가 단순한 실험 도구를 넘어선 순간은 Shopify CEO Tobias Lütke의 보고였습니다.

Lütke는 Autoresearch 프레임워크를 Shopify 내부 프로젝트에 적용했습니다. 37개의 야간 실험을 실행한 결과, 검증 점수가 19% 향상 되었습니다. 더 놀라운 것은 이것입니다. AI 에이전트가 최적화한 작은 모델이, 수동으로 설정한 큰 모델의 성능을 능가했습니다.

이 결과의 의미는 심층적입니다. "더 큰 모델이 더 좋다"는 스케일링 법칙의 전제가, 최적화의 깊이에 따라 뒤집힐 수 있다는 것입니다. 인간 연구자가 "충분히 좋다"고 판단하고 넘어간 설정에서, AI 에이전트가 100번의 반복을 통해 인간이 발견하지 못한 최적점을 찾아냈습니다.

LangChain 팀도 Autoresearch를 자사 에이전트 프레임워크에 적응시켰습니다. 이 패턴이 특정 연구 그룹의 내부 도구가 아니라, 범용적으로 적용 가능한 방법론이라는 신호입니다.

과학적 방법의 자동화

Before — 전통적 연구

👤가설 설정

👤코드 수정

👤실험 실행

👤결과 분석

👤다음 실험 결정

모든 단계에 인간 개입 → 하루 5-10개

After — Autoresearch

👤방향 설정 (program.md)

🤖코드 수정

🤖실험 실행

🤖결과 평가 + 반복

👤결과 해석

인간 2단계 + AI 3단계 → 하룻밤 100개

Autoresearch가 자동화하는 것은 단순한 하이퍼파라미터 서치가 아닙니다. 과학적 방법의 핵심 루프 — 가설 → 실험 → 관찰 → 수정 → 반복 — 를 자동화하는 것입니다.

물론 중요한 한계가 있습니다. Karpathy 자신이 명확히 밝혔듯이, 이 접근법은 스칼라 메트릭으로 측정 가능한 영역에서만 작동합니다. "학습 손실을 줄여라", "추론 속도를 높여라"처럼 숫자로 평가할 수 있는 문제에서만 유효합니다. AI 정렬(alignment), 해석 가능성(interpretability), 안전성 같은 영역은 여전히 인간 연구자의 판단이 필요합니다.

하지만 이 한계가 Autoresearch의 의미를 축소하지는 않습니다. ML 연구의 상당 부분이 측정 가능한 메트릭에 기반한 반복적 최적화입니다. 하이퍼파라미터 튜닝, 어블레이션 연구(ablation study), 아키텍처 서치가 여기에 해당합니다. 이 영역들이 자동화되면, 연구자의 시간은 메트릭으로 측정할 수 없는 더 어려운 문제에 집중될 수 있습니다.

연구자의 역할이 "실험자(experimenter)"에서 "실험 설계자(experimental designer)"로 전환됩니다. 개별 실험을 하나씩 실행하는 것이 아니라, 실험의 프레임워크를 설계하고, 에이전트가 밤새 실행한 100개의 결과를 해석하는 것이 새로운 일과가 됩니다.

커뮨니티의 반응 — 열광과 우려 사이

Autoresearch에 대한 반응은 압도적으로 긍정적이었습니다. GitHub에서 공개 직후 약 3,000 stars를 기록했고, Hacker News에서 다수의 포크와 토론이 이어졌습니다.

열광 진영은 Autoresearch의 "생산 준비(production-ready)" 성격을 높이 평가했습니다. 630줄이라는 최소한의 코드로, 실제 연구에 바로 적용 가능하다는 점이 기존의 복잡한 AutoML 도구들과 차별화됩니다. 마케팅, 건강, 비즈니스 최적화 등 ML 이외의 분야에서도 "Karpathy Loop"를 적용하려는 시도가 빠르게 확산되었습니다. MindStudio는 마케팅 A/B 테스트에 이 패턴을 적용하는 가이드를 발표했습니다.

우려 진영의 핵심 질문은 "자기 개선(self-improvement)"에 대한 것입니다. AI가 AI 학습을 최적화하는 루프가 통제 가능한가? 현재 Autoresearch는 인간이 설정한 메트릭과 학습 환경 내에서만 작동하므로 제어된 범위의 자동화입니다. 하지만 이 패턴이 더 큰 모델, 더 복잡한 목표, 더 긴 시간 범위로 확장되면 어떻게 될지에 대한 질문은 열려 있습니다.

Karpathy 자신의 AI 안전에 대한 견해는 미묘합니다. 그는 인간을 루프에서 제거하라고 주장하면서도, 동시에 메트릭으로 측정할 수 없는 영역은 인간이 담당해야 한다는 경계를 명확히 합니다. 이 경계가 Autoresearch의 가장 중요한 설계 결정일 수 있습니다.

이것이 개발자에게 의미하는 바

Autoresearch는 ML 연구자만을 위한 도구가 아닙니다. "Karpathy Loop"의 패턴은 측정 가능한 메트릭이 있는 모든 최적화 문제에 적용될 수 있습니다.

성능 최적화: 웹 앱의 로딩 속도, API의 응답 시간, 데이터베이스 쿼리 효율. 이 모든 것에 명확한 메트릭이 있습니다. AI 에이전트가 설정을 변경하고, 벤치마크를 돌리고, 결과를 비교하는 루프를 자동화할 수 있습니다.

A/B 테스트 자동화: 마케팅 카피, UI 변형, 가격 전략. 전환율이라는 메트릭이 있는 한, Karpathy Loop가 적용 가능합니다.

인프라 튜닝: 클라우드 인스턴스 구성, 캐시 전략, 로드 밸런서 설정. 비용과 성능의 트레이드오프를 에이전트가 밤새 탐색합니다.

핵심은 이것입니다. "밤새 100개를 시도할 수 있다면, 왜 인간이 5개만 시도하는가?" Karpathy가 이 질문을 ML 연구에 던졌지만, 그 답은 소프트웨어 개발의 모든 영역으로 확장됩니다.

연구의 미래 — 실험실에서 잠드는 AI

Karpathy의 Autoresearch가 가리키는 미래는 이렇습니다. 연구자가 아침에 출근하면, 밤새 AI 에이전트가 실행한 100개 실험의 결과가 정리되어 있습니다. 연구자는 결과를 해석하고, 새로운 방향을 설정하고, 다시 퇴근합니다. 에이전트는 다시 밤새 실험을 돌립니다.

이것이 모든 연구를 대체하지는 않습니다. 새로운 이론을 만들고, 근본적인 질문을 던지고, 메트릭으로 측정할 수 없는 가치를 판단하는 것은 여전히 인간의 일입니다. 하지만 "변경하고, 실행하고, 측정하고, 반복"이라는 연구의 가장 노동 집약적인 부분은 AI에게 넘어가고 있습니다.

630줄의 Python. 하룻밤의 GPU 시간. 20년 경력의 연구자가 놓친 최적화. Karpathy는 이것으로 AI 연구의 미래를 미리 보여주었습니다. 인간은 더 이상 실험을 실행하는 사람이 아닙니다. 실험을 설계하는 사람입니다.