Nature에 오른 AI 과학자 2편, 실험실 병목은 사람

Nature가 Co-Scientist와 Robin 논문을 동시에 공개했습니다. 연구 자동화 경쟁은 모델보다 검증 루프와 실험실 병목으로 이동합니다.

AI 요약

무슨 일: Nature가 Google DeepMind Co-Scientist와 FutureHouse Robin 논문을 2026년 5월 19일 함께 공개했습니다.
- 두 시스템 모두 가설 생성, 비판, 순위화, 실험 제안, 데이터 분석을 여러 에이전트로 나눕니다.
의미: AI for Science가 단일 예측 모델에서 연구 워크플로 운영 문제로 이동하고 있습니다.
주의점: 물리 실험과 최종 판단은 여전히 사람이 맡고, 후보 치료는 전임상과 임상 검증이 필요합니다.

Nature가 같은 날 두 편의 AI 과학 에이전트 논문을 내보냈습니다. 하나는 Google DeepMind의 Co-Scientist이고, 다른 하나는 FutureHouse의 Robin입니다. 둘 다 "과학자를 대체하는 AI"라는 쉬운 문장으로 소비되기 쉽지만, 실제로 더 중요한 변화는 다른 곳에 있습니다. 연구가 하나의 답변 생성 문제가 아니라, 가설을 만들고, 반박하고, 실험으로 좁히고, 데이터를 다시 읽는 운영 루프로 재정의되고 있습니다.

개발자에게도 낯선 이야기가 아닙니다. 지난 1년 동안 코딩 에이전트는 단일 프롬프트 응답에서 planner, executor, reviewer, test runner, memory, trace를 가진 작업 시스템으로 바뀌었습니다. 이번 Nature 발표는 그 운영 패턴이 과학 연구로 옮겨간 장면에 가깝습니다. 질문은 "AI가 똑똑한가"에서 "여러 에이전트가 서로 견제하면서 어떤 증거를 남기고, 사람은 어디에서 개입해야 하는가"로 바뀝니다.

Google DeepMind는 Co-Scientist를 "Gemini 기반 멀티에이전트 AI 파트너"로 설명합니다. 공식 발표에 따르면 시스템은 Generation, Proximity, Reflection, Ranking, Evolution, Meta-review agent와 Supervisor agent로 구성됩니다. Generation agent는 문헌과 데이터를 바탕으로 초기 가설을 만들고, Proximity agent는 가설 공간을 군집화해 비슷한 생각만 반복하지 않도록 돕습니다. Reflection agent는 가상의 동료 심사자처럼 정확성, 품질, 새로움을 비판합니다. Ranking agent는 가설을 서로 맞붙이는 토너먼트를 운영하고, Evolution agent는 상위 후보를 합치거나 다듬습니다. Meta-review agent는 토론과 순위화에서 나온 통찰을 모아 최종 제안과 다음 반복을 정리합니다.

이 구조에서 흥미로운 부분은 답변보다 선별입니다. Co-Scientist는 수천 개 연구 방향을 탐색할 수 있고, DeepMind는 대부분의 계산을 가설 검증에 쓴다고 설명합니다. 단순히 그럴듯한 가설을 많이 뽑는 것이 아니라 문헌, 데이터베이스, 전문 도구와 대조해 논리와 근거를 다시 확인하는 데 비용을 쓰는 셈입니다. 현재 시스템은 웹 검색, ChEMBL, UniProt 같은 전문 데이터베이스를 이용하며 일부 협업에서는 AlphaFold 같은 특화 모델도 도구로 시험하고 있습니다.

역할	Co-Scientist 안의 기능	개발 에이전트로 치면
Generation	문헌과 데이터에서 초기 가설 생성	해결 후보를 여럿 만드는 planner
Reflection	정확성, 품질, 새로움을 비판	코드 리뷰와 테스트 실패 해석
Ranking	pairwise debate와 Elo식 토너먼트로 후보 순위화	여러 패치 후보를 평가하는 judge
Evolution	상위 가설을 결합하고 반복 개선	좋은 접근을 합쳐 재시도하는 repair loop

DeepMind가 강조한 결과도 숫자로 보면 자극적입니다. 공식 발표는 Co-Scientist가 Stanford Gary Peltz 연구팀의 간 섬유화 치료 후보 탐색에서 기존에 덜 주목받던 약물 재창출 후보를 제시했고, 그중 하나가 실험에서 scarring-linked response를 91% 차단했다고 소개합니다. 또 다른 사례에서는 ALS 연구, 세포 노화, 대사성 간 질환, 감염병 단백질 표적 찾기, Calico의 노화 연구 등을 언급합니다. 다만 이 숫자는 "약물이 치료제로 입증됐다"가 아닙니다. 실험실 안의 특정 반응에서 후보가 강한 신호를 냈다는 뜻이고, 임상 효능과 안전성은 별도 세계입니다.

Nature 논문 초록은 조금 더 건조합니다. Co-Scientist는 약물 재창출, 신규 표적 발견, 항생제 내성 메커니즘 설명이라는 세 가지 바이오메디컬 응용에서 검증됐고, 급성 골수성 백혈병 후보와 조합 요법을 in vitro 실험으로 검증했다고 설명합니다. 논문은 아직 편집 전 조기 공개본이라는 Nature 고지도 붙어 있습니다. 그러므로 이번 사건의 의미는 "AI가 과학 문제를 끝냈다"가 아니라, 과학 연구의 후보 탐색 단계에서 멀티에이전트가 실제 실험으로 이어지는 신호를 만들기 시작했다는 데 있습니다.

FutureHouse의 Robin은 더 공격적인 표현을 씁니다. Nature 논문 초록에 따르면 Robin은 실험 생물학에서 가설 생성과 데이터 분석을 자동화하는 멀티에이전트 시스템입니다. 문헌 검색 에이전트와 데이터 분석 에이전트를 묶어 가설을 만들고, 실험을 제안하고, 실험 결과를 해석하고, 업데이트된 가설을 다시 생성합니다. 적용 대상은 건성 나이관련 황반변성(dAMD)입니다. Robin은 retinal pigment epithelium phagocytosis를 높이는 접근을 치료 전략으로 제안했고, ripasudil과 KL001의 in vitro 효능을 확인했다고 보고했습니다. ripasudil은 녹내장에 쓰이는 ROCK inhibitor이며, 논문은 이 약물이 dAMD 치료용으로는 이전에 제안되지 않았다고 설명합니다.

FutureHouse Robin 공식 발표 이미지

여기서 Robin의 강한 주장과 약한 고리를 동시에 봐야 합니다. 논문 초록은 본문 주요 가설, 실험 방향, 데이터 분석, 데이터 그림이 Robin이 만든 것이라고 말합니다. 반면 실제 실험은 사람이 수행했습니다. 또한 dAMD 후보 치료가 곧바로 환자 치료로 이어지는 것도 아닙니다. Nature Asia 보도자료 역시 두 시스템이 연구자를 대체하기보다 보조하도록 설계됐고, 치료 후보에는 전임상과 임상 시험이 필요하다고 선을 그었습니다. 과학 자동화의 현주소는 "닫힌 루프"가 아니라 "사람이 실험실 문을 열고 닫는 반자동 루프"에 가깝습니다.

2편

Nature가 같은 날 공개한 AI 과학 에이전트 논문

91%

Co-Scientist 사례에서 언급된 scarring-linked response 차단

2.5개월

FutureHouse가 Robin 구축부터 논문 제출까지 걸렸다고 밝힌 기간

두 시스템의 차이는 제품 전략에서도 보입니다. Google은 Co-Scientist를 Gemini for Science의 Hypothesis Generation 도구로 묶고, 개인 연구자에게 몇 주 안에 순차 공개하겠다고 밝혔습니다. Google DeepMind, Google Research, Google Cloud, Google Labs가 함께 만든 실험 도구라는 점도 중요합니다. 이 경로는 연구자가 Google 생태계 안에서 가설 생성 도구를 쓰고, Gemini와 전문 데이터베이스, 향후 Google Cloud enterprise 버전을 연결하는 방향입니다.

FutureHouse는 다른 길을 택합니다. Robin은 기존 FutureHouse 에이전트인 Crow, Falcon, Finch를 오케스트레이션하는 워크플로로 설명됩니다. Crow는 문헌 검색과 요약, Falcon은 후보 평가, Finch는 복잡한 데이터 분석을 맡습니다. FutureHouse는 Robin 코드와 데이터, agent trajectories 공개를 언급했고, GitHub 저장소도 운영합니다. Google이 대형 모델과 클라우드 제품 표면을 앞세운다면, FutureHouse는 과학 에이전트 조합과 연구 궤적 공개를 더 전면에 놓는 모양새입니다.

비교 축	Google DeepMind Co-Scientist	FutureHouse Robin
핵심 초점	가설 생성, 토론, 진화, 연구 제안	가설 생성부터 특정 실험 데이터 분석까지 연결
대표 사례	간 섬유화, ALS, 노화, 감염병, AML 등	건성 나이관련 황반변성 후보 치료 탐색
배포 표면	Gemini for Science Hypothesis Generation	FutureHouse Platform, Robin 코드와 궤적 공개
남은 병목	가설의 실제 실험 검증과 안전한 연구 목표 필터링	사람이 수행하는 실험, 후보 치료의 임상 검증

커뮤니티 반응은 아직 크지 않지만, 관찰 지점은 선명합니다. Reddit r/aiagents의 한 글은 Co-Scientist의 Elo 기반 idea tournament와 Meta-review agent가 planner에 다시 피드백하는 구조를 멀티에이전트 harness 설계 패턴으로 봤습니다. 일반적인 "best of N" 샘플링보다 후보 간 토론과 재귀적 리뷰가 더 실전적인 설계라는 관점입니다. Ars Technica는 두 시스템 모두 생물학 중심 결과를 내놨고, Google은 scientist-in-the-loop 성격이 강하며 FutureHouse는 특정 데이터 분석 단계까지 들어간다고 비교했습니다.

이 반응이 중요한 이유는 과학 에이전트가 연구자만의 문제가 아니기 때문입니다. 에이전트가 실행 환경을 갖고, 외부 도구를 호출하고, 중간 산출물을 평가하고, 다시 계획을 고치는 방식은 소프트웨어 개발, 데이터 분석, 보안, 재무 모델링에도 그대로 들어갑니다. 과학은 그중에서도 실패 비용이 크고 검증 비용이 높은 영역입니다. 여기서 작동하는 패턴은 더 낮은 위험의 지식 작업으로 빠르게 역류할 가능성이 큽니다.

하지만 이번 발표를 낙관론으로만 읽으면 위험합니다. 첫째, 가설 생성은 과학의 일부일 뿐입니다. 좋은 가설은 실험 설계, 재현성, 음성 결과 관리, 통계적 검정, 도메인 편향 제거를 통과해야 합니다. 둘째, 문헌 기반 시스템은 문헌의 품질에 영향을 받습니다. 잘못된 결과, 출판 편향, 데이터 누락이 그대로 들어오면 에이전트는 그럴듯한 연결을 만들 수 있습니다. 셋째, 생명과학 연구에는 CBRN 같은 오용 위험이 존재합니다. DeepMind가 안전 평가와 custom safety classifier를 언급한 이유가 여기에 있습니다.

개발팀 관점에서는 세 가지 교훈이 있습니다. 첫째, 멀티에이전트 시스템의 경쟁력은 역할 이름보다 평가 루프에서 나옵니다. Co-Scientist가 흥미로운 이유는 agent가 많아서가 아니라 생성보다 검증과 순위화에 계산을 많이 쓰는 설계 때문입니다. 둘째, 제품화는 UI보다 흔적 관리가 중요합니다. 연구자가 어떤 문헌에서 어떤 가설이 나왔고, 어떤 반론으로 탈락했는지 추적할 수 없다면 과학 도구로 쓰기 어렵습니다. 셋째, human-in-the-loop는 마케팅 문구가 아니라 시스템 경계입니다. 사람이 언제 승인하고, 어떤 실험을 수행하고, 어떤 결과를 다시 투입하는지 명확해야 합니다.

또 하나의 포인트는 비용 구조입니다. 과학 에이전트는 일반 챗봇처럼 한 번 답하고 끝나는 도구가 아닙니다. 수천 개 후보를 만들고, 서로 비교하고, 문헌과 데이터베이스를 다시 훑고, 실패한 후보를 버리는 데 test-time compute를 씁니다. 이 구조가 제품으로 자리 잡으면 가격표도 토큰당 과금만으로 설명하기 어렵습니다. 연구팀은 "가설 하나를 더 검증하는 비용", "실험 후보를 줄이는 비용", "사람 연구자의 하루를 절약하는 비용"으로 ROI를 계산하게 됩니다. AI 인프라 회사가 과학 도구에 관심을 두는 이유도 여기에 있습니다. 모델 성능만이 아니라 검색, 데이터 권한, 실험 기록, 감사 로그, 안전 필터가 하나의 운영 계층으로 묶일 때 반복 사용이 생깁니다.

이번 사건은 "AI 과학자 탄생"보다 "연구 자동화 control plane의 등장"에 가깝습니다. Google은 Gemini for Science로 연구자의 가설 탐색 인터페이스를 장악하려 하고, FutureHouse는 전문 과학 에이전트 조합으로 더 좁지만 깊은 자동화 루프를 보여주려 합니다. 둘 다 아직 실험실의 손과 임상 검증을 넘지 못합니다. 그래도 Nature가 같은 날 두 논문을 배치했다는 사실은 신호입니다. AI 에이전트 경쟁의 다음 무대는 더 긴 작업, 더 비싼 검증, 더 큰 책임이 걸린 분야로 이동하고 있습니다.

개발자가 지금 봐야 할 것은 모델 이름이 아닙니다. 가설 후보를 어떻게 다양화하는지, 반박 agent가 어떤 근거를 요구하는지, pairwise ranking이 실패를 줄이는지, agent trajectories가 감사 가능한지, 사람이 개입하는 지점이 제품 안에서 명확한지입니다. 과학 연구는 이 조건을 가장 혹독하게 드러내는 시험장입니다. 실험실 병목은 아직 사람에게 있지만, 그 병목 앞까지 도달하는 과정은 빠르게 에이전트화되고 있습니다.