아이디어 토너먼트, Co-Scientist가 연 연구 자동화 시험

Google DeepMind Co-Scientist는 가설 생성과 검증을 다중 에이전트 토너먼트로 바꾸며 연구 자동화의 새 기준을 묻습니다.

AI 요약

무슨 일: Google DeepMind가 Nature 논문과 함께 Gemini 기반 연구 에이전트 Co-Scientist를 공개했습니다.
- Google Labs의 Hypothesis Generation 실험으로 개인 연구자 접근 신청도 열었습니다.
핵심 구조: 가설을 만들고, 비판하고, 순위를 매기는 다중 에이전트 아이디어 토너먼트가 중심입니다.
의미: AI 연구 도구가 문헌 요약에서 검증 가능한 가설 워크플로로 이동하고 있습니다.
- 다만 Google은 이 시스템을 과학자 대체물이 아니라 사람 검토가 필요한 연구 파트너로 규정합니다.

Google DeepMind가 2026년 5월 19일 공개한 Co-Scientist는 AI 연구 도구의 초점을 조용하지만 분명하게 옮겼습니다. 그동안 연구자를 위한 AI 제품은 논문을 찾고, 요약하고, 표로 정리하고, 코드를 조금 도와주는 쪽에 가까웠습니다. Co-Scientist는 한 단계 더 들어갑니다. 연구자가 목표를 제시하면 시스템이 문헌과 데이터베이스를 바탕으로 가설을 만들고, 다른 에이전트가 그 가설을 비판하고, 또 다른 에이전트가 쌍대 비교와 토너먼트로 순위를 매긴 뒤, 상위 가설을 다시 조합하고 발전시킵니다.

이번 발표가 단순한 제품 티저로만 보이지 않는 이유는 세 가지입니다. 첫째, Google DeepMind는 같은 날 Nature 논문으로 시스템 설계와 검증 사례를 공개했습니다. 둘째, Google은 Co-Scientist를 Google Labs의 Hypothesis Generation 실험으로 개인 연구자에게 순차 공개하겠다고 밝혔습니다. 셋째, 발표문은 생명과학 협력 사례와 안전 평가를 함께 내놓았습니다. AI가 과학을 "한다"는 막연한 구호보다, 어떤 단계까지 자동화하고 어떤 단계는 사람에게 남기는지가 더 중요한 뉴스입니다.

Co-Scientist의 가설 생성과 검증 흐름

연구 자동화의 중심이 문헌 검색에서 가설 경쟁으로 이동합니다

Google DeepMind의 설명에서 Co-Scientist는 하나의 대형 모델이 긴 답변을 쓰는 구조가 아닙니다. 여러 전문 에이전트가 역할을 나눕니다. Generation agent는 연구 문헌과 데이터를 바탕으로 초기 가설과 초점을 제안합니다. Proximity agent는 생성된 가설을 묶고 흩뜨리며 탐색 공간이 한 방향으로만 몰리지 않게 합니다. Reflection agent는 가설의 정확성, 품질, 새로움을 비판하는 가상의 동료 평가자 역할을 맡습니다. Ranking agent는 아이디어 토너먼트를 운영합니다. Evolution agent는 살아남은 가설을 결합하고 개선합니다. Meta-review agent는 논쟁과 순위 결과를 합쳐 최종 연구 제안을 만듭니다. 그 위에는 supervisor agent가 있어 전체 작업을 계획하고 병렬 실행합니다.

이 구조는 AI 에이전트 제품을 만드는 개발자에게 익숙하면서도 불편한 질문을 던집니다. 에이전트를 많이 붙이면 정말 나아지는가. 단순한 역할 분담은 오히려 오류를 증폭할 수 있습니다. Google이 강조하는 지점은 "많은 에이전트" 자체가 아니라 검증과 순위에 계산을 쓰는 방식입니다. 발표문은 시스템 계산의 상당 부분을 가설 확인에 배정한다고 설명합니다. Nature 논문 초록도 비동기 작업 실행 프레임워크, test-time compute scaling, tournament evolution process를 핵심 기여로 적었습니다. 즉 Co-Scientist의 메시지는 "AI가 과학자를 흉내 낸다"가 아니라 "가설 생성 비용이 낮아졌을 때, 검증과 선택을 어떻게 시스템화할 것인가"에 가깝습니다.

단계	담당 에이전트	실무 의미
생성	Generation, Proximity	문헌 기반 후보를 넓게 만들고 탐색 편향을 줄입니다.
토론	Reflection, Ranking	가설을 반박하고 쌍대 비교로 우선순위를 정합니다.
진화	Evolution, Meta-review	상위 가설을 결합해 사람이 검토할 제안으로 압축합니다.
감독	Supervisor	작업을 쪼개고 병렬 실행해 test-time compute를 확장합니다.

Nature 논문이 말하는 검증의 범위

논문 초록은 Co-Scientist가 연구 목표와 기존 과학적 증거를 조건으로 "실험 검증을 위한 새 가설"을 만든다고 설명합니다. 일반 목적 시스템이지만 검증은 세 가지 생의학 응용에 집중됐습니다. 약물 재창출, 새로운 표적 발견, 항균제 내성 메커니즘 설명입니다. 특히 급성 골수성 백혈병에서 약물 재창출 후보와 병용 치료 가설을 찾고, 이를 in vitro 실험으로 검증했다는 점이 핵심 사례로 제시됩니다.

Google DeepMind 발표문은 더 넓은 협력 사례를 나열합니다. Stanford 연구진의 간 섬유화 치료제 탐색에서는 Co-Scientist가 간과됐던 약물 재창출 후보를 제안했고, 그중 하나가 실험에서 흉터화 관련 반응을 91% 차단했다고 설명합니다. MIT와 다른 연구팀 사례에서는 ALS 연구 방향을 정리하고 협업 지점을 찾는 데 쓰였습니다. Abudayyeh-Gootenberg Lab 사례에서는 세포 노화 역전 연구에서 수십 년 문헌을 합성해 유전적 후보를 제안하고, 대규모 screening data 분석 시간을 수개월에서 며칠로 줄였다고 합니다.

이런 숫자는 흥미롭지만, 조심해서 읽어야 합니다. 91% 차단이라는 결과는 특정 실험 반응에 대한 사례이지, 치료제 성공률이나 임상 효과가 아닙니다. "수개월에서 며칠"도 연구실의 특정 분석 병목을 줄였다는 의미이지, 과학 전체가 같은 비율로 빨라진다는 뜻은 아닙니다. 좋은 뉴스 큐레이션의 역할은 바로 이 경계를 표시하는 것입니다. Co-Scientist의 강점은 검증 가능한 후보를 더 빨리 뽑는 데 있습니다. 검증 자체를 사라지게 만들지는 않습니다.

Google Labs로 내려온 이유

Google은 Co-Scientist를 Gemini for Science 흐름 안에 배치했습니다. 같은 발표에서 Google은 Hypothesis Generation, Computational Discovery, Literature Insights라는 세 가지 실험을 설명했습니다. Hypothesis Generation은 Co-Scientist 기반으로 연구 질문을 정의하고, 아이디어 토너먼트로 가설을 만들고 평가합니다. Computational Discovery는 AlphaEvolve와 ERA를 바탕으로 수천 개 코드 변형을 병렬 생성하고 점수화합니다. Literature Insights는 NotebookLM을 기반으로 문헌 검색과 구조화된 비교를 돕습니다.

이 포트폴리오를 보면 Google의 의도가 선명해집니다. 연구자에게 하나의 만능 챗봇을 주는 대신, 과학 워크플로의 병목을 여러 도구로 나누고 있습니다. 문헌 이해, 가설 생성, 계산 실험, 전문 데이터베이스 접근, 구조 생물정보학 같은 흐름을 Gemini와 Google Cloud, Antigravity, NotebookLM, AlphaFold 계열 도구로 엮으려는 전략입니다. 발표문은 Science Skills가 UniProt, AlphaFold Database, AlphaGenome API, InterPro 등 30개 이상 생명과학 데이터베이스와 도구의 인사이트를 통합한다고 설명합니다.

개발자 관점에서는 이 지점이 중요합니다. AI 에이전트의 경쟁력은 모델 하나의 벤치마크 점수만으로 끝나지 않습니다. 검색, 전문 데이터베이스, 평가 함수, 승인 흐름, 로그, 안전 필터, 협업 인터페이스가 한 제품 안에서 맞물려야 합니다. Co-Scientist가 과학 분야 뉴스이면서 동시에 AI 인프라 뉴스인 이유입니다. 연구 자동화는 결국 에이전트 오케스트레이션 제품의 가장 엄격한 시험장이 됩니다. 틀린 답이 블로그 초안에서 끝나지 않고, 실험비와 생물학적 안전 문제로 이어질 수 있기 때문입니다.

에이전트 제품이 배워야 할 것은 "자율성"보다 "반박 가능성"입니다

Co-Scientist의 흥미로운 점은 시스템이 스스로 확신하는 답을 내놓는 데 초점을 맞추지 않는다는 점입니다. 오히려 가설을 반박하고, 비교하고, 순위를 매기고, 상위 후보만 다음 라운드로 넘기는 구조를 앞세웁니다. 이는 일반적인 업무 에이전트에도 적용할 만한 설계 원칙입니다. 에이전트가 문서를 쓰거나 코드를 수정하거나 영업 리드를 분류할 때도 문제는 생성보다 검증입니다. 후보를 여러 개 만들 수 있다면, 다음 병목은 어떤 후보를 폐기할지 결정하는 기준입니다.

과학에서는 이 기준이 더 날카롭습니다. 가설은 그럴듯해야 할 뿐 아니라 기존 문헌과 충돌하지 않아야 하고, 실험 가능해야 하며, 새로운 지식으로 이어질 수 있어야 합니다. Google은 Co-Scientist가 웹 검색과 ChEMBL, UniProt 같은 전문 데이터베이스를 통합한다고 설명합니다. 일부 협력에서는 AlphaFold 같은 전문 모델도 도구로 테스트하고 있습니다. 이것은 RAG를 붙였다는 수준의 이야기가 아닙니다. 가설 생성 시스템이 어떤 데이터베이스를 신뢰하고, 어떤 증거를 클릭 가능한 citation으로 남기고, 어떤 주장을 안전상 차단할지 결정하는 제품 설계 문제입니다.

Nature 뉴스는 같은 날 발표된 다른 다중 에이전트 과학 시스템과 함께 이 흐름을 다뤘습니다. FutureHouse의 Robin 역시 생물학 발견을 위한 에이전트 시스템으로 소개됐습니다. OpenAI는 GPT-Rosalind 같은 생명과학 특화 모델을 연구 프리뷰로 내놓았습니다. Microsoft도 과학 보조 도구 흐름을 실험해 왔습니다. 경쟁 구도는 "누가 더 똑똑한 모델을 갖고 있는가"에서 "누가 더 신뢰할 수 있는 연구 루프를 닫는가"로 이동하고 있습니다.

안전 장치가 발표의 중심에 들어온 이유

Google DeepMind는 Co-Scientist가 100개 이상 기관 연구자와 함께 테스트됐고, 내부 및 외부 안전 평가를 거쳤다고 밝혔습니다. 특히 생명과학과 물리과학 역량이 있는 시스템인 만큼 CBRN, 즉 화학·생물·방사능·핵 영역 오용 평가를 수행했고, 비윤리적 연구 목표를 표시하고 안전하지 않은 정보 노출을 줄이기 위한 custom safety classifier를 만들었다고 설명합니다.

이 부분은 홍보 문구로 넘기기 어렵습니다. 과학 에이전트는 일반 생산성 에이전트보다 위험한 도구 연결을 요구합니다. 논문과 데이터베이스 검색만 하는 시스템이라면 위험이 비교적 제한적일 수 있습니다. 하지만 실험 설계, 약물 후보 제안, 병원성 메커니즘 추론, 생물학적 데이터 해석으로 들어가면 모델의 성능 향상은 곧 오용 가능성의 향상과 붙어 있습니다. 그래서 Co-Scientist의 핵심 제품 요건은 "더 많은 가설"이 아니라 "허용 가능한 가설 공간"입니다.

Google이 발표 말미에 덧붙인 문장도 중요합니다. Co-Scientist는 연구 파트너이지 과학 또는 임상 전문성의 대체물이 아니며, 사용자는 출력에 기반한 결정에 책임을 진다는 설명입니다. 이는 법적 고지이기도 하지만 제품 포지셔닝이기도 합니다. AI가 연구를 자동화한다는 말은 매력적이지만, 현재의 신뢰 모델은 scientist-in-the-loop에 가깝습니다. 사람은 마지막 승인자일 뿐 아니라, 문제 정의와 실험 설계, 결과 해석의 일부로 계속 남아 있습니다.

커뮤니티의 기대와 불신

커뮤니티 반응도 비슷한 긴장을 보입니다. Reddit의 AI 에이전트 관련 토론에서는 다중 에이전트가 연구 방향 탐색을 10배 이상 빠르게 만들 수 있다는 기대가 나왔습니다. 동시에 수학적 이상치나 문헌 환각을 최적화하는 위험을 지적하는 반응도 있었습니다. Hacker News에서 Co-Scientist 단독 대형 스레드는 확인하지 못했지만, 최근 AI 연구 자동화 논의 전반은 "실험 가능한 아이디어를 늘리는 것은 좋지만, 검증 비용과 책임은 누가 지는가"라는 질문으로 모입니다.

이 불신은 건강합니다. 특히 개발자들은 "에이전트가 서로 토론한다"는 설명을 너무 쉽게 받아들이면 안 됩니다. 에이전트 간 토론은 진짜 반증이 아니라 같은 모델 계열의 오류를 다른 말투로 재생산하는 과정일 수 있습니다. Co-Scientist가 흥미로운 이유는 토론 자체보다 토론을 literature grounding, 전문 데이터베이스, 실험 검증, 안전 평가와 묶었다는 데 있습니다. 다중 에이전트라는 형식이 아니라, 반박 가능한 산출물을 남기는 운영 방식이 관찰 포인트입니다.

개발자에게 남는 질문

Co-Scientist는 생명과학 연구자를 위한 도구이지만, AI 제품 개발자에게도 몇 가지 질문을 남깁니다. 첫째, 에이전트 시스템의 성능은 생성 정확도만으로 측정할 수 없습니다. 후보 생성, 반박, 순위화, 근거 표시, 사람 승인, 사후 추적이 모두 평가 대상입니다. 둘째, test-time compute를 어디에 쓸지 결정해야 합니다. 더 긴 답변을 쓰는 데 쓸 수도 있고, 더 많은 후보를 검증하는 데 쓸 수도 있습니다. Co-Scientist는 후자에 무게를 둔 사례입니다.

셋째, 도구 연결은 편의 기능이 아니라 신뢰 구조입니다. Co-Scientist가 ChEMBL, UniProt, AlphaFold 같은 전문 자원을 거론하는 이유는 과학적 주장이 일반 웹 텍스트만으로는 충분하지 않기 때문입니다. 기업 업무 에이전트도 마찬가지입니다. CRM, 코드 저장소, 로그, 회계 시스템, 정책 문서에 연결한다면 각 도구의 권한, 출처, 변경 이력, 감사 로그가 제품의 일부가 됩니다. 넷째, 안전 필터는 마지막에 붙이는 모더레이션 레이어가 아니라 작업 계획 단계부터 들어가야 합니다. 위험한 연구 목표를 초기에 식별하지 못하면, 후속 에이전트가 그 목표를 더 정교하게 만드는 방향으로 계산을 쓰게 됩니다.

아직 증명되지 않은 것

이번 발표가 과학 자동화의 중요한 단계인 것은 맞지만, 아직 넓은 의미의 "AI 과학자"를 증명한 것은 아닙니다. Nature 논문과 Google 발표는 실제 검증 사례를 제시하지만, 분야와 작업은 제한적입니다. 생명과학의 특정 문제에서 잘 작동한 가설 생성 루프가 물리학, 재료과학, 사회과학, 임상 의사결정으로 그대로 옮겨갈지는 별도 문제입니다. 또한 연구자가 시스템이 제안한 가설을 어떻게 거절했는지, 실패한 후보가 얼마나 많았는지, 실험 비용 대비 이득이 얼마나 되는지는 장기적으로 더 많이 공개돼야 합니다.

그래도 방향은 분명합니다. AI 연구 도구는 "논문을 빨리 읽어주는 조수"에서 "가설 후보를 경쟁시키는 작업대"로 이동하고 있습니다. 이 변화는 연구자에게만 영향을 주지 않습니다. AI 에이전트 제품을 만드는 모든 팀에게 검증 가능한 워크플로, 안전한 도구 사용, 근거 표시, 사람 승인 구조가 기본 요구사항이 된다는 신호입니다. Co-Scientist의 진짜 뉴스는 AI가 과학자를 대체한다는 주장이 아닙니다. 과학자들이 검토할 수 있는 가설 생산 라인이 제품 형태로 내려오기 시작했다는 점입니다.

관전 포인트

앞으로 볼 지점은 세 가지입니다. 첫째, Google Labs의 Hypothesis Generation이 실제 연구자에게 얼마나 넓게 열리고, 어떤 분야에서 반복 사용되는지입니다. 둘째, Co-Scientist가 제안한 가설 중 성공과 실패가 어떤 비율로 공개되는지입니다. 성공 사례만 모으면 과학 자동화의 실제 효용을 판단하기 어렵습니다. 셋째, 경쟁사들이 연구 에이전트를 모델 API로만 제공할지, 아니면 Google처럼 문헌, 데이터베이스, 계산 실험, 안전 평가를 묶은 제품 스택으로 제공할지입니다.

개발자 독자에게는 이 세 번째 질문이 가장 실용적입니다. 에이전트 시대의 제품 차별화는 점점 "무엇을 생성할 수 있는가"보다 "생성된 것을 어떻게 검증하고 운영할 수 있는가"로 이동합니다. Co-Scientist는 과학이라는 높은 기준의 영역에서 그 전환을 보여주는 사례입니다. 연구실의 속도를 바꾸려는 시도이지만, 동시에 모든 지식 노동 에이전트가 마주할 설계 문제를 먼저 드러낸 사건이기도 합니다.