50명 연구진의 실험, Co-Scientist가 바꾼 가설 경쟁

Google Co-Scientist의 Nature 논문과 Gemini for Science 출시는 과학 에이전트의 병목을 가설 검증 루프로 옮깁니다.

AI 요약

무슨 일: Google DeepMind가 Co-Scientist Nature 논문과 Gemini for Science 실험 도구를 공개했습니다.
- Generation, Reflection, Ranking, Evolution 에이전트가 가설을 만들고 토너먼트로 우선순위를 매깁니다.
의미: AI 과학 도구의 초점이 답변 생성에서 가설 생성, 비판, 실험 검증 루프로 이동합니다.
주의점: Google도 연구자 검토와 안전 평가를 전제로 둡니다. 과학자를 대체하는 자동 연구실은 아닙니다.

Google DeepMind가 2026년 5월 19일 Co-Scientist를 다시 꺼냈습니다. 이번에는 단순한 연구 미리보기가 아니라, Nature 논문과 Google DeepMind 블로그, Gemini for Science 실험 도구가 동시에 나왔습니다. 핵심은 한 문장으로 줄일 수 있습니다. Gemini 기반 다중 에이전트가 과학 논문과 데이터베이스를 읽고, 가설을 만들고, 서로 비판하고, 토너먼트로 순위를 매긴 뒤, 연구자가 실험으로 검증할 수 있는 연구 계획을 제안합니다.

흥미로운 점은 Google이 이 시스템을 "AI 과학자"라는 단일 모델 서사로 포장하지 않았다는 데 있습니다. Co-Scientist는 하나의 거대한 답변 모델이라기보다, 연구 회의와 동료 평가를 흉내 내는 에이전트 조직에 가깝습니다. Generation agent는 후보 가설을 만들고, Reflection agent는 가상 동료 심사자처럼 비판하며, Ranking agent는 후보끼리 맞붙이는 아이디어 토너먼트를 운영합니다. Evolution agent는 살아남은 가설을 조합하고 다듬습니다. 마지막에는 Meta-review agent와 supervisor agent가 전체 탐색을 정리합니다.

개발자 관점에서 더 중요한 신호는 이것입니다. 에이전트 경쟁은 이제 "코드를 고친다"에서 "검증 가능한 지식 후보를 만든다"로 확장되고 있습니다. Codex, Claude Code, Copilot coding agent가 저장소와 테스트를 무대로 삼았다면, Co-Scientist는 문헌, 전문 데이터베이스, wet-lab 검증, 안전 분류기를 무대로 삼습니다. 결국 에이전트가 다루는 대상은 다르지만 구조는 비슷합니다. 긴 맥락을 읽고, 작업을 나누고, 중간 결과를 비판하고, 실패를 줄이는 루프를 설계하는 문제입니다.

Gemini for Science 공식 헤더 이미지

Nature 논문으로 바뀐 무게

Google DeepMind의 블로그 발표는 Co-Scientist가 Nature에 실린 최신 연구라고 설명합니다. Nature 논문은 2026년 5월 19일 발행됐고, 제목은 "Accelerating scientific discovery with Co-Scientist"입니다. 논문 초록은 Co-Scientist를 "structured scientific thinking and hypothesis generation"을 위한 Gemini 기반 다중 에이전트 시스템으로 정의합니다. 연구자의 목표와 기존 과학 증거를 조건으로 삼아, 실험 검증 가능한 새로운 연구 가설을 구성한다는 설명입니다.

이 표현은 중요합니다. 일반 챗봇이 "그럴듯한 아이디어"를 내놓는 것과, 실험 검증을 겨냥한 가설을 만드는 것은 전혀 다른 문제입니다. 과학에서 가설은 새롭기만 하면 부족합니다. 기존 증거와 충돌하지 않아야 하고, 측정 가능해야 하며, 실험 비용과 윤리 제약 안에서 테스트할 수 있어야 합니다. Co-Scientist가 문헌과 데이터베이스를 cross-check하고, 후보 가설을 서로 경쟁시키며, 상위 후보를 반복적으로 진화시키는 이유가 여기에 있습니다.

Google이 강조한 실험 사례도 이 방향을 따릅니다. Nature 초록은 Co-Scientist가 acute myeloid leukemia에서 약물 재창출 후보와 병용 치료 가설을 찾았고, 이를 in vitro 실험으로 검증했다고 설명합니다. DeepMind 블로그는 별도 사례로 간 섬유화 치료 후보를 언급합니다. Stanford의 Gary Peltz 연구와 연결된 사례에서는 Co-Scientist가 기존에 놓쳤던 drug-repurposing 후보를 제안했고, 그중 하나가 실험에서 scarring-linked response를 91% 차단했다고 소개했습니다.

이 숫자를 과장해서 읽을 필요는 없습니다. 91%는 특정 실험 반응의 차단 결과이지, 치료제 성공률이나 임상 효능이 아닙니다. 다만 개발자와 AI 팀에게는 충분히 강한 신호입니다. 에이전트가 연구 계획 단계에서 단순 요약을 넘어, 실험으로 이어질 후보를 좁히는 필터 역할을 하기 시작했다는 뜻이기 때문입니다.

Co-Scientist의 구조는 연구팀에 더 가깝습니다

Co-Scientist는 크게 세 단계로 설명할 수 있습니다. 첫째, 아이디어 생성입니다. Generation agent가 초기 연구 방향과 가설을 제안하고, Proximity agent가 후보 가설을 클러스터링해 탐색 공간이 한쪽으로 쏠리지 않도록 돕습니다. 둘째, 아이디어 토론입니다. Reflection agent가 정확성, 품질, 새로움을 비판하고, Ranking agent가 pairwise comparison과 simulated debate로 후보 간 우선순위를 정합니다. 셋째, 아이디어 진화입니다. Evolution agent가 상위 후보를 다듬고 결합하며, Meta-review agent가 토론 결과를 종합합니다.

이 구성이 낯설지 않은 이유는 최근 코딩 에이전트의 설계와 닮았기 때문입니다. 구현 에이전트, 리뷰 에이전트, 테스트 실행기, 플래너, 메모리 관리자, 승인 게이트가 분리되는 흐름과 같은 방향입니다. 차이는 실패 비용입니다. 코딩 에이전트가 잘못된 패치를 만들면 테스트와 리뷰에서 막을 수 있습니다. 과학 에이전트가 잘못된 가설을 강하게 추천하면 연구자의 시간, 실험 재료, 윤리적 판단, 논문 생태계까지 흔들 수 있습니다. 그래서 Co-Scientist의 핵심은 더 똑똑한 생성기보다 더 많은 검증 루프입니다.

단계	Co-Scientist 구성	개발자에게 보이는 패턴
생성	Generation agent가 문헌 기반 후보 가설을 제안합니다.	작업 분해와 초안 생성 에이전트의 역할입니다.
비판	Reflection agent가 가상 동료 평가를 수행합니다.	리뷰 에이전트와 정책 검사기의 조합입니다.
순위화	Ranking agent가 debate와 Elo 토너먼트로 우선순위를 매깁니다.	여러 후보 패치, 계획, 검색 결과를 비교 평가하는 루프입니다.
진화	Evolution agent가 살아남은 가설을 결합하고 개선합니다.	반복 개선, self-refinement, regression feedback에 해당합니다.

Google은 Co-Scientist가 웹 검색과 ChEMBL, UniProt 같은 전문 데이터베이스를 사용할 수 있다고 밝혔습니다. 일부 연구 협업에서는 AlphaFold 같은 전문 모델도 도구로 테스트하고 있습니다. 여기서 에이전트의 진짜 의미가 드러납니다. 모델 하나가 모든 지식을 내부 파라미터로 기억하는 대신, 외부 지식원과 전문 도구를 호출하고, 결과를 비교하고, 그 경로를 연구자가 검토할 수 있게 만드는 쪽으로 설계가 이동합니다.

연구 목표와 기존 증거

↓

생성, 근접도, 반영, 순위화, 진화 에이전트

↓

문헌, ChEMBL, UniProt, 전문 모델 도구 검증

↓

연구자가 검토할 가설과 실험 계획

Gemini for Science는 제품 표면입니다

이번 발표가 논문만이었다면 의미는 연구 커뮤니티 안에 머물렀을 수 있습니다. 하지만 Google은 Gemini for Science라는 제품 표면도 같이 열었습니다. Google AI 페이지는 세 가지 실험 도구를 소개합니다. Literature Insights는 학술 문헌을 종합하고, 논문 데이터를 출처 증거에 연결된 테이블로 추출합니다. Hypothesis Generation은 Co-Scientist 기반 다중 에이전트 시스템으로 연구 방향과 테스트 가능한 계획을 제안합니다. Computational Discovery는 최적화 지표에 맞춰 코드 변형을 만들고 평가하는 agentic research engine입니다.

이 조합은 Google이 과학 연구를 하나의 모델 기능이 아니라 워크플로 묶음으로 보고 있음을 보여줍니다. 문헌을 읽는 단계, 가설을 만드는 단계, 코드를 생성해 실험 또는 분석을 돌리는 단계가 분리되어 있습니다. 더 넓게 보면 NotebookLM, AlphaEvolve, Empirical Research Assistance, Google Antigravity의 Science Skills가 같은 표면으로 묶입니다. Google Blog는 이 도구들이 Co-Scientist, AlphaEvolve, ERA, NotebookLM을 기반으로 과학적 방법의 핵심 단계를 가속하도록 설계됐다고 설명했습니다.

여기서 개발자 독자가 주목할 부분은 "과학용 특화 UI"보다 "에이전트 워크플로의 상품화"입니다. 지금까지 많은 AI 도구는 채팅창 안에서 연구자의 질문에 답했습니다. Gemini for Science는 그보다 더 구조화된 작업 표면을 만듭니다. 문헌 인사이트, 가설 생성, 계산 발견처럼 결과물의 형태가 미리 정해진 도구입니다. 이는 엔터프라이즈 에이전트 제품에서도 반복되는 흐름입니다. 범용 채팅을 열어두는 대신, 특정 업무 단계별로 컨텍스트, 도구, 평가 기준, 승인 지점을 고정합니다.

"AI 과학자"라는 말의 위험

Co-Scientist는 분명 강한 뉴스입니다. 하지만 "AI가 과학자를 대체한다"는 식의 해석은 너무 빠릅니다. Google DeepMind 블로그도 Co-Scientist를 연구 파트너로 설명하며, 과학자와 임상 전문성을 대체하지 않는다고 명시합니다. 사용자는 산출물에 대한 결정을 책임져야 합니다. Nature도 같은 날 사설에서 AI 과학자 논의가 커질수록 인간의 지혜, 공감, 교육, 윤리, 우연성이 과학 진보의 일부라는 점을 상기시켰습니다.

이 경고는 단순한 보수적 반응이 아닙니다. 과학 연구에서 실패는 정보입니다. 실험이 계획과 다르게 흘러가고, 연구자가 이상한 데이터를 보고 질문을 바꾸고, 분야가 다른 동료가 전혀 다른 해석을 내놓는 과정이 진짜 발견의 일부입니다. 에이전트가 이 과정을 압축할 수는 있어도, 무엇을 검증할지, 어떤 위험을 감수할지, 어떤 결과를 신뢰할지 결정하는 일은 여전히 인간 연구자의 책임으로 남습니다.

안전 문제도 큽니다. Google은 Co-Scientist가 생명과학과 물리과학에서 능력을 보였기 때문에 CBRN 영역의 오용 가능성에 대해 독립 평가를 진행했고, 비윤리적 연구 목표와 위험한 정보 노출을 완화하기 위한 custom safety classifiers를 만들었다고 밝혔습니다. 이는 과학 에이전트가 일반 생산성 도구와 다르게 취급되어야 함을 보여줍니다. 더 좋은 가설 생성기는 더 좋은 치료 후보를 찾을 수도 있지만, 동시에 더 위험한 실험 계획을 빠르게 조합할 수도 있습니다.

경쟁은 연구 자동화 스택으로 번집니다

Google만 이 방향을 보는 것은 아닙니다. OpenAI는 생명과학 연구용 GPT-Rosalind를 research preview로 공개했고, Future House는 Robin 같은 과학 연구 에이전트를 내세우고 있습니다. Sakana AI의 AI Scientist류 연구는 논문 생성과 평가 자동화의 가능성과 위험을 동시에 보여줬습니다. 이번 Nature 이슈에서도 Co-Scientist와 함께 또 다른 다중 에이전트 과학 자동화 논문이 언급됐습니다.

다만 Google의 위치는 조금 다릅니다. Google은 AlphaFold, AlphaGenome, AlphaEvolve, NotebookLM, Scholar, Colab, Cloud, Antigravity, Gemini 모델을 한 회사 안에 갖고 있습니다. Gemini for Science는 이 자산을 연구자의 작업 표면으로 묶으려는 시도입니다. 단일 모델 성능 경쟁보다 중요한 것은, 데이터 소스와 도구 호출, 실험 워크플로, 출처 추적, 안전 게이트를 누가 더 신뢰성 있게 연결하느냐입니다.

개발자에게는 익숙한 질문으로 번역됩니다. 에이전트가 좋은 답을 한 번 내는 것보다, 재현 가능한 과정을 남기는 것이 중요합니다. 어떤 문헌을 근거로 삼았는지, 어떤 후보를 버렸는지, 어떤 기준으로 우선순위를 매겼는지, 어떤 안전 필터가 개입했는지를 추적할 수 있어야 합니다. 과학 도구에서는 이 요구가 더 강합니다. 코드 리뷰에서 "왜 이 패치를 선택했는가"를 묻는 것처럼, 연구자는 "왜 이 가설을 실험해야 하는가"를 물어야 합니다.

지금의 병목은 자동화가 아니라 검증입니다

Co-Scientist가 보여주는 가장 실용적인 교훈은 병목의 위치입니다. AI가 아이디어를 많이 내는 것은 이미 어렵지 않습니다. 어려운 것은 그 아이디어가 기존 증거와 충돌하지 않는지, 새롭고 검증 가능한지, 실험 비용을 감당할 가치가 있는지 판단하는 일입니다. Google이 아이디어 토너먼트와 다중 에이전트 비판 구조를 앞세운 이유도 여기에 있습니다.

이 관점은 AI 제품을 만드는 팀에게도 그대로 적용됩니다. 에이전트 기능을 붙일 때 가장 먼저 설계해야 하는 것은 생성 능력이 아니라 평가 루프입니다. 후보를 몇 개 만들 것인지, 누가 반박할 것인지, 어떤 외부 도구로 검증할 것인지, 사람이 어디에서 승인할 것인지가 제품의 신뢰도를 결정합니다. Co-Scientist는 과학이라는 고위험 도메인에서 이 원칙을 극단적으로 보여주는 사례입니다.

물론 아직 공개 접근은 제한적입니다. Google은 Hypothesis Generation을 연구자 대상 실험 도구로 순차 제공한다고 설명했고, 기업용 Co-Scientist와 AlphaEvolve preview도 일부 조직과 진행 중입니다. Nature 논문 역시 공개된 초록과 Google의 사례 설명만으로 모든 성능과 실패 양상을 판단하기 어렵습니다. 실제 연구실에서 얼마나 유용한지, 어느 분야에서 일반화되는지, 비용과 재현성은 어떤지, 안전 분류기가 어느 정도까지 작동하는지는 시간이 더 필요합니다.

그럼에도 이번 발표는 방향을 분명히 보여줍니다. AI 에이전트의 다음 전장은 채팅창이 아니라 검증 가능한 작업 루프입니다. 코딩에서는 테스트와 CI가 그 역할을 하고, 과학에서는 문헌, 데이터베이스, 실험 설계, 동료 평가, 안전 심사가 그 역할을 합니다. Co-Scientist가 중요한 이유는 "AI가 과학을 한다"는 과장 때문이 아니라, AI가 과학자의 질문을 더 많은 후보와 더 엄격한 비판으로 통과시키는 새로운 협업 구조를 제안했기 때문입니다.

지금 필요한 태도는 낙관이나 공포 중 하나를 고르는 것이 아닙니다. Co-Scientist를 하나의 에이전트 설계 사례로 읽어야 합니다. 생성 에이전트만으로는 부족하고, 비판 에이전트와 순위화 루프, 외부 도구 검증, 안전 게이트, 인간 승인 지점이 함께 있어야 합니다. 과학에서든 소프트웨어 개발에서든, 에이전트가 더 많은 일을 맡을수록 제품의 핵심은 "무엇을 만들 수 있는가"보다 "무엇을 믿고 다음 단계로 넘길 수 있는가"로 이동합니다.