Devlery
Blog/AI

Claude Science 베타, 연구실 터미널에 붙은 60개 스킬

Anthropic이 Claude Science 베타를 공개했습니다. 60개 이상 과학 스킬, HPC 접근, 리뷰어 에이전트, BioNeMo 통합을 묶은 연구 워크벤치입니다.

Claude Science 베타, 연구실 터미널에 붙은 60개 스킬
AI 요약
  • 무슨 일: Anthropic이 2026년 6월 30일 과학 연구용 워크벤치 Claude Science 베타를 공개했습니다.
    • 대상은 Claude Pro, Max, Team, Enterprise 사용자이며, macOS·Linux 로컬 환경과 SSH·HPC 로그인 노드를 지원한다고 발표했습니다.
  • 제품 핵심: 60개 이상 선별 스킬과 커넥터, 산출물 이력, 리뷰어 에이전트를 한 연구 환경에 묶습니다.
  • 개발자 의미: 과학 에이전트 경쟁은 답변 품질보다 도구 호출, 계산 자원, 재현 가능한 기록을 어떻게 운영하느냐로 이동합니다.
    • NVIDIA는 BioNeMo Agent Toolkit을 Claude Science 안에서 접근 가능한 자원으로 제공한다고 같은 날 밝혔습니다.
  • 주의점: 베타 공개 단계라 실제 연구 품질과 오류 수정 효과는 독립 재현 사례가 쌓여야 판단할 수 있습니다.

Anthropic이 2026년 6월 30일 Claude Science를 공개했습니다. 공식 발표의 문장은 "과학자를 위한 AI 워크벤치"입니다. 이 표현을 그대로 제품 홍보로 읽으면 새 Claude 앱 하나가 더 나온 정도로 보일 수 있습니다. 하지만 발표 내용을 뜯어보면 초점은 모델 답변보다 연구자가 쓰는 작업 환경입니다. Anthropic은 PubMed, Jupyter, R, 클러스터 터미널, 도메인 패키지, 계산 자원을 오가던 연구 과정을 Claude 안으로 묶겠다고 설명했습니다.

이번 공개가 최근 과학 AI 발표와 다른 지점도 여기에 있습니다. Google의 Gemini for Science는 가설 생성, 계산 발견, 문헌 분석이라는 연구 단계와 Nature 논문 검증을 앞세웠습니다. Claude Science는 논문 성과보다 제품 표면을 먼저 보여 줍니다. 60개 이상 선별 스킬과 커넥터, 감사 가능한 산출물 이력, 인용과 계산을 확인하는 리뷰어 에이전트, 로컬·원격·HPC 작업 위치가 핵심 목록입니다. 과학 에이전트가 연구실에서 실제로 쓰이려면 "좋은 답변"보다 "어디서 어떤 코드를 실행했고 어떤 근거를 남겼는가"가 먼저 문제가 된다는 판단입니다.

챗봇보다 무거운 작업대

Anthropic은 Claude Science가 과학자가 연구의 모든 단계를 한 환경에서 수행하도록 돕는다고 설명합니다. 문헌을 분석하고, 다단계 연구 작업을 실행하고, 상세 산출물을 만들고, 그림과 원고를 반복 수정하는 흐름입니다. 여기서 눈에 띄는 단어는 산출물입니다. 연구자가 받는 결과가 채팅 답변으로 끝나지 않고, 어떤 코드와 데이터와 인용을 거쳐 만들어졌는지 추적 가능한 형태로 남아야 한다는 뜻입니다.

공식 발표는 Claude Science를 Jupyter Notebook에 비유합니다. 하지만 단순히 노트북형 문서 편집기를 뜻하는 비유는 아닙니다. Anthropic은 macOS와 Linux 로컬 환경, SSH로 붙는 원격 머신, HPC 로그인 노드에서 Claude Science에 접근할 수 있다고 밝혔습니다. 과학 연구의 계산은 종종 노트북 한 대에서 끝나지 않습니다. 유전체 분석, 단백질 구조 예측, 단일세포 데이터 전처리, 대규모 시뮬레이션은 파일 형식, 패키지 버전, 클러스터 정책, GPU 자원과 엮입니다.

이 실행 위치가 제품 설명에 들어간 것은 개발자에게 중요한 신호입니다. 과학 AI 제품이 단순 웹 챗으로 남으면 연구자의 실제 도구 사용을 대체하기 어렵습니다. 반대로 워크벤치가 연구자의 셸, 노트북, 클러스터, 도메인 패키지와 연결되면 에이전트의 권한·재현성·비용 문제가 바로 제품 문제가 됩니다. Claude Science는 그 경계에 들어가겠다는 발표입니다.

Claude Science가 단백질, 구조, 분자 산출물을 표시하는 공식 예시

공식 이미지 설명도 제품 방향을 잘 보여 줍니다. Anthropic은 Claude Science가 단백질, 구조, 분자를 직접 표시하고, 모든 결과를 코드까지 거슬러 올라가 재현할 수 있게 한다고 설명했습니다. 과학 연구에서 시각화는 장식이 아닙니다. 구조 생물학이나 화학정보학에서 그림은 모델의 주장을 검토하는 도구입니다. 따라서 에이전트가 그림을 만든다면, 그 그림을 만든 파일·파라미터·계산 경로가 함께 남아야 합니다.

60개 스킬은 제품의 중심이다

Claude Science 사용자는 범용 조정 에이전트와 상호작용합니다. Anthropic은 이 에이전트가 유전체학, 단일세포 분석, 단백질체학, 구조생물학, 화학정보학 등을 위해 미리 구성된 60개 이상 선별 스킬과 커넥터에 접근한다고 밝혔습니다. 에이전트는 다른 에이전트를 띄울 수 있고, 사용자가 만든 전문 에이전트와도 협업할 수 있습니다.

이 설명은 최근 코딩 에이전트 시장과 닮았습니다. 성공한 에이전트 제품은 모델 하나로 끝나지 않습니다. 저장소를 읽는 권한, 테스트 실행 위치, 리뷰 단위, 승인 정책, 실패 로그, 외부 도구 호출을 함께 설계합니다. 과학 연구에서도 같은 구조가 필요합니다. 유전자 데이터베이스를 조회하는 방법, 분자 파일을 읽는 패키지, 클러스터 작업을 던지는 명령, 논문 인용을 확인하는 절차가 모두 에이전트의 작업 표면이 됩니다.

60개 이상이라는 수치는 제품이 어디에 무게를 두는지 보여 줍니다. Anthropic은 Claude Science를 범용 모델의 과학 지식 테스트로 포장하지 않았습니다. 오히려 연구자가 자주 쓰는 도구와 패키지를 연결해, 에이전트가 적절한 도구를 고르고 입력을 만들고 결과를 산출물로 묶는 쪽을 강조합니다. 개발팀이 자체 도메인 에이전트를 만들 때도 같은 질문을 피할 수 없습니다. 모델이 답을 잘하느냐보다, 어떤 도구를 안전하게 호출하고 결과를 어떻게 검토 가능한 형태로 남길지가 구현의 중심이 됩니다.

리뷰어 에이전트도 같은 맥락입니다. Anthropic은 리뷰어 에이전트가 인용과 계산을 확인하고 오류를 표시·수정한다고 설명했습니다. 과학자는 그럴듯한 요약보다 오류를 찾을 수 있는 흔적을 요구합니다. 인용이 실제 논문 내용을 지탱하는지, 계산식이 데이터와 맞는지, 그래프가 같은 입력에서 다시 만들어지는지 확인해야 합니다. Claude Science가 리뷰어 에이전트를 제품 기능으로 내세운 이유는 과학 작업에서 검증이 부가 기능이 아니라 작업 자체의 일부이기 때문입니다.

BioNeMo 통합과 계산 병목

같은 날 NVIDIA는 BioNeMo Agent Toolkit 통합을 발표했습니다. NVIDIA 블로그는 이 툴킷이 Claude Science 안에서 접근 가능한 자원으로 들어간다고 설명합니다. NVIDIA 설명에 따르면 이 툴킷은 Claude Science가 적절한 도구를 선택하고, 유효한 입력을 준비하고, 작업을 실행할 수 있도록 NVIDIA 가속 기능을 호출 가능한 스킬로 패키징합니다. NIM 마이크로서비스, 라이브러리, 모델, 도메인별 도구가 연구 환경 안으로 들어오는 구조입니다.

NVIDIA BioNeMo Agent Toolkit과 Claude Science 통합 공식 이미지

NVIDIA는 생명과학 분야가 계산 규모의 시대로 들어갔다고 설명합니다. 이 문장은 흔한 산업 문구처럼 들릴 수 있지만, 뒤에 붙은 수치가 중요합니다. NVIDIA 블로그는 상위 20개 제약사 중 18곳이 BioNeMo를 사용한다고 밝혔습니다. 또 RAPIDS-singlecell은 130만 세포 전처리·클러스터링 작업을 52분에서 25초로 줄인 사례를, nvMolKit은 유사도 검색과 conformer 생성 같은 화학정보학 작업을 최대 3,000배 가속하는 사례를 제시했습니다.

이 수치들은 Claude Science의 위치를 더 분명하게 만듭니다. 과학 에이전트가 실제 연구에 들어가면 추론 비용만 문제가 아닙니다. 에이전트가 선택한 도구가 얼마나 빨리 실행되는지, GPU 자원을 어디서 쓰는지, 파일이 어떤 경로로 이동하는지, 결과가 다시 계산될 수 있는지가 함께 중요해집니다. 모델 호출은 연구 루프의 한 단계일 뿐입니다. 계산 도구가 느리면 에이전트는 긴 대기 시간 속에서 판단을 반복해야 하고, 계산 결과가 재현되지 않으면 좋은 문장도 연구 결과가 되지 못합니다.

BioNeMo 통합은 과학 에이전트가 도메인별 실행 엔진을 필요로 한다는 사실을 보여 줍니다. 예를 들어 연구자가 유전체 서열을 분석하거나 단백질 구조를 예측하거나 잠재 결합 물질을 설계해 달라고 요청하면, Claude Science는 자연어 의도를 읽는 데서 끝나지 않습니다. 적절한 전문 워크플로를 고르고, 입력을 맞추고, 가속 모델이나 마이크로서비스를 호출하고, 결과를 연구자가 검토할 수 있는 산출물로 돌려줘야 합니다.

Google과는 다른 과학 AI 표면

최근 Google은 Gemini for Science로 과학 AI 경쟁을 크게 키웠습니다. 그 발표는 Co-Scientist, ERA, Literature Insights, Science Skills를 묶고 Nature 논문으로 검증 신호를 세웠습니다. Google의 강점은 AlphaFold, AlphaGenome, NotebookLM, Antigravity, Google Research 논문 자산입니다. 연구 단계별 실험과 공개 논문을 통해 "AI가 과학 방법론 일부를 어떻게 자동화할 수 있는가"를 보여 줬습니다.

Claude Science는 같은 경쟁에 다른 표면으로 들어옵니다. 발표 안에는 Nature 논문 수치보다 연구 환경의 통합 방식이 더 많이 보입니다. 로컬 작업 환경, SSH, HPC 로그인 노드, 산출물 이력, 리뷰어 에이전트, BioNeMo 같은 파트너 도구가 전면에 나옵니다. 이는 Anthropic이 과학 AI를 "새 과학 모델"보다 "연구자가 쓰는 에이전트 작업대"로 배치하고 있다는 뜻입니다.

두 접근은 서로 배타적이지 않습니다. 실제 연구실에서는 가설 생성, 문헌 분석, 계산 실험, 도구 실행, 원고 작성, 결과 검증이 분리되지 않습니다. Google은 연구 단계별 지능과 논문 검증을 강조했고, Anthropic은 그 단계들이 놓일 운영 환경을 강조했습니다. 개발자 관점에서는 후자가 더 가까운 문제일 수 있습니다. 사내 도메인 에이전트를 만들 때 가장 먼저 막히는 곳은 모델의 박사급 지식이 아니라 데이터베이스 권한, 파일 형식, 실행 환경, 로그, 검토 흐름입니다.

이 경쟁은 과학자 대체 논쟁으로 단순화하기 어렵습니다. Claude Science 발표도 과학자의 판단을 제거한다고 말하지 않습니다. 오히려 반복적이고 파편화된 도구 작업을 한 환경으로 모으고, 연구자가 산출물을 검토하고 수정할 수 있게 한다는 설명입니다. 과학에서 최종 책임은 여전히 연구자와 기관에 남습니다. 제품이 유용해지려면 에이전트가 만든 후보를 연구자가 반박하고 추적할 수 있어야 합니다.

재현성은 기능이 아니라 계약이다

과학 AI 제품에서 재현성은 마케팅 문구가 아닙니다. 같은 데이터와 같은 코드로 같은 그림이 다시 나오는지, 인용한 논문이 실제 주장과 맞는지, 계산 과정의 중간 산출물이 보존되는지 확인해야 합니다. Anthropic이 "감사 가능한 이력"과 "리뷰어 에이전트"를 동시에 강조한 것은 이 지점을 알고 있다는 뜻입니다.

다만 발표 문구만으로 실제 품질을 판단할 수는 없습니다. 리뷰어 에이전트가 인용과 계산 오류를 얼마나 잘 찾는지, 도메인별 스킬이 어떤 실패를 만들 수 있는지, HPC 환경에서 권한과 데이터 이동이 어떻게 기록되는지, 기관 내부 보안 정책과 어떻게 맞물리는지는 베타 사용 사례가 쌓여야 보입니다. 특히 생명과학 데이터에는 개인정보, 지식재산, 실험실별 비공개 프로토콜이 함께 들어갈 수 있습니다. 감사 이력이 있어도 데이터 경계가 흐리면 제품 도입은 어려워집니다.

개발팀이 볼 실무 신호는 네 가지입니다. 첫째, 에이전트 스킬은 프롬프트 묶음이 아니라 도구 호출 계약이 됩니다. 어떤 입력을 받고 어떤 실행을 하며 어떤 출력을 남기는지 명시해야 합니다. 둘째, 실행 환경은 제품의 일부입니다. 로컬·SSH·HPC를 지원한다고 말하는 순간 파일 접근, 자격 증명, 작업 큐, 실패 복구가 함께 따라옵니다. 셋째, 리뷰어 에이전트는 별도 모델 호출이 아니라 품질 보증 프로세스입니다. 넷째, 파트너 도구 통합은 비용과 속도를 바꾸지만 의존성도 늘립니다.

Claude Science가 당장 모든 과학 연구를 자동화한다고 보는 것은 과장입니다. 베타 공개 대상은 Claude 유료 사용자군이고, Anthropic은 사용자 피드백을 받으며 플랫폼을 다듬겠다고 했습니다. 공식 발표 직후 독립 재현 사례나 장기간 운영 보고서도 아직 부족합니다. 현재 확인 가능한 사실은 Anthropic이 과학 AI를 연구실 워크플로 깊숙한 곳으로 밀어 넣기 시작했다는 점입니다.

그래도 이번 발표가 던지는 질문은 선명합니다. 과학 에이전트가 연구자의 실제 도구 환경에 들어갈 때, 제품의 경쟁력은 모델 이름보다 실행·기록·검증의 조합에서 결정됩니다. 60개 이상 스킬과 커넥터, HPC 접근, 리뷰어 에이전트, BioNeMo 통합은 그 조합을 구성하는 부품입니다. 과학 AI 경쟁은 "누가 더 똑똑한 답을 쓰는가"에서 "누가 더 추적 가능한 연구 루프를 운영하는가"로 옮겨가고 있습니다.