GPT-Rosalind 63.2%, Codex 플러그인으로 실험 실행

OpenAI가 GPT-Rosalind를 갱신하고 LifeSciBench, MedChemBench, GeneBench 수치와 Codex 생명과학 플러그인을 공개했습니다.

AI 요약

무슨 일: OpenAI가 2026년 6월 3일 GPT-Rosalind 기능 갱신과 새 생명과학 벤치마크 수치를 공개했습니다.
- MedChemBench 6월 점수는 63.2%로 공개됐고, OpenAI가 함께 제시한 GPT-5.4 점수는 52.1%입니다.
개발자 영향: 발표의 실무 표면은 모델 이름보다 Codex 플러그인, CSV 분석, bio visualizer입니다.
주의점: 일부 평가는 OpenAI reported score이며 LabWorkBench는 proprietary dataset이라 독립 재현 경로가 제한됩니다.

OpenAI가 2026년 6월 3일 GPT-Rosalind의 새 기능을 공개했습니다. 5월 29일 Rosalind Biodefense는 접근권과 공공보건 파트너 발표였습니다. 이번 업데이트는 연구자가 실제로 무엇을 실행할 수 있는지에 더 가깝습니다. OpenAI는 LifeSciBench, MedChemBench, GeneBench, LabWorkBench 점수를 제시했고, Codex 안에서 돌아가는 생명과학 플러그인과 native bio visualizer를 함께 설명했습니다.

이 발표를 단순한 모델 업데이트로 보면 절반만 읽는 셈입니다. GPT-Rosalind는 2026년 4월 16일 life sciences research preview로 처음 소개됐습니다. 당시 OpenAI는 qualified customers가 ChatGPT, Codex, API에서 쓸 수 있는 생명과학 특화 reasoning model이라고 설명했습니다. 6월 3일 발표에서 새로 보이는 부분은 성능표와 도구표가 같은 문서 안에 들어왔다는 점입니다. OpenAI는 벤치마크 점수만 내놓지 않고, 문헌 검색 플러그인, 유전 변이 탐색 플러그인, sequence·gene·variant·protein structure viewer를 같이 붙였습니다.

GPT-Rosalind 벤치마크 비교

OpenAI가 제시한 가장 눈에 띄는 숫자는 MedChemBench입니다. 발표 표에서 GPT-Rosalind는 2026년 5월 56.6%, 6월 63.2%를 기록했습니다. 같은 표의 GPT-5.4는 52.1%, 전문 약물화학자는 53.5%입니다. 이 benchmark는 lead optimization과 medicinal chemistry 판단을 다루는 평가로 소개됩니다. 숫자만 보면 6월 GPT-Rosalind가 GPT-5.4와 전문가 기준선을 동시에 앞서는 장면입니다. 다만 논문식 공개 benchmark가 아니라 OpenAI가 발표문에서 제공한 reported score이므로, 세부 문항, 채점 기준, 반복 실험 조건을 외부 연구자가 얼마나 검증할 수 있는지는 별도 질문으로 남습니다.

LifeSciBench에서는 점수 차가 작지만 기준선이 높습니다. OpenAI 표에서 GPT-Rosalind는 5월 90.4%, 6월 93.8%를 기록했고, GPT-5.4는 90.9%입니다. GeneBench는 5월 84.5%, 6월 87.7%입니다. LabWorkBench는 5월 69.0%, 6월 70.5%로 제시됐습니다. OpenAI는 LabWorkBench를 proprietary dataset이라고 적었습니다. 이 단어 하나가 기사에서 빠지면 안 됩니다. proprietary eval은 제품 개선 방향을 설명하는 데 도움이 되지만, 외부 검증과 경쟁사 비교에는 닫힌 부분이 생깁니다.

그래도 이번 발표가 개발자에게 의미 있는 이유는 수치가 Codex 실행 환경과 연결되기 때문입니다. 생명과학 AI는 일반 챗봇처럼 한 문장 답변을 잘 내는 것만으로 제품이 되기 어렵습니다. 연구자는 PubMed 논문, gene identifier, variant database, protein structure, CSV dataset, figure, table, lab note를 오갑니다. GPT-Rosalind가 Codex에서 움직인다는 말은 모델이 파일과 도구, 시각화, 보고서 작성 단계에 들어간다는 뜻입니다.

첫 번째 새 플러그인은 literature search and summarization입니다. OpenAI 발표에 따르면 이 플러그인은 문헌 검색, 논문 요약, figure와 table extraction, report writing을 지원합니다. 생명과학 연구팀이 실제로 반복하는 작업은 "이 논문을 요약해 달라"보다 좁고 복잡합니다. 특정 pathway나 variant에 대한 근거를 찾고, 표 안의 실험 조건을 비교하고, figure caption과 method section을 맞춰 보며, 보고서에 인용 가능한 형태로 정리해야 합니다. 플러그인이 이런 단계를 명시했다는 점은 Codex가 개발자용 코드 에이전트에서 domain research workspace로 확장되는 단서입니다.

두 번째 플러그인은 genetics and variant explorer입니다. 발표문은 gene and variant information retrieval, disease association, database lookup을 예로 듭니다. ClinVar, OMIM, HPO, dbSNP, gnomAD 같은 이름은 생명과학 개발자에게 단순한 데이터베이스가 아니라 provenance와 versioning 문제입니다. 특정 variant가 어떤 질환과 연결되는지 말하려면 출처, accession, confidence, population frequency, phenotype mapping이 필요합니다. GPT-Rosalind가 이 영역에 들어간다면 모델 답변보다 tool routing과 source attribution이 더 중요해집니다.

OpenAI의 role-specific plugins 저장소도 같은 제품 방향을 보여줍니다. 현재 공개 README는 sales, data analytics, product design, financial markets 같은 역할별 plugin template을 설명합니다. 각 plugin은 .codex-plugin/plugin.json, app binding, MCP config, skills, assets를 묶는 구조입니다. 생명과학 플러그인은 이번 발표문에 나온 주제이고, 공개 저장소의 역할별 plugin 구조는 Codex가 "프롬프트 모음"이 아니라 설치 가능한 workflow package를 지향한다는 점을 뒷받침합니다.

이 구조에서는 모델 API 호출 한 줄보다 배포 단위가 중요해집니다. 연구팀은 "GPT-Rosalind를 어떤 model name으로 호출할 것인가"만 결정하지 않습니다. 어떤 데이터 소스를 연결할지, 어떤 connector id가 조직 워크스페이스에 맞는지, 어떤 skill이 승인된 절차인지, 어떤 결과를 사람이 검토할지 정해야 합니다. Codex plugin은 이런 결정을 코드와 설정 파일의 형태로 고정합니다. AI 연구 보조 기능이 데모를 넘어서려면 이 패키징이 필요합니다.

Native bio visualizer도 작은 기능처럼 보이지만 연구 workflow에서는 큰 차이를 냅니다. OpenAI 발표는 DNA와 protein sequence, gene, variant, protein structure를 Codex에서 직접 볼 수 있다고 설명합니다. 생물학 데이터는 텍스트 답변만으로 검토하기 어렵습니다. sequence alignment, amino acid 위치, variant annotation, protein structure view는 사람이 오류를 빨리 찾는 표면입니다. 모델이 "이 변이가 중요합니다"라고 말하는 것보다, 사용자가 같은 화면에서 변이 위치와 근거를 확인하는 쪽이 안전합니다.

CSV upload workflow는 더 직접적인 연구 작업과 연결됩니다. OpenAI는 사용자가 CSV를 올리고 GPT-Rosalind가 analysis와 visualization을 수행할 수 있다고 설명했습니다. 많은 연구팀의 실제 데이터는 완성된 데이터베이스 API가 아니라 CSV, spreadsheet, lab export, intermediate table로 존재합니다. Codex가 이 파일을 받아 분석하고 그림을 만들 수 있다면, 모델은 문헌 요약 도구에서 exploratory analysis assistant로 이동합니다. 여기서도 위험은 있습니다. CSV 컬럼 이름, missing value, batch effect, 실험 조건이 잘못 해석되면 그럴듯한 그림이 틀린 결론을 만들 수 있습니다.

OpenAI가 말한 benchmark improvement를 제품 신호로 읽으려면 평가 대상의 성격을 나눠 봐야 합니다. LifeSciBench와 GeneBench는 지식과 추론 정확도에 가까운 표입니다. MedChemBench는 medicinal chemistry 판단으로, 실제 신약개발 의사결정과 가까운 영역을 겨냥합니다. LabWorkBench는 wet-lab planning과 execution reasoning을 떠올리게 하지만 proprietary라는 제약이 붙습니다. 개발자는 이 네 점수를 하나의 평균 성능으로 합치기보다, 자기 팀의 작업이 어느 평가와 닮았는지부터 봐야 합니다.

예를 들어 variant triage를 하는 팀이라면 GeneBench와 genetics explorer가 더 가깝습니다. 논문 리뷰 자동화를 하는 팀이라면 literature search plugin과 source extraction 품질이 더 중요합니다. medicinal chemistry 팀이라면 MedChemBench 숫자가 눈에 들어오겠지만, 실제 도입 전에는 내부 assay, compound series, IP boundary, chemist review process에 맞춘 평가가 필요합니다. LabWorkBench가 개선됐다는 말만으로 실험 계획을 맡기기에는 공개 정보가 부족합니다.

이번 발표는 Rosalind Biodefense와도 연결되지만 같은 사건은 아닙니다. Biodefense 글의 중심은 trusted developers, 미국 정부 및 allied public-health partners, launch support였습니다. 6월 3일 업데이트의 중심은 연구자가 Codex에서 어떤 작업을 수행하는가입니다. 접근권은 여전히 제한적입니다. OpenAI는 GPT-Rosalind를 넓은 self-serve public model처럼 소개하지 않았습니다. 대신 고위험 도메인 모델에 workflow와 tool packaging을 얹고, qualified access 안에서 기능을 확장하고 있습니다.

이 방식은 다른 AI for science 제품과 비교할 때 선명합니다. Google DeepMind Co-Scientist는 hypothesis generation, critique, ranking을 반복하는 연구 파트너로 소개됐습니다. FutureHouse Robin은 생물학 발견 작업을 에이전트로 묶습니다. GPT-Rosalind 쪽은 Codex, plugin, file viewer, CSV workflow를 앞세워 연구 실행 표면을 강조합니다. 모델 지능 경쟁이라기보다 연구 환경 안에서 어느 제품이 더 검토 가능하고 재현 가능한 작업 단위를 만드는가의 경쟁입니다.

개발팀이 지금 확인할 항목은 네 가지입니다. 첫째, GPT-Rosalind 접근권이 없는 상태에서도 공개 plugin structure와 일반 모델로 workflow prototype을 만들 수 있는지입니다. 둘째, 문헌·유전 변이·단백질 구조 같은 외부 데이터의 source attribution을 어떻게 남길지입니다. 셋째, CSV 분석 결과를 내부 notebook, ELN, LIMS, data warehouse와 어떻게 연결할지입니다. 넷째, OpenAI reported benchmark가 팀 내부 평가셋에서 재현되는지입니다.

보안과 거버넌스도 별도 축입니다. 생명과학 데이터에는 환자 관련 정보, 미공개 연구 결과, 특허 전 compound 정보, 협력사 계약 데이터가 섞일 수 있습니다. 모델이 Codex 안에서 파일과 도구를 다루면 권한 경계는 더 구체적이어야 합니다. 어떤 CSV를 읽을 수 있는지, 어떤 database credential을 사용할 수 있는지, 어떤 결과를 외부로 내보낼 수 있는지, 어떤 로그가 compliance review에 남는지 정해야 합니다. GPT-Rosalind가 좋은 점수를 냈다는 사실은 이 운영 질문을 없애지 않습니다.

커뮤니티 반응은 아직 큰 개발자 토론으로 번지지 않았습니다. 발표 직후 Hacker News와 GeekNews에서 이 업데이트만을 다룬 대형 thread는 확인하지 못했습니다. 기존 GPT-Rosalind와 Rosalind Biodefense 반응은 restricted access, biological misuse risk, hallucination, independent evaluation gap에 모였습니다. 6월 3일 발표도 같은 질문을 받게 됩니다. 특히 proprietary LabWorkBench와 내부 reported score는 실제 adoption 단계에서 procurement와 safety review의 질문지가 될 가능성이 높습니다.

OpenAI가 이번에 보여준 실험은 "생명과학 특화 모델을 더 크게 만든다"보다 구체적입니다. 모델을 Codex의 plugin package, file analysis, visualizer, benchmark loop 안에 넣습니다. 이 조합은 연구자가 쓰는 인터페이스와 AI가 실행하는 도구를 한 workspace로 묶으려는 시도입니다. 성공 여부는 63.2%라는 숫자 하나보다, 연구자가 같은 결과를 재현하고, 출처를 확인하고, 사람이 승인할 지점을 잃지 않는지에 달려 있습니다.

GPT-Rosalind의 6월 업데이트는 생명과학 AI의 다음 비교 기준을 보여줍니다. 모델명, benchmark, plugin, visualizer, 접근권이 따로 움직이지 않습니다. 연구팀은 앞으로 "어떤 모델이 가장 강한가"와 함께 "그 모델이 어떤 도구를 어떤 권한으로 호출하고, 어떤 증거를 남기며, 어떤 사람이 결과를 검토하는가"를 같이 물어야 합니다. OpenAI가 공개한 수치는 출발점입니다. 실제 검증은 각 연구팀의 데이터와 안전한 실행 환경 안에서 시작됩니다.