Devlery
Blog/AI

GPT-5.6 Sol 제한 프리뷰, Codex 접근도 승인제

OpenAI GPT-5.6 Sol, Terra, Luna가 제한 프리뷰로 나왔습니다. API·Codex 승인 범위, 가격표, 보안 평가가 개발자 접근을 어떻게 바꾸는지 봅니다.

GPT-5.6 Sol 제한 프리뷰, Codex 접근도 승인제
AI 요약
  • 무슨 일: OpenAI가 2026년 6월 26일 GPT-5.6 Sol, Terra, Luna를 제한 프리뷰로 공개했습니다.
    • 프리뷰는 API 조직과 Codex 작업공간 단위로 승인되며, ChatGPT와 공개 대기자 명단은 포함되지 않습니다.
  • 가격: Sol은 100만 토큰당 5달러/30달러, Terra는 2.50달러/15달러, Luna는 1달러/6달러입니다.
  • 주의점: OpenAI는 미국 정부 요청으로 소수 파트너부터 시작한다고 밝혔고, 일반 제공 날짜는 아직 공개하지 않았습니다.
    • 시스템 카드는 세 모델을 사이버 보안과 생물·화학 위험에서 High capability로 다루지만, Critical threshold에는 도달하지 않았다고 적습니다.

GPT-5.6 접근과 가격 요약

OpenAI가 2026년 6월 26일 GPT-5.6 제품군을 제한 프리뷰로 공개했습니다. 이름은 Sol, Terra, Luna 세 가지입니다. 발표문은 Sol을 최상위 모델, Terra를 일상 작업용 균형 모델, Luna를 빠르고 낮은 비용의 모델로 설명합니다. 이 문장에서 개발자가 먼저 볼 부분은 "새 모델"보다 "제한 프리뷰"입니다. OpenAI Help Center는 프리뷰가 API와 Codex에서 소수의 신뢰 파트너와 조직에만 제공되며, ChatGPT는 프리뷰에 포함되지 않는다고 적었습니다.

이번 출시는 OpenAI가 새 모델을 공개하는 방식도 바꿨습니다. OpenAI는 미국 정부와 모델 출시 계획과 성능을 사전에 공유했고, 정부 요청에 따라 소수의 신뢰 파트너부터 시작한다고 밝혔습니다. 회사는 이 방식이 장기 기본값이 되어서는 안 된다고 선을 그었습니다. 개발자 입장에서는 벤치마크 점수보다 접근권이 더 급한 문제가 됩니다. "내 계정에서 언제 쓸 수 있는가"가 아니라 "우리 조직의 API organization과 Codex workspace가 승인 범위에 들어갔는가"를 확인해야 하는 출시입니다.

Help Center 문서의 문구는 제품 접근 경계를 꽤 구체적으로 나눕니다. 프리뷰는 공개 self-service program이 아니며, 개인 사용자는 대상이 아닙니다. 공개 신청서나 대기자 명단도 없습니다. OpenAI가 초대한 조직이 절차를 밟아도 접근이 즉시 활성화된다는 보장은 없고, API 승인이 Codex 승인을 자동으로 뜻하지도 않습니다. 반대로 Codex workspace 승인이 API organization 승인을 뜻하지도 않습니다. 같은 회사 안에서도 어느 제품 표면이 열렸는지 OpenAI account representative를 통해 확인해야 하는 구조입니다.

가격표는 세 모델의 역할을 더 선명하게 보여줍니다. Sol은 입력 100만 토큰당 5달러, 출력 100만 토큰당 30달러입니다. Terra는 2.50달러와 15달러, Luna는 1달러와 6달러입니다. OpenAI는 Terra가 GPT-5.5와 경쟁할 만한 성능을 2배 낮은 가격에 제공한다고 설명합니다. Luna는 OpenAI의 가장 낮은 비용 모델로 배치됩니다. 이 가격 구분은 단순한 tier가 아니라 Codex, API 자동화, 대량 코드 분석에서 어떤 모델을 어느 단계에 붙일지 결정하는 운영 변수입니다.

캐시 정책도 같이 바뀌었습니다. Help Center는 GPT-5.6부터 explicit cache breakpoints와 최소 30분 cache life를 지원한다고 설명합니다. cache write는 해당 모델의 uncached input rate의 1.25배로 청구되고, cache read는 기존처럼 cached input 90% 할인을 받습니다. 긴 저장소 문맥, 반복되는 시스템 지시문, 에이전트 실행 계획을 여러 차례 재사용하는 팀이라면 모델 가격표만 보고 비용을 계산하면 틀릴 수 있습니다. 캐시를 어디서 끊고, 어떤 프롬프트 조각을 여러 호출에 재사용할지가 GPT-5.6 비용 설계의 일부가 됩니다.

OpenAI 발표가 공개한 성능 주장은 세 영역에 집중됩니다. 첫째, Sol은 Terminal-Bench 2.1에서 새 최고 수준을 기록했다고 회사는 설명합니다. 이 벤치마크는 명령줄 작업에서 계획, 반복, 도구 조율을 요구합니다. 둘째, GeneBench v1에서는 GPT-5.5보다 강한 결과를 내면서 토큰을 덜 썼다고 설명합니다. 셋째, ExploitBench에서는 Mythos Preview와 경쟁하면서 출력 토큰을 약 3분의 1만 썼다고 밝혔습니다. 발표문은 전체 벤치마크 묶음은 일반 제공 시점에 더 넓게 공개하겠다고 했습니다.

이 제한적인 벤치마크 공개는 커뮤니티 반응에서도 바로 지적됐습니다. Hacker News와 Reddit의 초기 반응은 Sol 자체의 성능보다 "왜 지금은 일부 조직만 쓰는가", "Plus 사용자는 언제 접근하는가", "공개된 벤치마크 수가 너무 적은가" 같은 질문에 몰렸습니다. r/theprimeagen의 한 토론은 Terminal-Bench가 순수 코드 생성보다 명령줄 도구 사용을 측정한다는 점을 짚었습니다. 이 반응은 성능 주장이 틀렸다는 뜻이 아니라, 제한 프리뷰에서는 독립 검증이 늦게 따라온다는 실무적 한계를 보여줍니다.

OpenAI가 성능과 함께 길게 설명한 영역은 사이버 보안입니다. 발표문은 Sol이 취약점을 찾고 고치는 데 강하지만, 테스트 조건에서 Chromium과 Firefox에 대한 완전한 full-chain exploit을 자율적으로 만들지는 못했다고 설명합니다. 시스템 카드는 Sol, Terra, Luna를 사이버 보안과 생물·화학 위험에서 High capability로 취급한다고 적었습니다. 동시에 세 모델이 OpenAI Preparedness Framework의 Cyber Critical threshold에는 도달하지 않았다고 설명합니다. 즉 OpenAI는 "위험하지 않다"가 아니라 "높은 능력을 인정하고, 최고 위험선은 넘지 않았다"는 문장으로 출시를 방어합니다.

시스템 카드의 세부 내용은 이번 모델이 보안 제품팀에도 바로 읽힐 만합니다. GPT-5.6은 모델 수준 안전 학습, 생성 중 실시간 검사, 계정 단위 신호, 모니터링, 집행, trust-based access를 묶은 계층형 safeguard로 배포됩니다. Sol과 Terra에는 sensitive domain을 감시하는 activation classifier가 붙고, 특정 대화는 안전 경계에 걸리는 출력을 실시간으로 차단할 수 있습니다. 시스템 카드는 단일 차단 장치가 아니라 여러 지점에서 공격 경로를 끊는 구조라고 설명합니다.

자동 레드팀 규모도 숫자로 공개됐습니다. OpenAI는 universal jailbreak를 찾기 위해 700,000 A100e GPU hours 이상을 사용했다고 밝혔고, 배포 중에도 자동 레드팀을 계속 실행하겠다고 적었습니다. 이 수치는 모델 훈련 비용보다 "출시 전 검증 비용"이 제품 메시지에 들어오기 시작했다는 신호입니다. 에이전트가 코드를 읽고, 터미널을 쓰고, 취약점 분석을 돕는 제품 표면에서는 모델 성능과 safeguard 비용이 분리되지 않습니다. 성능이 올라갈수록 차단, 모니터링, 예외 처리도 함께 제품화됩니다.

프롬프트 인젝션 평가도 실무에 가깝습니다. 시스템 카드는 connector output 안에 악성 지시문을 심어 시스템, 개발자, 사용자 지시를 덮어쓰려는 공격을 평가했다고 설명합니다. 공개 표에서 GPT-5.6 Sol과 Terra는 connector 공격에서 1.000을 기록했고, search and function-calling 공격에서는 Sol 0.910, Terra 0.946, Luna 0.897을 기록했습니다. 숫자 자체보다 평가 대상이 중요합니다. GPT-5.6은 단일 채팅 답변 모델이 아니라 외부 도구 출력, 검색 결과, 함수 호출을 읽는 에이전트 실행 환경을 전제로 평가되고 있습니다.

Codex 사용자에게 이번 발표는 모델 선택보다 권한 확인 절차로 먼저 다가옵니다. Help Center는 GPT-5.6 프리뷰가 API와 Codex에 제공되지만, 승인 범위가 별도라고 적습니다. 한 조직이 API organization 접근을 받아도 특정 Codex workspace에서 바로 Sol을 쓸 수 있는 것은 아닙니다. 반대로 Codex workspace가 열렸다고 해서 같은 조직의 모든 API 호출이 열리는 것도 아닙니다. 여러 제품팀, 보안팀, 데이터팀이 같은 OpenAI 계약 아래에서 일한다면, 승인 범위를 문서화하지 않으면 "누가 어느 모델을 어디에서 썼는가"를 나중에 추적하기 어렵습니다.

개발 워크플로 관점에서 max reasoning effort와 ultra mode도 주목할 만합니다. OpenAI는 Sol에 더 오래 깊게 추론할 수 있는 max reasoning effort를 넣고, 단일 에이전트를 넘어 subagents를 활용하는 ultra mode를 소개했습니다. 아직 공개 문서만으로는 ultra mode의 API 형태, 가격 배수, 실패 로그, 하위 에이전트 권한 경계가 충분히 드러나지 않았습니다. 따라서 지금 단계에서 실무팀이 할 일은 "바로 교체"가 아니라 장기 작업, 코드베이스 탐색, 보안 분석, 테스트 생성 같은 워크로드를 분리해 어떤 호출만 Sol로 올릴지 가정하는 일입니다.

특히 Codex 작업에서는 하위 에이전트가 생긴다는 문구를 곧바로 병렬 작업 비용 절감으로 해석하면 위험합니다. 실제 비용은 출력 토큰, 도구 호출, 캐시 write, 안전 검사 지연, 실패 후 재시도까지 합쳐 계산됩니다. 예를 들어 대형 저장소 마이그레이션에서 Sol이 계획을 만들고 Terra가 파일별 수정 후보를 만들며 Luna가 반복적인 설명이나 작은 테스트 생성을 맡는 식의 라우팅은 가능해 보입니다. 그러나 이 라우팅을 제품에 넣으려면 같은 입력에서 어떤 모델이 어떤 권한으로 파일을 읽고, 어느 단계에서 사람 승인을 요구하며, 실패 로그를 어디에 남기는지 먼저 정해야 합니다.

기업 보안팀이 확인할 부분도 있습니다. 시스템 카드는 GPT-5.6이 취약점 발견과 패치 개발 같은 방어적 작업을 보존하려 한다고 설명하지만, 민감한 사이버 요청에는 실시간 검사와 계정 단위 집행이 붙을 수 있다고 적습니다. 이는 합법적인 보안 연구에서도 일부 요청이 느려지거나 차단될 수 있다는 뜻입니다. 내부 보안 자동화에 GPT-5.6을 넣으려는 팀은 "차단되면 사람이 다시 묻는다" 수준의 운영으로는 부족합니다. 요청 ID, 타임스탬프, workspace, 모델 이름, 차단 사유를 남겨 OpenAI Support와 내부 감사가 같은 사건을 추적할 수 있어야 합니다.

Sol의 고속 추론 계획도 별도 축입니다. OpenAI는 2026년 7월 Cerebras에서 GPT-5.6 Sol을 최대 750 tokens per second로 제공할 계획이라고 밝혔습니다. 초기에는 select customers로 제한됩니다. 이 숫자가 실제 제품에서 어떤 지연 시간, 컨텍스트 길이, safeguard 검사, 출력 길이 조건과 함께 제공되는지는 아직 확인이 필요합니다. 그래도 메시지는 분명합니다. OpenAI는 최상위 모델을 "느리지만 똑똑한 모델"로만 두지 않고, 고속 추론 인프라와 묶어 엔터프라이즈 작업 처리량까지 주장하려 합니다.

이번 발표를 Anthropic Mythos/Fable 논쟁과 떼어 읽기도 어렵습니다. OpenAI 발표는 Mythos Preview를 ExploitBench 비교 대상으로 언급했고, 제한 프리뷰의 이유를 미국 정부와의 조율로 설명했습니다. 최근 AI 모델 배포에서는 "모델이 무엇을 할 수 있는가"와 "누가 먼저 접근할 수 있는가"가 같은 뉴스가 됐습니다. 보안 능력이 개발자에게는 취약점 수정 도구이고, 정부에는 위험 평가 대상이며, 기업에는 계약과 감사의 문제가 됩니다.

한국 개발팀이 바로 확인할 체크리스트는 네 가지입니다. 첫째, GPT-5.6이 일반 제공되기 전까지 기존 GPT-5.5, Codex, 다른 모델 라우팅 정책을 유지할 기준입니다. 둘째, API organization과 Codex workspace를 분리한 접근 승인 문서입니다. 셋째, prompt caching을 고려한 비용 계산입니다. 넷째, 사이버 보안이나 생물·화학처럼 추가 검사 지연이 생길 수 있는 영역의 사용자 경험입니다. Help Center는 이런 요청이 추가 safety check 때문에 느려지거나 결과가 나오지 않을 수 있다고 설명합니다.

기사 제목만 보면 GPT-5.6은 또 하나의 모델 출시처럼 보입니다. 그러나 이번 프리뷰에서 바뀐 것은 모델 이름보다 배포 절차입니다. Sol, Terra, Luna는 성능, 가격, 속도 역할을 나눴고, API와 Codex 접근은 조직과 workspace 승인으로 묶였습니다. 시스템 카드는 benchmark, safeguard, prompt injection, automated red teaming을 같은 문서에 담았습니다. 모델을 쓰는 팀에게 남은 질문은 "가장 똑똑한 모델인가"보다 더 운영적입니다. 누가 승인받고, 어디서 호출하며, 어떤 비용과 안전 검사 아래에서 실행되는가입니다.