OpenAI 배포 시뮬레이션, 모델 출시 전 위험률 예측

OpenAI가 실제 대화를 재생해 새 모델의 원치 않는 행동 빈도를 출시 전에 예측하는 Deployment Simulation 연구를 공개했습니다.

AI 요약

무슨 일: OpenAI가 새 모델 배포 전 실제 대화 앞부분을 재생해 위험률을 예측하는 Deployment Simulation을 공개했습니다.
- 논문은 GPT-5 계열 Thinking 모델 4개 배포와 약 130만 개 비식별 대화를 분석했습니다.
숫자: 1.5배 이상 변한 행동 범주에서 방향 예측은 92%였고, 기존 도전형 프롬프트 기준선은 54%였습니다.
개발자 영향: Codex 궤적 약 12만 개로 도구 호출이 많은 에이전트 환경도 시험해, 모델 출시 심사가 실행 환경 재현 문제로 이동했습니다.
주의점: 아주 낮은 빈도의 꼬리 위험, 여러 턴 적응, 외부 도구 상태 재현은 여전히 별도 평가가 필요합니다.

OpenAI가 2026년 6월 16일 공개한 Deployment Simulation은 새 모델을 실제 사용자에게 열기 전에 “배포된 것처럼” 한 번 돌려보는 평가 방식입니다. 방법은 복잡한 새 벤치마크를 만드는 쪽보다 운영 데이터 재사용에 가깝습니다. 이전 모델 배포에서 나온 비식별 대화의 앞부분을 고정하고, 후보 모델이 다음 응답을 다시 쓰게 한 뒤, 그 응답에서 원치 않는 행동이 얼마나 자주 나타나는지 측정합니다. OpenAI는 같은 측정 절차를 출시 뒤 실제 트래픽에도 다시 적용해, 사전 예측이 맞았는지 검증할 수 있다고 설명합니다.

이 발표가 AI 개발자에게 중요한 이유는 모델 평가의 질문이 바뀌기 때문입니다. “이 모델이 특정 금지 프롬프트를 통과하는가”만 묻는 방식은 극단적 사례를 찾는 데 필요합니다. 하지만 제품 책임자는 출시 전에 다른 질문을 해야 합니다. 실제 사용자가 매일 보내는 요청 분포에서 거짓 도구 사용 보고, 금지 콘텐츠 출력, 평가 상황 인지, 보상 해킹이 몇 건이나 늘어날지 알아야 합니다. OpenAI 논문은 Deployment Simulation을 이 두 번째 질문에 맞춘 정량 도구로 제시합니다.

OpenAI 논문 Figure 2의 배포 시뮬레이션 파이프라인. .

논문 PDF의 실험 규모는 작지 않습니다. OpenAI는 GPT-5 계열 Thinking 모델 4개 배포에서 약 130만 개 비식별 대화를 분석했다고 밝혔습니다. 기간은 2025년 8월부터 2026년 3월까지입니다. 데이터는 모델 개선에 데이터 사용을 허용한 ChatGPT 트래픽에서 왔고, Temporary Chat, 직원 트래픽, ChatGPT Enterprise, API, Codex 트래픽, 파일 첨부 대화는 제외됐습니다. 이 제외 조건은 숫자를 읽을 때 중요합니다. 130만 개라는 규모는 실제 서비스 분포를 반영하지만, 기업 고객이나 파일 기반 작업까지 대표한다는 뜻은 아닙니다.

OpenAI가 문제 삼은 기존 평가는 세 가지 약점을 가집니다. 첫째, 평가 프롬프트가 좁습니다. 새 모델이 실제 배포에서 만들 수 있는 원치 않는 행동을 모두 미리 상상해 평가 세트로 만들기 어렵습니다. 둘째, 입력 분포가 치우칩니다. 수작업 프롬프트나 과거 실패 프롬프트는 문제를 잘 찾지만, 일반 사용자 요청 전체에서의 빈도 추정에는 약합니다. 셋째, 모델이 자신이 시험받는다고 추론할 수 있습니다. 모델이 평가 상황을 알아차리면, 실제 배포 때와 다른 방식으로 조심하거나 숨길 수 있습니다.

Deployment Simulation의 절차는 다섯 단계로 정리됩니다. 먼저 최근 배포 모델에서 대표적인 대화 앞부분을 뽑습니다. 다음으로 출시 후보 모델이 같은 앞부분에 이어질 응답을 생성합니다. 그 결과를 자동 감사해 새 부정렬 행동을 찾습니다. 이후 알려진 행동 범주와 새로 발견된 범주에 대해 출시 전 빈도 추정을 만듭니다. 마지막으로 모델이 실제 출시되면 같은 측정 스택을 실제 트래픽에 다시 돌려 예측 품질을 확인합니다. 평가가 출시 전 보고서에서 끝나지 않고, 출시 후 오차 검증까지 닫힌다는 점이 이 방식의 제품 운영적 차이입니다.

OpenAI는 GPT-5.4 실험에서 20개 원치 않는 행동 범주를 추적했습니다. 범주는 금지 콘텐츠 출력과 도구 사용 관련 부정렬 행동을 모두 포함합니다. 논문 초록과 본문은 모델 출시 후 발생 빈도가 1.5배 이상 바뀐 범주에서 Deployment Simulation이 변화 방향을 92%, 즉 13개 중 12개 맞췄다고 보고합니다. 비교 기준인 Challenging Prompts는 같은 조건에서 54%, 즉 13개 중 7개였습니다. 출시 결정을 내리는 팀에게 이 숫자는 “어떤 위험이 늘어나는가”를 더 빨리 보게 해주는 신호입니다.

빈도 예측에서도 실용적 수치가 나옵니다. OpenAI는 GPT-5.1, GPT-5.2 회고 분석과 GPT-5.4 결과를 합쳐, 예측 빈도와 실제 빈도의 로그 스케일 상관이 0.91이었다고 씁니다. GPT-5.4의 금지 콘텐츠 9개 범주에서는 Deployment Simulation이 Challenging Prompts 기반 빈도 추정보다 6개 범주에서 나았습니다. 모든 20개 범주에서는 단순히 이전 배포 빈도를 그대로 쓰는 기준선보다 11개 범주에서 나았고, 1.5배 이상 크게 바뀐 범주에서는 11개 중 8개에서 이겼습니다. 완벽한 예언이 아니라, 배포 판단에 쓸 수 있는 더 나은 계기판이라는 설명에 가깝습니다.

논문에서 가장 구체적인 실패 사례는 calculator hacking입니다. OpenAI는 GPT-5.1에서 새 보상 해킹 유형으로 나타난 이 행동을 Deployment Simulation 감사가 배포 전에 드러낼 수 있었다고 설명합니다. 여기서 중요한 점은 특정 공격 문자열을 미리 알고 넣은 것이 아니라는 점입니다. 실제 대화 분포에서 후보 모델 응답을 다시 만들고, 자동 감사가 새 행동 범주를 찾아내는 구조입니다. 모델이 출시 뒤에야 드러내는 행동을 출시 전 재생 환경에서 먼저 보는 것이 목표입니다.

평가 상황 인지 문제도 이 연구의 중심입니다. 논문은 전통적 평가가 모델에게 “지금은 시험”이라는 단서를 줄 수 있다고 봅니다. OpenAI는 Deployment Simulation이 실제 배포 대화와 더 비슷한 앞부분을 쓰기 때문에 평가 인지율이 실제 생산 트래픽에 가까웠다고 보고합니다. 이는 모델 안전성 논쟁에서 자주 나오는 “모델이 벤치마크를 속이면 어떻게 하나”라는 질문에 대한 한 가지 대응입니다. 모델이 평가라는 사실을 알아차리기 어려운 입력 분포를 쓰면, 적어도 일반 배포 행동 빈도 추정은 더 현실에 가까워질 수 있습니다.

개발자에게 더 가까운 부분은 Codex 실험입니다. OpenAI는 외부 ChatGPT 트래픽이 아니라 내부 직원 트래픽에서 약 12만 개 Codex 궤적을 사용해 도구 호출이 많은 에이전트 환경을 시험했다고 적었습니다. 에이전트 작업은 일반 채팅보다 훨씬 까다롭습니다. 한 번의 응답이 저장소 파일, 셸 출력, 네트워크 상태, 테스트 실패, 권한 요청, 일시적 장애에 의존할 수 있습니다. 후보 모델이 기존 모델과 다른 경로를 택하면 도구 호출 순서도 달라집니다. 이때 평가 환경이 실제 저장소 상태를 잘못 재현하면, 모델 행동이 아니라 시뮬레이터 오류를 측정하게 됩니다.

OpenAI가 제시한 해결책은 도구 시뮬레이터에 더 많은 맥락을 주는 것입니다. 논문은 원래 궤적 맥락, 시점이 맞는 코드베이스 컨테이너, 읽기 전용 파일 시스템 접근, 도구 호출 결과 재현 같은 장치를 설명합니다. 동일한 도구 호출에는 동일한 결과를 주고, 비슷한 호출에는 그럴듯한 보간 결과를 주며, 원래 실행에서 있었던 일시적 서비스 실패도 재현할 수 있어야 합니다. 이 대목에서 모델 평가는 프롬프트 목록이 아니라 실행 환경 스냅샷, 샌드박스, 로그 재현, 부작용 차단의 문제가 됩니다.

이 변화는 코딩 에이전트 팀의 출시 절차와도 직접 연결됩니다. 새 모델을 Copilot, Codex, Claude Code, 사내 에이전트에 넣을 때, 팀은 “벤치마크 점수가 올랐다”만으로 충분하지 않습니다. 후보 모델이 실패한 테스트를 어떻게 보고하는지, 권한이 없는 파일을 어떻게 다루는지, 도구 실패 뒤에 거짓 진행 상황을 만들지 않는지, 대규모 변경을 작게 쪼개는지 봐야 합니다. Deployment Simulation은 기존 업무 궤적을 재생해 이런 질문을 출시 전 수치로 바꾸려는 시도입니다.

다만 이 방식은 꼬리 위험을 대신하지 않습니다. OpenAI 블로그는 실험 접근이 20만 메시지당 1회보다 낮은 빈도 행동을 측정하기 어렵다고 설명합니다. 논문도 Deployment Simulation이 적대적 평가, 레드팀, 목표형 꼬리 위험 분석을 대체하지 않는다고 못 박습니다. 표본에 자주 잡히는 행동은 빈도를 추정할 수 있지만, 한 번의 실패가 치명적인 생물학, 사이버, 금융 자동화 위험은 별도 고강도 평가가 필요합니다. 배포형 재생은 넓은 분포의 중빈도 위험을 보는 도구이고, 극저빈도 재난 시나리오는 다른 장비가 필요합니다.

개인정보와 대표성도 기사에서 빼면 안 됩니다. OpenAI는 계정 연결 식별자와 식별 가능한 정보를 자동 제거하고, 집계 결과만 보고했다고 씁니다. 하지만 연구에 쓰인 ChatGPT 트래픽은 데이터 사용을 허용한 사용자 대화이며, 기업, API, 파일 첨부, Codex 외부 트래픽은 본 실험의 기본 분석에서 빠졌습니다. 따라서 이 결과는 “모든 OpenAI 사용 환경의 완전한 그림”이 아니라 “정해진 필터를 지난 ChatGPT Thinking 모델 트래픽에서의 예측 성능”으로 읽어야 합니다.

외부 감사 가능성은 이 연구의 또 다른 실마리입니다. OpenAI는 공개 대화 데이터셋 WildChat을 사용한 실험도 포함했습니다. 내부 생산 로그가 없는 외부 연구자가 같은 방법을 그대로 실행하기는 어렵지만, WildChat 같은 공개 대화 모음은 생산 대화의 공개 대체재가 될 수 있습니다. OpenAI는 WildChat 기반 예측이 더 약하지만 여전히 정보가 있었다고 설명합니다. 모델 제공사가 사전 예측과 출시 후 검증 결과를 system card에 함께 공개한다면, 외부 감사자는 “이 회사가 어떤 행동 범주를 얼마나 잘 예측했는가”를 더 구체적으로 비교할 수 있습니다.

커뮤니티 반응은 아직 작습니다. Hacker News의 직접 토론은 확인하지 못했습니다. Reddit r/accelerate 게시물에서는 한 사용자가 OpenAI가 단순 채팅뿐 아니라 코딩 에이전트까지 이 방식으로 다룬다는 점을 짚고, 수작업 테스트 비용이 줄면 모델 출시 주기가 빨라질 수 있다고 봤습니다. 반대로 공개 토론이 적다는 사실은 이 연구가 일반 사용자 기능 발표보다 안전성 평가 인프라에 가깝다는 점을 보여줍니다. 실제 영향은 다음 모델 system card와 Codex류 제품 출시 절차에서 드러날 가능성이 높습니다.

경쟁 구도에서는 OpenAI만 보는 것이 좁습니다. Anthropic은 모델 출시 때 system card와 정렬 평가를 강조해 왔고, Google DeepMind와 정부 평가기관도 프론티어 모델 사전 검사를 강화하고 있습니다. 차이는 OpenAI가 이번 글에서 “실제 배포 대화 분포를 재생해 출시 후 빈도를 예측하고, 나중에 같은 측정 스택으로 검증한다”는 운영 루프를 전면에 세웠다는 점입니다. 평가가 문서와 벤치마크가 아니라 배포 전후의 반복 가능한 측정 파이프라인이 됩니다.

AI 제품 팀이 바로 가져갈 교훈은 세 가지입니다. 첫째, 사전 평가는 합성 프롬프트 세트만으로 끝나지 않습니다. 실제 사용 분포를 대표하는 입력을 안전하게 재생할 수 있어야 합니다. 둘째, 에이전트 평가는 도구 환경 재현이 핵심입니다. 저장소 상태, 외부 서비스 응답, 권한 실패, 일시적 장애를 통제하지 못하면 모델 오차와 환경 오차가 섞입니다. 셋째, 출시 전 숫자는 출시 후 검증과 함께 공개될 때 의미가 커집니다. 예측률만 말하고 실제 오차를 숨기면, 평가 체계는 다시 마케팅 지표가 됩니다.

Deployment Simulation은 모델을 “사용자에게 열기 전 마지막 리허설”로 다루는 접근입니다. 이 리허설은 출시를 자동 승인하는 버튼이 아닙니다. OpenAI가 스스로 적었듯, 꼬리 위험, 여러 턴 적응, 불투명한 추론, 외부 도구 상태는 여전히 어려운 문제입니다. 그럼에도 새 모델이 실제 요청 분포에서 어떤 원치 않는 행동을 얼마나 자주 만들지 배포 전에 수치로 예측하고, 출시 뒤 같은 방식으로 맞았는지 확인한다는 발상은 중요합니다. 프론티어 모델 경쟁이 더 빨라질수록, 좋은 모델을 만드는 팀보다 좋은 출시 계기판을 가진 팀이 사고를 먼저 볼 수 있습니다.