Codex 표본 사용자 80.6%, 30분 넘는 업무 위임

OpenAI가 Codex 사용 데이터 보고서를 공개했습니다. 30분·1시간·8시간 업무 위임, 출력 토큰 비중, 비개발자 확산의 한계를 함께 봅니다.

AI 요약

무슨 일: OpenAI가 2026년 6월 25일 Codex 사용 데이터를 분석한 경제 연구 보고서를 공개했습니다.
- 개인 사용자 표본에서 80.6%가 숙련자 기준 30분 초과로 추정되는 요청을 적어도 한 번 제출했습니다.
수치: OpenAI 내부 직원의 출력 토큰은 99.8%가 Codex에서 나왔고, 조직 계정은 63.3%, 개인 사용자는 16.5%였습니다.
주의점: 시간 기준은 LLM-as-judge 추정이고, OpenAI 내부 환경은 사용 제한이 거의 없는 특수 사례입니다.

OpenAI가 6월 25일 공개한 글의 제목은 How agents are transforming work입니다. 함께 공개된 50쪽 PDF 제목은 The Shift to Agentic AI: Evidence from Codex입니다. 제품 출시, 가격 변경, 새 모델 발표가 아니라 Codex 사용 로그를 경제 연구 방식으로 해석한 보고서입니다.

이 보고서가 다루는 질문은 "Codex가 인기 있나"보다 좁고 더 까다롭습니다. OpenAI는 사용자가 챗봇에 질문을 던지는 상태와 에이전트에게 일을 맡기는 상태를 구분하려고 합니다. 그래서 활성 사용자 수뿐 아니라 출력 토큰 비중, 요청이 인간 숙련자에게 걸릴 것으로 추정되는 시간, 동시 실행, Skills 사용, 직무별 작업 유형을 함께 봅니다.

Codex 주요 지표

이번 글은 최근 devlery가 다룬 삼성전자 Codex 배포나 OpenAI Jalapeño 추론 칩과 다른 각도에서 읽어야 합니다. 삼성 글은 기업 배포의 권한과 비용을 봤고, Jalapeño 글은 추론 인프라의 비용 구조를 봤습니다. 이번 보고서는 그 위에서 실제 사용이 대화형 AI에서 업무 위임형 AI로 이동하는지 측정하려는 시도입니다.

80.6%라는 숫자가 말하는 범위

OpenAI 발표문은 2026년 5월 기준 개인 사용자 표본에서 80.6%가 "숙련자가 30분 넘게 걸릴 것으로 추정되는" Codex 요청을 적어도 한 번 제출했다고 적었습니다. 같은 기준으로 70.2%는 1시간 초과 요청을, 25.6%는 8시간 초과 요청을 적어도 한 번 제출했습니다.

이 문장에서 빠지면 안 되는 단어는 "표본", "추정", "적어도 한 번"입니다. PDF 각주는 시간 기준이 Codex 대화 내용에 접근한 LLM 판정기로 추정됐다고 설명합니다. 또 30분, 1시간, 4시간, 8시간 기준은 방향성 지표이며, 개인 사용자 수치는 무작위 0.1% 표본에 기반한다고 적었습니다.

따라서 80.6%를 "모든 Codex 사용자가 매일 30분짜리 일을 맡긴다"로 읽으면 틀립니다. 더 좁게 쓰면, Codex를 쓰는 개인 사용자 표본 안에서 상당수가 단발 질문보다 긴 작업을 한 번 이상 시도했다는 뜻입니다. OpenAI가 강조하려는 변화도 여기에 있습니다. 에이전트 사용의 단위가 질문 하나에서 위임 작업 하나로 커졌다는 주장입니다.

PDF 초록은 2026년 상반기 Codex 주간 활성 사용자가 5배 이상 늘었다고 적었습니다. 같은 초록은 10% 넘는 사용자가 매주 3개 이상 동시 Codex 에이전트를 관리했고, 26.6%가 복잡한 작업용 지시 묶음인 Skills를 사용했다고 제시했습니다. 단순 접속 수보다 "동시에 몇 개의 작업을 굴리는가"와 "반복 가능한 지시 묶음을 쓰는가"를 채택 깊이의 지표로 본 셈입니다.

OpenAI 내부의 99.8%는 강하지만 일반화하기 어렵다

가장 눈에 띄는 수치는 OpenAI 내부 직원의 출력 토큰 비중입니다. 보고서는 2026년 6월 11일 기준 OpenAI 내부 직원이 ChatGPT와 Codex에서 생성한 출력 토큰 중 99.8%가 Codex에서 나왔다고 썼습니다. 조직 계정 사용자의 Codex 비중은 63.3%, 개인 사용자는 16.5%였습니다.

이 비교는 에이전트 채택의 깊이를 보여주지만, 동시에 한계를 드러냅니다. PDF는 OpenAI 내부가 일반 조직을 대표하지 않는다고 직접 적었습니다. 내부 직원은 프런티어 모델에 익숙하고, 사용량 제한이 사실상 없으며, 조직 차원의 지지가 높고, 비공식 지식 공유도 많습니다. 많은 업무가 Codex 자체나 주변 시스템과 가깝다는 점도 다릅니다.

일반 기업에서는 같은 결과가 바로 나오기 어렵습니다. 보안팀은 저장소, 문서, 티켓, 고객 데이터 접근권을 나눠야 합니다. 재무팀은 토큰 비용과 실행 시간을 예산 단위로 묶어야 합니다. 법무팀은 에이전트가 만든 문서와 코드 변경의 책임 소재를 검토해야 합니다. OpenAI 내부의 99.8%는 "가능한 상한선에 가까운 실험 환경"으로 보는 편이 안전합니다.

조직 계정의 63.3%도 가볍지 않은 수치입니다. 개인 사용자에서는 최근 28일 동안 Codex를 한 번이라도 쓴 활성 사용자 비율이 1% 미만이라고 PDF가 설명합니다. 하지만 Codex를 쓰기 시작한 개인 사용자는 출력 토큰 비중이 사용자 수 비중보다 훨씬 큽니다. 넓게 퍼진 제품이라기보다, 일단 업무에 붙인 사용자가 강하게 쓰는 제품에 가깝습니다.

사용자 집단	Codex 출력 토큰 비중	해석
OpenAI 내부 직원	99.8%	사용 제한과 조직 저항이 낮은 내부 환경에서 Codex가 업무용 기본 도구가 됐다는 수치입니다.
조직 계정 사용자	63.3%	Business와 Enterprise 계정에서는 채팅보다 위임형 작업의 출력 비중이 이미 더 큽니다.
개인 사용자	16.5%	활성 사용자 전체로는 채팅이 우세하지만, Codex 채택자는 사용 강도가 높습니다.

비개발자 증가율은 "코딩 도구"라는 이름을 흔든다

Codex는 코딩 도구로 시작했습니다. PDF도 소프트웨어 개발이 여전히 가장 큰 작업 범주라고 말합니다. 코드 구현, 코드 이해, 검증, 환경 구성, 저장소 관리, 문서화가 주요 사용처입니다. 하지만 OpenAI는 비개발자 증가율을 별도 강조했습니다.

발표문 기준으로 2025년 8월 이후 비개발자 개인 사용자는 137배, 조직 계정의 비개발자 사용자는 189배, OpenAI 내부 비개발자 사용자는 12배 증가했습니다. 내부에서 법무, 재무, 채용 부서가 2026년 4월 무렵 Codex를 주요 업무용 AI 도구로 쓰는 구간을 넘었다는 설명도 붙었습니다.

PDF의 직무 분류 표는 더 구체적입니다. OpenAI 내부의 금융·비즈니스 운영 직군은 Codex 출력 토큰의 31%를 엔지니어링·코딩 작업에, 34%를 지식 작업에 썼습니다. 제품·마케팅·운영 직군은 25%를 엔지니어링·코딩 작업에, 51%를 지식 작업에 썼습니다. 비개발자가 Codex로 하는 일이 "코드 생성"만은 아니지만, 기술 실행과 데이터 변환, 도구 제작이 섞이기 시작했다는 뜻입니다.

여기서 기업이 봐야 할 변화는 직무 경계입니다. 마케터가 SQL을 직접 쓰거나, 채용 담당자가 내부 도구를 고치거나, 법무팀이 계약서 비교용 스크립트를 만들 수 있다는 가능성은 생산성 주장보다 운영 정책을 먼저 요구합니다. 어떤 저장소를 열어줄지, 자동 커밋을 허용할지, 검토자는 누구인지, 실패한 작업 로그를 어디에 보관할지 같은 질문이 뒤따릅니다.

"일을 맡긴다"는 측정은 아직 거칠다

OpenAI 보고서는 에이전트 사용을 측정하려는 첫 대형 표본에 가깝지만, 측정 방식은 아직 거칠게 남아 있습니다. 과제 시간이 LLM 판정기 추정이라는 점이 가장 큽니다. 숙련자가 8시간 걸릴 작업인지, 1시간이면 되는 작업인지는 코드베이스 규모, 권한, 테스트 비용, 리뷰 기준에 따라 크게 달라집니다.

도구 사용도 완벽한 대리 지표가 아닙니다. PDF 각주는 2026년 6월 11일 직전 주에 Codex 턴의 60.3%, ChatGPT 턴의 21.9%가 하나 이상의 외부 도구를 호출했다고 적었습니다. 하지만 도구 호출이 있다고 모두 에이전트형 업무는 아니며, 도구 호출이 적어도 긴 분석이나 문서 작업이 될 수 있습니다. OpenAI도 도구 사용을 불완전한 대리 지표라고 설명했습니다.

출력 토큰 비중 역시 생산성 그 자체가 아닙니다. Codex가 더 많은 토큰을 만들었다는 사실은 작업량을 보여줄 수 있지만, 최종 산출물의 품질, 리뷰 시간, 롤백 비용, 보안 위험까지 계산하지는 않습니다. 에이전트가 긴 작업을 많이 수행할수록 검증 비용도 커질 수 있습니다. HN과 Reddit의 에이전트 논의에서 반복되는 불만도 여기에 닿아 있습니다. 실행은 쉬워졌지만, 실패 복구와 책임 분배는 여전히 사람과 조직의 일입니다.

Axios는 같은 날 보도에서 개인 사용자 규모는 아직 작고, 대부분의 AI 사용자는 여전히 에이전트 군단을 관리하기보다 챗봇과 대화한다고 정리했습니다. 이 보조 관찰은 OpenAI 보고서의 수치를 읽을 때 균형추로 쓸 만합니다. Codex가 OpenAI 내부와 일부 조직에서 강하게 쓰인다는 사실과, 일반 AI 사용자의 기본 습관이 아직 채팅에 있다는 사실은 동시에 참일 수 있습니다.

개발팀에는 무엇이 바로 바뀌나

개발팀에 가장 직접적인 영향은 작업 단위의 재설계입니다. 예전에는 AI 도구가 함수 하나, 테스트 하나, 문서 문단 하나를 도왔습니다. Codex식 사용에서는 "이 이슈를 재현하고, 원인을 찾고, 테스트를 추가하고, 변경사항을 설명해 달라"처럼 작업 묶음이 커집니다. 보고서가 30분, 1시간, 8시간 기준을 쓴 이유도 여기에 있습니다.

이 변화는 저장소 운영 규칙을 바꿉니다. AGENTS.md 같은 지시 파일, 테스트 명령, 권한 경계, 브랜치 정책, 리뷰 체크리스트가 에이전트 작업 품질에 직접 영향을 줍니다. 사람이 읽는 온보딩 문서와 에이전트가 실행하는 작업 지시가 분리되어 있으면, 에이전트는 같은 실수를 반복합니다. 보고서의 Skills 사용률 26.6%는 반복 지시와 도구 묶음이 실제 사용 습관으로 들어왔다는 작은 근거입니다.

또 하나는 병렬 실행입니다. PDF 초록은 10% 넘는 사용자가 매주 3개 이상 동시 Codex 에이전트를 관리한다고 적었습니다. 병렬 에이전트는 빠르지만, 같은 파일을 건드리거나 서로 다른 가정으로 테스트를 통과시키는 문제가 생깁니다. 팀은 이제 "AI가 코드를 썼는가"보다 "동시에 여러 작업이 달릴 때 충돌을 어떻게 줄이는가"를 설계해야 합니다.

OpenAI가 얻은 것은 제품 홍보 이상의 데이터다

OpenAI는 이번 보고서에서 Codex를 ChatGPT와 직접 비교했습니다. 내부 직원, 조직 계정, 개인 사용자라는 세 집단을 나누고, 채팅형 도구와 에이전트형 도구의 출력 토큰 비중을 비교했습니다. 이 비교는 앞으로 가격표와 제품 번들에도 영향을 줄 수 있습니다. 조직이 실제로 더 많은 출력 토큰을 에이전트에서 만들면, 청구 단위와 비용 통제도 채팅 세션보다 에이전트 실행 단위에 가까워질 가능성이 있습니다.

이미 기업용 AI 제품은 사용량 분석, 지출 통제, 감사 로그를 전면에 세웁니다. OpenAI도 6월 18일 기업용 사용 분석과 지출 통제 업데이트를 발표했습니다. 이번 경제 연구는 그 기능들이 왜 필요한지 설명하는 자료로도 읽힙니다. 에이전트가 8시간짜리 작업을 맡고, 여러 개가 병렬로 돌고, 비개발자가 저장소와 데이터에 접근하면, 관리자에게 필요한 화면은 단순 채팅 기록이 아닙니다.

다만 이 보고서는 생산성 증가율을 직접 증명하지 않습니다. 사용자가 더 긴 작업을 맡겼다는 사실, 출력 토큰이 늘었다는 사실, 비개발자가 더 많이 썼다는 사실은 생산성의 후보 지표입니다. 실제 생산성은 완료된 티켓, 줄어든 대기 시간, 줄어든 오류, 늘어난 고객 대응량, 낮아진 운영 비용으로 다시 측정해야 합니다.

그래도 6월 25일 보고서가 남기는 기준선은 분명합니다. 에이전트 제품을 평가할 때 이제 "답변 품질"만 보면 부족합니다. 개인 사용자는 30분 넘는 작업을 맡길 수 있는지, 조직은 출력 토큰과 권한을 통제할 수 있는지, 팀은 여러 에이전트를 동시에 돌리고도 검토 가능한 산출물을 받을 수 있는지가 다음 질문입니다. Codex 보고서는 그 질문들을 한 제품의 사용 로그로 처음 크게 묶어 공개한 사례입니다.