GPT-5.4 출시, AI가 처음으로 컴퓨터 사용에서 인간을 넘어섰다

OpenAI의 GPT-5.4가 OSWorld 벤치마크에서 75%를 기록하며 인간 전문가(72.4%)를 처음으로 초과했습니다. 네이티브 컴퓨터 사용, Tool Search, 1M 토큰 컨텍스트까지 — 3월 AI 모델 경쟁의 판도를 분석합니다.

OpenAI가 3월 5일 GPT-5.4를 공식 출시했습니다. 이번 릴리스에서 가장 주목할 점은 단 하나 — AI 모델이 처음으로 컴퓨터 사용 벤치마크에서 인간을 넘어섰다 는 사실입니다. OSWorld-Verified에서 75.0%를 기록하며 인간 전문가의 72.4%를 돌파한 것은, AI가 단순히 "텍스트를 잘 생성하는 도구"를 넘어 "컴퓨터를 조작하는 에이전트" 로 진화하고 있음을 의미합니다.

배경: 2026년 3월, 프론티어 모델 경쟁의 정점

GPT-5.4의 출시를 이해하려면 지난 한 달간의 프론티어 모델 출시 러시를 살펴볼 필요가 있습니다. 2월 5일 Anthropic이 Claude Opus 4.6을, 2월 17일 Claude Sonnet 4.6을 내놓았고, 2월 19일에는 Google이 Gemini 3.1 Pro를 공개했습니다. 각 모델은 저마다의 영역에서 새로운 기록을 세웠고, 시장은 "어떤 모델이 진정한 1등인가"라는 질문 앞에서 혼란스러워하던 상황이었습니다.

이런 배경에서 OpenAI는 GPT-5.4로 명확한 메시지를 던졌습니다. 텍스트 생성이 아닌 "행동하는 AI" 의 시대를 선언한 것입니다.

2026년 2-3월 프론티어 모델 출시 타임라인

2월 5일

Claude Opus 4.6

코딩 SWE-Bench 80.8% | 웹 리서치 84%

2월 17일

Claude Sonnet 4.6

비용 효율적 코딩 | 빠른 응답 속도

2월 19일

Gemini 3.1 Pro

추론 ARC-AGI-2 77.1% | 과학 GPQA 94.3% | 네이티브 멀티모달

3월 5일

GPT-5.4

컴퓨터 사용 OSWorld 75% | 전문직 GDPval 83% | 인간 초과

OSWorld 75% — 숫자 너머의 의미

OSWorld-Verified는 AI 모델이 데스크톱 환경을 스크린샷으로 관찰하고, 마우스 클릭과 키보드 입력으로 직접 조작하는 능력을 측정합니다. UI를 네비게이팅하고, 이메일을 보내고, 폼을 채우고, 스크립트를 실행하는 — 우리가 매일 컴퓨터 앞에서 하는 바로 그 작업들입니다.

GPT-5.2는 이 벤치마크에서 47.3%를 기록했습니다. 불과 한 세대 만에 75.0%로 뛰어오른 것은 27.7%p의 도약이며, 이는 프론티어 모델 역사에서 단일 벤치마크 기준 가장 극적인 향상 중 하나입니다.

더 중요한 것은 이 능력의 실현 방식 입니다. GPT-5.4는 Playwright 같은 브라우저 자동화 라이브러리로 코드를 작성하는 방식과, 스크린샷을 보고 직접 마우스/키보드 명령을 발행하는 방식 모두를 지원합니다. 개발자는 에이전트에게 "이 웹사이트에서 이런 데이터를 수집해"라고 지시하면, 모델이 화면을 보고 판단하며 작업을 완수하는 것이 현실이 되었습니다.

이것이 개발자에게 의미하는 바는 무엇일까요? RPA(Robotic Process Automation) 시장의 근본적 재편 입니다. 지금까지 RPA는 정교한 셀렉터와 스크립트를 작성해야 했지만, GPT-5.4의 컴퓨터 사용 능력은 "화면을 보고 이해하는" 접근 방식으로 이를 대체할 수 있습니다.

GDPval 83% — 전문직 업무의 경계가 흔들린다

OSWorld만큼 인상적인 것이 GDPval 벤치마크입니다. 이 벤치마크는 미국 GDP 기여 상위 9개 산업, 44개 직종의 실제 업무 산출물을 평가합니다. 영업 프레젠테이션, 회계 스프레드시트, 응급실 스케줄링, 제조 다이어그램, 심지어 짧은 영상까지 — 실무자가 하는 진짜 일 을 AI에게 시키는 테스트입니다.

GPT-5.4는 여기서 83.0% 를 기록했습니다. GPT-5.2의 70.9%에서 12.1%p 상승이며, 이는 GPT-5.4 릴리스에서 가장 큰 단일 벤치마크 향상폭입니다.

특히 눈길을 끄는 세부 수치가 있습니다. 주니어 투자은행 애널리스트 수준의 스프레드시트 모델링 작업에서 87.3% 를 기록한 것입니다(GPT-5.2: 68.4%). 워튼 경영대학원의 Ethan Mollick 교수는 GDPval을 "가장 경제적으로 유의미한 AI 능력 측정치" 라고 평가했습니다.

이 수치는 단순한 벤치마크 숫자가 아닙니다. 44개 직종 중 83%에서 산업 전문가와 동등하거나 그 이상의 결과물을 내놓는다는 것은, 지식 노동의 상당 부분이 AI에 의해 자동화 가능한 영역에 진입했음 을 의미합니다.

네 가지 핵심 기능 해부

1. 네이티브 컴퓨터 사용

GPT-5.4는 OpenAI가 출시한 최초의 범용 모델에 내장된 컴퓨터 사용 능력 을 갖춘 모델입니다. 별도의 특화 모델이 아닌, 대화와 추론을 하는 동일한 모델이 컴퓨터도 조작할 수 있다는 점이 중요합니다. 에이전트가 계획을 세우고, 도구를 선택하고, 컴퓨터를 직접 조작하여 작업을 완수하는 — 진정한 의미의 풀스택 에이전트 가 가능해졌습니다.

2. Tool Search

대규모 도구 생태계에서 적합한 도구를 자동으로 발견하는 기능입니다. 기존에는 API 요청 시 사용 가능한 모든 외부 도구를 수동으로 나열해야 했습니다. Tool Search는 이 과정을 자동화하여 프롬프트 오버헤드를 대폭 줄입니다. 수십, 수백 개의 커넥터를 운영하는 엔터프라이즈 환경에서 특히 유용합니다.

3. 1M 토큰 컨텍스트

API 및 Codex 버전에서 최대 1,050,000 토큰(입력 922K, 출력 128K)을 지원합니다. 에이전트가 장기간에 걸친 작업을 계획, 실행, 검증할 수 있는 충분한 "작업 메모리"를 확보한 셈입니다.

4. 정확성 향상

GPT-5.2 대비 개별 주장의 오류율이 33% 감소 했고, 전체 응답 단위에서는 18% 감소 했습니다. 에이전트가 자율적으로 행동하려면 정확성은 선택이 아닌 필수이며, 이 향상은 컴퓨터 사용 능력과 결합될 때 더욱 의미가 깊습니다.

가격과 모델 라인업

GPT-5.4는 단일 모델이 아닌 패밀리 로 출시되었습니다.

모델	입력 ($/1M)	출력 ($/1M)	컨텍스트	주요 용도
GPT-5.4	$2.50	$15.00	1.05M	범용 프론티어, 컴퓨터 사용, 에이전트
GPT-5.4 Pro	$30.00	$180.00	1.05M	최고 성능, 복잡한 추론
GPT-5.4 Mini	$0.75	$4.50	400K	간단한 코딩, Codex 쿼터 30%
GPT-5.4 Nano	$0.20	$1.25	—	대량 추론, API 전용

주목할 점은 가격 전략입니다. 기본 GPT-5.4의 입력 가격 $2.50/1M 토큰은 Claude Opus 4.6 대비 상당히 저렴한 수준이며, Nano 모델은 $0.20/1M 토큰으로 대량 추론 시나리오를 겨냥합니다. 한편 Pro 모델은 $30/$180으로 "최고 성능에 대한 프리미엄"을 명확히 설정했습니다.

Codex에서는 GPT-5.4가 GPT-5.3-Codex를 대체하며 기본 프론티어 모델로 자리 잡았고, Mini는 Codex 쿼터의 30%만 소비하여 간단한 코딩 작업에 비용 효율적 대안을 제공합니다.

경쟁 구도: 3강 체제의 미묘한 균형

2026년 3월 현재, 프론티어 AI 시장은 "모든 걸 잘하는 단일 모델"이 존재하지 않는 흥미로운 국면에 접어들었습니다.

Claude Opus 4.6 은 코딩에서 압도적입니다. SWE-Bench Verified에서 80.8%를 기록하며 소프트웨어 엔지니어링 작업의 기준점을 세웠고, BrowseComp 웹 리서치 벤치마크에서도 84%로 선두를 유지합니다. 코드를 작성하고 디버깅하는 개발자에게 여전히 최선의 선택입니다.

Gemini 3.1 Pro 는 추상적 추론에서 두각을 나타냅니다. ARC-AGI-2에서 77.1%(GPT-5.4: 73.3%), GPQA Diamond 과학 벤치마크에서 94.3%(GPT-5.4: 92.8%)를 기록했습니다. 텍스트, 이미지, 오디오, 비디오를 모두 네이티브로 처리하는 유일한 모델이기도 합니다. 가격도 $2/$12로 가장 경쟁력 있습니다.

GPT-5.4 는 "행동하는 AI" 에서 독보적입니다. 컴퓨터 사용(OSWorld 75%)과 전문직 업무 자동화(GDPval 83%)에서 경쟁 모델을 크게 앞섭니다.

Artificial Analysis의 Intelligence Index에 따르면 GPT-5.4와 Gemini 3.1 Pro가 57로 동률이고 Claude Opus 4.6이 53으로 근소하게 뒤따릅니다. 하지만 이 종합 지수보다 중요한 것은 용도별 최적 모델이 갈리기 시작했다 는 사실입니다. 이는 개발자들이 단일 모델에 올인하는 대신 태스크별로 모델을 라우팅하는 전략 을 채택해야 하는 시대가 왔음을 시사합니다.

커뮤니티 반응: 기대와 우려 사이

GPT-5.4에 대한 커뮤니티 반응은 양면적 입니다.

긍정적 반응: OSWorld와 GDPval의 성과는 Hacker News와 Reddit의 개발자 커뮤니티에서 상당한 주목을 받았습니다. 특히 컴퓨터 사용 능력은 "드디어 에이전트가 실용적 수준에 도달했다"는 평가를 이끌어냈습니다. Tool Search 기능도 대규모 에이전트 시스템을 구축하는 엔터프라이즈 개발자들에게 호평을 받고 있습니다.

보안 우려: 그러나 출시 직후 보안 연구자들이 심각한 컨텍스트 누출 취약점 을 발견했습니다. 정중한 어투의 질문만으로 시스템 프롬프트와 컨텍스트 내용이 유출되는 문제가 보고되었습니다. 컴퓨터를 직접 조작할 수 있는 모델에서 이런 취약점이 발견된 것은 특히 우려스럽습니다. 에이전트가 자율적으로 행동하는 시나리오에서 보안 취약점은 단순한 정보 유출을 넘어 실제 시스템에 대한 무단 행위 로 이어질 수 있기 때문입니다.

GPT-5 시리즈 피로감: 더 넓은 맥락에서, GPT-5 시리즈 전반에 대한 커뮤니티의 피로감도 감지됩니다. GPT-5 초기 출시 때 3,000명이 이전 모델 복원을 청원하는 사건이 있었고, Reddit의 AI 커뮤니티에서는 모델 성격의 변화와 워크플로우 재구축에 대한 불만이 지속되고 있습니다. 5.4는 이전 버전들보다 호의적인 반응을 얻고 있지만, OpenAI에 대한 신뢰 회복에는 시간이 필요해 보입니다.

실무에 미치는 영향

AI 에이전트 개발자

GPT-5.4의 컴퓨터 사용 능력은 에이전트 아키텍처를 근본적으로 변화시킬 수 있습니다. API 통합이 불가능한 레거시 시스템과의 상호작용, 복잡한 멀티앱 워크플로우 자동화, 비정형 UI 테스트 자동화 등이 실현 가능한 영역으로 들어왔습니다.

엔터프라이즈 팀

GDPval 83%는 지식 노동의 자동화 가능 범위가 크게 넓어졌음을 의미합니다. 특히 스프레드시트 모델링(87.3%), 프레젠테이션 생성, 문서 작업 등에서 주니어 레벨의 작업을 AI가 처리할 수 있는 수준에 도달했습니다.

모델 선택 전략

단일 모델 의존에서 멀티 모델 라우팅 으로의 전환이 가속화될 것입니다. 코딩은 Claude, 추론과 과학은 Gemini, 에이전트 작업과 컴퓨터 사용은 GPT-5.4 — 이런 태스크별 모델 배분이 비용 효율성과 성능 모두에서 최적의 전략이 되고 있습니다.

전망과 시사점

GPT-5.4는 AI 모델 경쟁의 축이 이동하고 있음을 보여줍니다. "더 똑똑한 텍스트 생성"에서 "더 유능한 행동 수행"으로. OSWorld에서 인간을 넘어선 것은 상징적 이정표이지만, 진짜 변화는 이 능력이 실무에 통합되는 과정에서 나타날 것입니다.

우리가 주목해야 할 방향은 세 가지입니다.

첫째, 에이전트 보안 의 중요성이 급격히 높아질 것입니다. 텍스트만 생성하는 모델의 보안 취약점과, 컴퓨터를 직접 조작하는 모델의 보안 취약점은 위험의 차원이 다릅니다. 출시 직후 발견된 컨텍스트 누출 문제는 이 분야의 연구와 투자가 모델 능력 향상 속도를 따라잡아야 함을 상기시킵니다.

둘째, 모델 전문화 시대 가 본격화됩니다. 코딩의 Claude, 추론의 Gemini, 에이전트의 GPT — 이 구도는 개발자들에게 더 많은 선택지를 제공하지만, 동시에 모델 오케스트레이션 이라는 새로운 엔지니어링 과제를 만들어냅니다.

셋째, 지식 노동의 재정의 가 가속됩니다. GDPval 83%는 "AI가 할 수 있는 일"의 범위가 대부분의 예측보다 빠르게 확장되고 있음을 보여줍니다. 이것이 노동 시장에 미칠 영향은 아직 불확실하지만, 변화의 속도만큼은 부정할 수 없습니다.

GPT-5.4는 완벽하지 않습니다. 보안 문제, 가격 프리미엄, 커뮤니티 신뢰 회복 등 숙제가 남아 있습니다. 하지만 AI가 텍스트 상자 밖으로 나와 실제 컴퓨터를 조작하기 시작했다는 사실 — 이것은 무시할 수 없는 전환점입니다.