90일 사전검토가 멈췄다, AI 모델 출시표의 새 전쟁

Trump의 AI 행정명령 연기는 frontier 모델 출시가 속도, 보안 평가, critical infrastructure 대응 사이에서 재편되고 있음을 보여줍니다.

AI 요약

무슨 일: Trump 대통령이 AI·사이버보안 행정명령 서명을 예정 행사 직전에 연기했습니다.
- AP, Axios, TechCrunch 보도는 초안에 frontier 모델 공개 전 정부 평가 프레임워크가 담겼다고 전합니다.
핵심 숫자: 보도된 쟁점은 14일에서 90일 사이의 사전 모델 접근 기간입니다.
개발자 영향: 강한 모델 출시는 API 릴리스가 아니라 red-team, eval, 고객 통지, 인프라 대응을 포함한 보안 릴리스가 됩니다.
주의점: 초안은 서명되지 않았고, 보도 기준으로 자발적 검토였으므로 허가제로 단정하면 안 됩니다.

미국의 AI 행정명령이 서명 직전에 멈췄습니다. 2026년 5월 21일, Donald Trump 대통령은 AI와 사이버보안을 다루는 새 행정명령에 서명할 예정이었지만, 백악관 행사를 앞두고 이를 연기했습니다. AP 보도는 Trump가 미국의 AI 기술 우위를 둔화시킬 수 있다는 우려를 이유로 들었다고 전했습니다. TechCrunch는 그가 기자단에 일부 문구가 마음에 들지 않았고, 미국이 앞서가는 상황을 막고 싶지 않다고 설명했다고 보도했습니다.

이 뉴스는 정치 일정 변경처럼 보일 수 있습니다. 하지만 AI 개발자와 제품팀에게 더 중요한 질문은 따로 있습니다. frontier 모델을 공개하기 전에 누가, 얼마나 먼저, 어떤 기준으로 평가해야 할까요. 보도된 초안은 AI 회사가 강력한 모델을 공개하기 전 정부와 공유하고, 정부가 사이버보안과 국가안보 위험을 평가하는 자발적 프레임워크를 담고 있었습니다. Axios는 90일 전 접근을, TechCrunch는 CNN 보도를 인용해 14일에서 90일 사이의 사전 공유 기간을 쟁점으로 설명했습니다.

이 숫자는 확정된 규칙이 아닙니다. 행정명령은 서명되지 않았고, 초안은 공개된 공식 법령도 아닙니다. 그래도 14일과 90일이라는 범위는 frontier AI 출시의 달력이 어디로 움직이는지를 보여줍니다. 앞으로 강한 모델 출시는 "모델 카드와 API 문서가 준비되면 공개"하는 이벤트가 아니라, red-team, eval harness, critical infrastructure 대응, 정부·고객 사전 통지, 제한된 preview가 얽힌 보안 릴리스가 될 가능성이 커졌습니다.

출시 전 90일이라는 이상한 숫자

소프트웨어 업계에서 90일은 낯선 숫자가 아닙니다. 보안 취약점 공개 조율에서는 90일 disclosure window가 자주 등장합니다. 취약점을 발견한 쪽이 공급자에게 시간을 주고, 공급자는 패치와 공지를 준비한 뒤 공개합니다. 이번 AI 행정명령 초안에서 보도된 90일은 같은 숫자처럼 보이지만, 방향이 다릅니다. 이미 발견된 취약점을 공개하기 전이 아니라, 아직 공개되지 않은 모델의 능력을 평가하기 전입니다.

이 차이가 중요합니다. frontier 모델은 취약점 하나가 아닙니다. 모델이 어떤 사이버 작업을 할 수 있는지, 어떤 tool use를 안정적으로 수행하는지, 어떤 jailbreak에 취약한지, 어떤 critical infrastructure workflow를 도울 수 있는지, 어떤 방식으로 악용될 수 있는지 평가해야 합니다. 단일 패치가 아니라 능력 범위와 배포 조건을 보는 문제입니다.

2026년 5월 1일

NIST CAISI가 DeepSeek V4 Pro 평가를 공개했습니다. 비공개 benchmark와 agentic cyber/software engineering 평가가 포함됐습니다.

2026년 5월 20일

Axios가 draft executive order의 90일 pre-release access 프레임워크를 보도했습니다.

2026년 5월 21일

Trump 대통령이 서명 행사를 연기했고, 초안 문구가 AI 경쟁력에 방해가 될 수 있다고 설명했습니다.

이번 논쟁의 배경에는 NIST CAISI의 DeepSeek V4 Pro 평가가 있습니다. CAISI는 DeepSeek V4 Pro를 평가하면서 공개 벤치마크뿐 아니라 PortBench 같은 내부 소프트웨어 엔지니어링 평가, CTF-Archive-Diamond 같은 사이버 평가, ARC-AGI-2 semi-private 데이터셋을 사용했습니다. CAISI는 DeepSeek V4 Pro가 평가 대상 중국 모델 중 가장 강하지만, 미국 frontier에 약 8개월 뒤처진다고 분석했습니다.

여기서 개발자에게 남는 메시지는 분명합니다. 정부 평가가 단순한 체크리스트가 아니라, 모델 제공사가 고른 공개 벤치마크와 다른 결론을 낼 수 있다는 점입니다. 모델 회사가 "우리 모델은 이전 세대보다 안전하다"고 말해도, 정부나 독립 평가기관은 다른 scaffold, 다른 token budget, 다른 hidden task로 다른 결과를 낼 수 있습니다.

"자발적 검토"와 "허가제" 사이의 좁은 선

이번 행정명령 초안을 두고 가장 조심해야 할 부분은 강제성입니다. 보도 기준으로 초안은 자발적 프레임워크였습니다. Reddit에 공유된 Politico 초안 요약도 mandatory licensing이나 preclearance를 만들지 않는다는 문구를 강조했습니다. 즉 "정부 허가 없이는 모델을 출시할 수 없다"는 결론은 현재 확인된 사실보다 앞서갑니다.

하지만 자발적 제도도 시장에서는 강한 힘을 가질 수 있습니다. 대형 AI 회사가 정부 사전 평가에 참여하고, critical infrastructure 고객이 "이 모델은 사전 검토를 거쳤는가"를 묻기 시작하면, 형식은 자발적이어도 사실상의 출시 관문이 됩니다. 클라우드, 은행, 보험, 의료, 에너지, 국방 고객에게는 "규정상 필수는 아니지만 우리 리스크 위원회가 요구한다"는 문장이 더 중요할 수 있습니다.

쟁점	보도된 초안의 방향	개발팀의 실제 질문
사전 접근	14일에서 90일 사이의 pre-release model access 논의	launch freeze를 언제 걸고 어떤 eval artifact를 제출할 것인가
검토 성격	보도 기준 voluntary review framework	자발적 검토가 enterprise 구매 조건으로 바뀔 가능성
사이버 위험	ONCD와 관련 기관이 security risk를 평가하는 구상	cyber eval, tool-use 제한, abuse monitoring을 출시 전에 어떻게 증명할 것인가
인프라 대응	critical infrastructure providers의 사전 접근 가능성	은행·전력·통신 고객이 모델 변경을 미리 테스트할 경로

소프트웨어 릴리스에 비유하면, 이 제도는 "public beta"와 "security embargo"와 "enterprise private preview"가 섞인 형태에 가깝습니다. 모델 제공사는 공개 전에 selected evaluator와 고객에게 모델을 열어야 할 수 있습니다. 평가기관은 benchmark 결과뿐 아니라 failure mode를 봐야 합니다. critical infrastructure 사업자는 새 모델이 phishing, vulnerability discovery, fraud automation, operational decision support에 어떤 영향을 주는지 미리 검토해야 합니다.

이 모든 과정은 출시 속도를 늦춥니다. 그래서 Trump가 "blocker"를 걱정했다는 표현은 정치적 수사만이 아닙니다. AI 모델 경쟁은 빠른 출시와 빠른 학습에 의존합니다. 모델을 90일 전에 얼려야 한다면, 그 90일 동안 경쟁사는 더 빠르게 ship할 수 있습니다. 반대로 검토 없이 공개했다가 심각한 cyber capability가 뒤늦게 드러나면, 기업 고객과 정부는 더 강한 통제를 요구할 수 있습니다. 속도와 신뢰가 서로 비용을 청구하는 구조입니다.

Mythos 이후의 워싱턴

이번 행정명령 논의가 나온 시점도 중요합니다. Anthropic의 Mythos 계열, OpenAI의 사이버 특화 모델, CAISI의 DeepSeek 평가, 주요 AI 회사와 정부 평가기관의 협약이 모두 같은 흐름 위에 있습니다. 강한 모델은 더 이상 "더 똑똑한 챗봇"으로만 받아들여지지 않습니다. 취약점 찾기, exploit 작성 보조, phishing 자동화, malware 분석, 방어 자동화, incident response까지 양면성을 갖습니다.

여기서 정부가 보는 질문과 개발자가 보는 질문은 조금 다릅니다. 정부는 국가안보와 critical infrastructure 위험을 봅니다. 개발자는 API availability, model versioning, preview access, eval cost, 고객 약속, safety policy를 봅니다. 하지만 두 질문은 결국 만납니다. 모델 제공사가 "이 모델은 production-ready"라고 말하려면, 이제 성능뿐 아니라 위험 평가와 대응 계획도 함께 보여줘야 하기 때문입니다.

이 변화는 오픈 모델과 폐쇄형 모델에도 다르게 작용합니다. 폐쇄형 API 모델은 제공사가 access control과 rate limit, abuse monitoring, customer gating을 직접 운영할 수 있습니다. 그래서 정부 사전 평가와 private preview를 붙이기 상대적으로 쉽습니다. 반면 open-weight 모델은 한번 공개되면 되돌리기 어렵습니다. 공개 전 평가가 더 중요해질 수 있지만, 동시에 공개 후 통제 수단은 약합니다.

그렇다고 open-weight 모델이 반드시 더 위험하다는 단순 결론은 맞지 않습니다. 투명한 weight, 독립 연구, 사내 배포, 지역별 data boundary는 open model의 강점입니다. 문제는 출시 프로세스입니다. 어떤 모델이든 강한 cyber/tool capability를 갖추면, 공개 전 eval과 공개 후 monitoring의 설계가 필요합니다. 이번 행정명령 논쟁은 바로 그 설계를 국가 정책이 어디까지 요구할지 묻고 있습니다.

개발팀의 릴리스 체크리스트가 바뀝니다

AI 모델 회사가 아니더라도 이 뉴스는 영향을 줍니다. frontier 모델을 API로 가져다 쓰는 제품팀은 모델 출시와 업데이트를 단순한 dependency upgrade로 보지 말아야 합니다. 새 모델은 더 좋은 성능과 함께 새로운 failure mode를 가져옵니다. tool call이 더 적극적이 되거나, 장기 계획을 더 잘 세우거나, 보안 관련 질문에 더 많은 실마리를 제공하거나, 반대로 기존 guardrail을 다르게 해석할 수 있습니다.

첫째, eval artifact가 제품 산출물이 됩니다. 단순 benchmark 점수표가 아니라, 어떤 task set으로 어떤 모델 버전을 검증했는지, 어떤 prompt와 tool schema를 썼는지, 실패 기준은 무엇인지, regression을 어떻게 막는지 남겨야 합니다. 정부 사전 평가가 도입되든 아니든, enterprise 고객은 이 자료를 요구할 가능성이 큽니다.

둘째, preview access가 더 중요해집니다. 모델 제공사가 새 모델을 공개하기 전 주요 고객과 평가기관에 제한적으로 열면, 개발팀은 그 기간에 자기 제품의 critical workflow를 돌려봐야 합니다. 결제, 의료, 보안, 인프라 변경, 법률 문서처럼 실패 비용이 큰 영역은 public launch 당일 모델을 바꾸기 어렵습니다.

셋째, model router는 정책 엔진이 됩니다. 예전에는 "이 모델이 더 싸고 빠르다"가 라우팅 기준이었다면, 이제는 "이 workflow에는 사전 검토된 모델만 쓸 수 있다", "이 region에서는 이 모델 버전을 금지한다", "이 action에는 사람이 승인한 model path만 허용한다" 같은 조건이 들어갑니다. AI infrastructure 팀은 모델 라우팅을 비용 최적화가 아니라 compliance와 blast radius 관리 도구로 봐야 합니다.

넷째, 고객 커뮤니케이션이 필요합니다. 고객이 은행, 병원, 정부기관, 보안팀이라면 "새 모델을 붙였습니다"로 충분하지 않습니다. 어떤 능력이 달라졌고, 어떤 위험을 평가했고, 어떤 사용 사례를 제한했으며, 문제가 생기면 어떤 rollback path가 있는지 설명해야 합니다. 모델 출시표는 마케팅 캘린더가 아니라 trust calendar가 됩니다.

연기는 끝이 아니라 협상의 시작입니다

이번 행정명령은 멈췄지만, 쟁점은 사라지지 않았습니다. AP와 Axios 보도 모두 정부 내부와 업계 사이에서 AI 경쟁력과 안전성 사이의 긴장이 커졌음을 보여줍니다. 미국은 중국과의 AI 경쟁에서 속도를 늦추고 싶지 않습니다. 동시에 강한 모델의 사이버 능력과 critical infrastructure 영향은 무시하기 어렵습니다. 이 두 목표는 쉽게 화해하지 않습니다.

정책적으로는 여러 절충안이 가능합니다. 90일을 고정하지 않고 capability tier별로 기간을 다르게 둘 수 있습니다. cyber, bio, autonomous replication, critical infrastructure tool use처럼 특정 위험 영역에만 사전 평가를 요구할 수도 있습니다. 정부가 모델 자체를 받는 대신 evaluator를 인증하거나, 결과 요약만 받거나, 고객군별 protected preview를 장려할 수도 있습니다. 반대로 업계 반발이 크면 행정명령은 더 약한 정보 공유와 voluntary best practice 수준으로 내려갈 수 있습니다.

개발자 입장에서 중요한 것은 어느 절충안이 나오든 방향은 이미 보인다는 점입니다. frontier AI 모델은 이제 단독 제품이 아니라 사회 인프라의 일부로 취급됩니다. 모델이 코드를 쓰고, 취약점을 찾고, 문서를 해석하고, 금융 업무를 보조하고, critical infrastructure 운영자를 돕는다면, 출시 전 검증과 출시 후 추적은 피하기 어렵습니다.

따라서 이번 뉴스의 핵심은 "Trump가 규제를 막았다"도, "AI 안전이 패배했다"도 아닙니다. 더 정확히는 AI 모델 출시를 둘러싼 새로운 운영 현실이 드러났다는 것입니다. 90일 사전검토는 멈췄지만, 모델 출시표에는 이미 새로운 열이 생겼습니다. 성능, 가격, latency 옆에 pre-release eval, government access, critical infrastructure readiness, customer trust가 들어왔습니다.

AI 팀은 지금부터 그 열을 채울 준비를 해야 합니다. 다음 frontier 모델이 나왔을 때 질문은 "얼마나 똑똑한가"에서 끝나지 않을 것입니다. 누가 먼저 봤는가. 어떤 평가를 통과했는가. 어떤 고객에게 먼저 열렸는가. 어떤 위험 때문에 어떤 기능을 늦췄는가. 그리고 공개 후 문제가 생기면 얼마나 빨리 되돌릴 수 있는가. 2026년의 모델 경쟁은 이 질문들 위에서 더 치열해질 가능성이 큽니다.