75% 할인이 정가로, DeepSeek V4-Pro가 흔든 토큰 경제

DeepSeek V4-Pro의 75% 할인 가격이 정가가 됩니다. 에이전트 추론비와 모델 라우팅 전략을 다시 계산해야 할 신호입니다.

AI 요약

무슨 일: DeepSeek가 V4-Pro API의 75% 할인 가격을 정가로 굳힙니다.
- 공식 pricing page는 2026년 5월 31일 15:59 UTC 이후 원래 가격의 1/4로 조정한다고 명시합니다.
숫자: 새 가격은 input cache miss $0.435/M, output $0.87/M tokens입니다.
의미: 긴 컨텍스트와 반복 호출이 많은 에이전트 워크로드의 원가표가 다시 내려갑니다.
주의점: 실제 비용은 cache hit, output 비율, provider markup, 품질 재시도율까지 함께 봐야 합니다.

DeepSeek가 다시 가격표를 흔들었습니다. DeepSeek API pricing page는 deepseek-v4-pro의 75% 할인 프로모션이 2026년 5월 31일 15:59 UTC에 끝난 뒤, 모델 API 가격이 원래 가격의 1/4로 공식 조정된다고 적고 있습니다. 프로모션이 끝나면 가격이 원상 복귀하는 것이 아니라, 프로모션 가격이 사실상 새 정가가 되는 구조입니다.

숫자는 작지만 의미는 큽니다. V4-Pro의 cache miss input은 100만 토큰당 0.435달러, output은 100만 토큰당 0.87달러입니다. cache hit input은 100만 토큰당 0.003625달러까지 내려갑니다. DeepSeek는 모든 모델의 input cache hit 가격도 2026년 4월 26일 12:15 UTC부터 launch price의 1/10로 낮췄다고 설명합니다.

이 뉴스는 단순히 "중국 모델이 싸졌다"가 아닙니다. 에이전트 제품을 만드는 팀에게는 원가 구조의 변화입니다. 긴 컨텍스트를 읽고, 도구를 여러 번 호출하고, 실패를 재시도하고, 많은 중간 결과를 출력하는 agentic workflow에서는 토큰 단가가 제품 설계의 한계가 됩니다. DeepSeek의 가격 인하는 모델 라우터와 에이전트 런타임이 어떤 작업을 어떤 모델로 보낼지 다시 계산하게 만듭니다.

할인 종료가 아니라 기준선 변경입니다

할인은 보통 도입 이벤트입니다. 가격을 낮춰 사용자를 모은 뒤, 기간이 끝나면 원래 가격으로 돌아갑니다. DeepSeek 문서의 이번 문장은 반대입니다. 75% 할인 프로모션이 끝난 뒤에도 V4-Pro API 가격은 원래 가격의 1/4로 공식 조정됩니다.

가격표의 취소선은 이 변화를 선명하게 보여줍니다. V4-Pro의 cache miss input은 원래 100만 토큰당 1.74달러였고, output은 3.48달러였습니다. 현재 할인 가격은 각각 0.435달러와 0.87달러입니다. 문서가 말하는 1/4 조정은 바로 이 할인 가격을 정식 가격으로 만드는 것입니다.

항목	할인 전 표시 가격	새 기준 가격
Input cache hit	$0.0145 / 1M tokens	$0.003625 / 1M tokens
Input cache miss	$1.74 / 1M tokens	$0.435 / 1M tokens
Output	$3.48 / 1M tokens	$0.87 / 1M tokens

여기서 가장 눈에 띄는 값은 output 0.87달러입니다. 에이전트는 답변만 짧게 내는 챗봇보다 output을 많이 씁니다. 계획, 중간 요약, 코드 패치, 테스트 결과 해석, 로그 분석, 재시도 설명이 모두 output 비용으로 쌓입니다. output 단가가 내려가면 "생각을 짧게 하라"는 압박이 조금 줄어듭니다.

하지만 cache hit input 가격도 중요합니다. 에이전트는 같은 시스템 프롬프트, 도구 설명, 저장소 요약, 정책 문서를 반복해서 읽습니다. 캐시가 잘 맞으면 긴 입력을 반복해도 비용 부담이 크게 줄어듭니다. 반대로 매 요청마다 입력이 달라 cache miss가 많으면 가격표의 가장 싼 숫자를 체감하기 어렵습니다.

V4-Pro는 가격만 낮춘 모델이 아닙니다

DeepSeek pricing page는 V4-Pro가 1M context length, 최대 384K output, JSON output, tool calls, chat prefix completion beta, FIM completion beta를 지원한다고 적고 있습니다. thinking mode와 non-thinking mode도 모두 지원합니다. 이 목록은 에이전트 워크로드를 직접 겨냥합니다.

1M context는 코드베이스, 긴 문서 묶음, 대화 기록, 로그 파일을 크게 잘라 넣을 수 있게 합니다. tool calls는 검색, 코드 실행, 데이터베이스 조회, 업무 시스템 호출과 연결됩니다. FIM은 코드 편집과 자동완성에서 중요합니다. thinking mode는 더 긴 추론 단계를 허용하는 제품 경험과 연결됩니다.

가격이 낮아지는 순간 이 기능 목록의 의미도 달라집니다. 고가 모델에서 1M context는 "가능하지만 조심해서 쓰는 기능"이 됩니다. 저가 모델에서 1M context는 "라우터가 먼저 시도해볼 수 있는 경로"가 됩니다. 모든 작업에 V4-Pro를 쓰라는 뜻은 아닙니다. 다만 긴 입력과 반복 작업을 저렴하게 태울 후보가 하나 더 생긴 것입니다.

에이전트 라우터의 질문이 바뀝니다

AI 제품팀은 이미 단일 모델만 쓰지 않습니다. 빠른 모델, 강한 모델, 긴 컨텍스트 모델, 코딩 모델, 로컬 모델을 섞습니다. 지금까지 라우터의 흔한 기준은 품질이었습니다. 어려운 작업은 비싼 frontier 모델로 보내고, 단순 분류나 요약은 싼 모델로 보냅니다.

DeepSeek의 가격 인하는 이 기준에 비용 기울기를 더 크게 넣습니다. 예를 들어 저장소 전체를 훑는 코드 이해, 대량 로그 요약, RAG 후보 문서 정리, 장시간 리서치 초안 생성은 비싼 모델에 바로 보내기 부담스러운 작업입니다. V4-Pro 같은 저가 장문 모델이 충분히 안정적이라면, 첫 패스와 반복 패스는 저가 모델로 처리하고 최종 검토만 고가 모델로 보내는 설계가 더 매력적입니다.

이때 중요한 것은 평균 가격이 아니라 실패 비용입니다. 저가 모델이 2번 재시도해야 같은 품질이 나온다면 절감 폭은 줄어듭니다. tool call을 잘못 써서 외부 API 비용을 낭비하거나, 잘못된 코드 패치를 만들어 사람이 고치는 시간이 늘어나면 토큰 단가만으로는 설명할 수 없습니다. 에이전트 경제학은 모델 가격과 성공률을 함께 봐야 합니다.

커뮤니티의 관심은 provider와 라우팅으로 갑니다

Reddit의 r/LLMDevs, r/DeepSeek, r/opencodeCLI, r/GitHubCopilot 쪽 반응은 대체로 실용적입니다. 사람들은 DeepSeek 공식 API를 직접 써야 하는지, OpenRouter 같은 aggregator를 통해 써야 하는지, OpenCode나 Claude Code류 워크플로에 어떻게 붙일지 묻고 있습니다.

이 질문은 단순 구매처 문제가 아닙니다. 모델 aggregator는 편리하지만 provider markup이나 라우팅 차이가 있을 수 있습니다. 어떤 사용자는 특정 provider가 아직 낮아진 가격을 반영하지 않았다고 지적합니다. 또 어떤 사용자는 공식 채널을 강제하려면 provider allowlist나 blacklist가 필요하다고 말합니다.

에이전트 제품에서는 이 차이가 큽니다. 한두 번 호출하는 챗봇은 몇 센트 차이가 중요하지 않을 수 있습니다. 하지만 하루 수억 토큰을 쓰는 평가 루프, 코드베이스 분석, synthetic data 생성, 장기 리서치 에이전트는 작은 markup도 월 비용으로 커집니다. 모델 라우팅은 품질뿐 아니라 실제 청구 provider까지 포함하는 문제입니다.

싸졌다고 곧바로 표준이 되지는 않습니다

가격 인하는 강한 무기지만, 에이전트 모델 선택을 끝내지는 않습니다. 첫째, 품질 분포가 중요합니다. coding, 수학, 일반 추론, 도구 호출, 한국어/영어 문서 처리, 긴 컨텍스트 유지력은 서로 다릅니다. 한 벤치마크에서 좋은 모델이 모든 에이전트 작업에 좋은 것은 아닙니다.

둘째, 운영 안정성입니다. concurrency limit, rate limit, 장애 대응, regional availability, 계정 제한, abuse policy는 제품 운영에 직접 영향을 줍니다. DeepSeek 문서는 V4-Pro concurrency limit을 500으로 표시합니다. 개인 실험에는 충분해 보여도, 대규모 서비스에서는 큐잉과 fallback 설계가 필요합니다.

셋째, 데이터와 규제입니다. DeepSeek는 중국 AI 회사입니다. 일부 기업과 공공기관은 데이터 처리 위치, 법적 관할, 보안 심사, 공급망 리스크 때문에 도입을 제한할 수 있습니다. 가격이 낮아도 모든 워크로드를 보낼 수는 없습니다.

넷째, 가격 유지 가능성입니다. 이번 문서는 현재 가격을 정가로 조정한다고 명시하지만, 페이지 하단은 제품 가격이 달라질 수 있고 최신 pricing page를 확인하라고 안내합니다. 장기 계약이나 대규모 제품 원가 계산에는 이 단서를 반영해야 합니다.

비용 절감의 진짜 조건은 캐시입니다

DeepSeek 가격표에서 cache hit input은 유난히 낮습니다. 100만 토큰당 0.003625달러입니다. 그러나 이 값은 캐시가 맞을 때만 의미가 있습니다. 에이전트 앱이 매번 시스템 프롬프트, 도구 스키마, 규칙 문서, 코드베이스 요약을 다르게 만들어 보내면 cache hit 비율은 낮아집니다.

따라서 제품팀의 실무 과제는 모델을 바꾸는 것만이 아닙니다. 프롬프트의 안정 구간을 분리하고, 반복되는 context를 캐시 가능하게 만들고, 바뀌는 사용자 입력과 도구 결과를 뒤쪽에 배치하고, long context를 무작정 붙이는 대신 재사용 가능한 summary와 retrieval 구조로 나눠야 합니다. 토큰 캐시는 가격표가 아니라 아키텍처 문제입니다.

이 점에서 DeepSeek의 가격 인하는 개발자에게 이상한 메시지를 줍니다. 더 싸졌으니 더 많이 써도 됩니다. 동시에 더 싸게 쓰려면 프롬프트와 context 구조를 더 엄격하게 설계해야 합니다. 에이전트 비용 최적화는 결국 모델 선택, prompt caching, retrieval, output budget, retry policy가 함께 움직입니다.

실무적으로는 가격표를 그대로 스프레드시트에 넣는 것보다, 실제 agent trace를 샘플링하는 편이 낫습니다. 성공한 작업과 실패한 작업을 나누고, 각 단계의 cache hit input, cache miss input, output, tool call 수, 재시도 횟수를 따로 기록해야 합니다. 그래야 "모델을 바꿨더니 싸졌다"가 아니라 "어떤 단계가 어떤 가격으로 줄었다"를 볼 수 있습니다. DeepSeek V4-Pro를 라우터에 넣는 팀도 첫 목표를 전체 대체로 잡기보다, 장문 초안 생성이나 대량 후보 정리처럼 실패 비용이 낮고 토큰 사용량이 큰 구간부터 검증하는 편이 현실적입니다.

결론: 토큰값 하락은 에이전트 실험의 속도를 바꿉니다

DeepSeek V4-Pro의 75% 할인 정가화는 모델 품질 논쟁과 별개로 중요한 경제 신호입니다. 에이전트는 토큰을 많이 먹습니다. 그래서 모델 가격이 조금만 바뀌어도 가능한 제품 경험이 달라집니다. 더 긴 분석, 더 많은 후보 생성, 더 자주 도는 평가, 더 넓은 코드베이스 스캔이 실험 목록에 올라옵니다.

그렇다고 "싼 모델이 이긴다"는 결론은 이릅니다. 에이전트 제품에서 최종 비용은 토큰 단가에 성공률, 재시도율, tool call 비용, 사람 검토 시간, 데이터 리스크를 곱한 값입니다. DeepSeek가 낮춘 것은 그중 가장 눈에 잘 보이는 축입니다.

하지만 그 축이 충분히 크게 움직였습니다. 75% 할인이 정가가 되면, 고가 frontier 모델은 "항상 쓰는 기본값"이 아니라 "정말 어려운 단계에 호출하는 premium path"로 밀릴 수 있습니다. 이제 라우터의 질문은 더 날카로워집니다. 이 작업은 최고 모델이 필요한가, 아니면 0.87달러짜리 output으로 먼저 충분한가.