Devlery
Blog/AI

OpenAI 첫 칩 Jalapeño, Codex 비용을 줄일 추론 인프라

OpenAI와 Broadcom이 Jalapeño 추론 칩을 공개했습니다. Codex와 ChatGPT의 장시간 추론 비용, 전력, 공급망을 짚습니다.

OpenAI 첫 칩 Jalapeño, Codex 비용을 줄일 추론 인프라
AI 요약
  • 무슨 일: OpenAI와 Broadcom이 2026년 6월 24일 OpenAI의 첫 자체 추론 칩 Jalapeño를 공개했습니다.
    • 발표는 학습용 GPU 대체보다 ChatGPT, Codex, API, 향후 에이전트 제품의 반복 추론 비용을 겨냥합니다.
  • 숫자: 공식 자료는 9개월 tape-out, 2026년 말 초기 배포, 기가와트 규모 데이터센터 확장을 제시했습니다.
  • 주의점: 전력당 성능 우위는 초기 테스트 주장이고, 최종 벤치마크와 가격표는 아직 공개되지 않았습니다.

OpenAI가 모델 발표가 아니라 칩 발표로 2026년 6월 마지막 주를 열었습니다. OpenAI와 Broadcom은 6월 24일 Jalapeño라는 LLM 추론 가속기를 공개했습니다. OpenAI가 붙인 이름은 Intelligence Processor입니다. 발표 문구만 보면 또 하나의 반도체 파트너십처럼 보일 수 있지만, 개발자에게 더 직접적인 질문은 따로 있습니다. Codex가 한 작업을 몇 시간 붙잡고, ChatGPT가 기업 업무망 안에서 더 자주 호출되고, API 제품이 긴 문맥과 도구 호출을 반복할수록 누가 그 추론 비용을 감당하느냐는 질문입니다.

이번 글은 OpenAI가 "칩 회사가 됐다"는 식의 과장으로 읽을 필요가 없습니다. OpenAI는 여전히 Broadcom의 실리콘 구현, Tomahawk 네트워킹, Celestica의 보드·랙·시스템 통합, Microsoft 같은 데이터센터 파트너가 필요합니다. 다만 OpenAI가 직접 밝힌 범위는 분명합니다. Jalapeño는 ChatGPT, Codex, API, 향후 에이전트 제품에서 매일 발생하는 LLM 추론 패턴을 기준으로 설계됐습니다. 모델이 더 똑똑해지는 경쟁 뒤쪽에서, 이제 응답 하나와 에이전트 한 세션의 전력·지연 시간·공급망을 줄이는 경쟁이 전면에 올라온 셈입니다.

Jalapeño 공식 발표의 네 가지 체크포인트

발표가 말한 것과 말하지 않은 것

OpenAI 공식 발표와 Broadcom 보도자료가 공유한 사실은 거의 같습니다. Jalapeño는 OpenAI의 첫 자체 AI 가속기이고, 현재와 미래의 LLM 추론을 위해 처음부터 설계됐습니다. 엔지니어링 샘플은 생산 목표 주파수와 전력에서 ML 워크로드를 실행 중이며, OpenAI는 예시로 GPT-5.3-Codex-Spark를 언급했습니다. 최종 성능 수치는 아직 측정 중이고, 상세 기술 보고서는 추후 공개하겠다고 했습니다.

가장 조심해서 읽어야 할 문장은 "기존 최고 수준보다 전력당 성능이 상당히 낫다"는 주장입니다. 이 문장은 공식 발표와 Broadcom 자료에 모두 들어가지만, 아직 벤치마크 조건, 비교 대상, 배치 크기, 지연 시간 목표, 메모리 구성, 네트워크 토폴로지, 실제 서빙 비용은 공개되지 않았습니다. 따라서 Jalapeño를 바로 Nvidia Blackwell, Google TPU, AWS Inferentia와 수치로 비교하는 것은 이릅니다. 지금 확인 가능한 것은 OpenAI가 추론 전용 설계와 대규모 배포 계획을 공개했다는 사실입니다.

OpenAI가 강조한 설계 이유는 데이터 이동입니다. 발표는 Jalapeño가 compute, memory, networking 자원을 균형 있게 배치하고 데이터 이동을 줄여 이론상 최고 성능에 가까운 실사용률을 목표로 한다고 설명합니다. LLM 추론에서 비용은 행렬 연산만으로 정해지지 않습니다. 토큰을 생성하는 동안 키-값 캐시를 읽고 쓰고, 여러 사용자의 요청을 묶고, 긴 문맥을 유지하고, 도구 호출 뒤 다시 모델을 부르는 과정에서 메모리 대역폭과 네트워크가 계속 병목이 됩니다. OpenAI가 칩 이름보다 "서빙 시스템"과 "커널"을 함께 언급한 이유가 여기에 있습니다.

왜 추론 칩인가

AI 인프라 논의는 오래도록 학습 클러스터와 GPU 확보에 집중됐습니다. 대형 모델을 학습시키려면 수만 장의 가속기, 고속 네트워크, 안정적인 전력 계약이 필요합니다. 하지만 사용자가 매일 체감하는 비용은 학습이 끝난 뒤에도 계속 발생합니다. ChatGPT 답변, Codex 작업, API 호출, 기업용 에이전트의 파일 읽기와 코드 실행은 모두 추론입니다. 사용자가 늘고 제품이 길게 일할수록 추론은 한 번 끝나는 연구비가 아니라 매일 반복되는 원가가 됩니다.

Codex 같은 코딩 에이전트는 이 문제를 더 선명하게 만듭니다. 짧은 코드 완성은 몇 초 안에 끝나지만, 저장소를 읽고 계획을 세우고 테스트를 돌리고 실패 로그를 해석하고 다시 수정하는 세션은 수십 번의 모델 호출로 이어집니다. 에이전트가 브라우저, 터미널, 버전 관리, 보안 스캐너까지 연결하면 대기 시간과 비용은 사용자 경험의 일부가 됩니다. OpenAI가 Jalapeño 발표에서 Codex를 예시 워크로드로 꺼낸 것은 우연이 아닙니다. 장시간 에이전트가 제품의 기본 사용 방식이 되면, 추론 효율은 단순한 내부 비용 절감이 아니라 기능 한도와 가격 정책을 정하는 변수입니다.

이 관점에서 Jalapeño는 OpenAI의 최근 발표들과 맞물립니다. 6월 21일 OpenAI는 Samsung Electronics 직원에게 ChatGPT와 Codex를 배포한다고 밝혔고, 6월 22일에는 Daybreak와 Patch the Planet으로 보안 분야의 AI 보조 워크플로를 전면에 세웠습니다. 이 발표들은 서로 다른 제품처럼 보이지만 공통점이 있습니다. 모두 모델을 한 번 부르는 데서 끝나지 않고, 조직 단위로 반복 호출되는 업무 흐름을 전제로 합니다. OpenAI가 그 아래 칩까지 직접 설계하려는 이유는 사용량이 커질수록 모델 품질만으로는 단가와 안정성을 통제하기 어렵기 때문입니다.

9개월 tape-out의 의미

OpenAI와 Broadcom은 Jalapeño가 초기 설계부터 제조 tape-out까지 9개월에 도달했다고 밝혔습니다. 고성능 ASIC 개발에서 이 속도는 공격적인 주장입니다. Broadcom 자료는 "고성능 첨단 반도체에서 달성된 가장 빠른 ASIC 개발 주기일 수 있다"고 표현했습니다. 여기서 tape-out은 설계가 제조 단계로 넘어갈 수 있을 만큼 확정되는 이정표입니다. 칩이 대규모 고객 환경에서 검증됐다는 뜻은 아니지만, 종이 설계나 파트너십 발표보다는 한 단계 더 진행된 상태입니다.

OpenAI는 이 속도에 자사 모델이 기여했다고 설명합니다. 구체적으로 어떤 회로 설계, 검증, 커널 최적화, 문서화, 테스트 생성에 모델이 쓰였는지는 아직 공개하지 않았습니다. 그래서 이 대목은 "AI가 칩을 설계했다"는 식으로 확대하면 안 됩니다. 더 현실적인 해석은 칩 설계팀이 OpenAI 모델을 반복 작업, 탐색, 코드와 테스트 보조에 사용했고, Broadcom의 실리콘 구현 경험과 결합해 주기를 줄였다는 쪽입니다. 기술 보고서가 나와야 AI 보조 설계의 실제 범위를 확인할 수 있습니다.

그럼에도 이 문장은 중요합니다. OpenAI가 만든 모델이 OpenAI의 차세대 추론 인프라를 만드는 데 다시 쓰였다는 구조가 드러났기 때문입니다. 모델은 제품이고, 제품 사용량은 더 많은 인프라를 요구하고, 인프라는 다시 모델과 제품의 비용 구조를 바꿉니다. OpenAI가 말하는 "풀스택"은 마케팅 문구만은 아닙니다. 모델, 커널, 서빙 시스템, 네트워크, 칩, 랙, 데이터센터 파트너가 같은 비용 함수 안으로 묶입니다.

Broadcom과 Celestica가 맡은 현실적인 부분

OpenAI 발표는 OpenAI가 칩을 "설계했다"고 말하지만, 실제 제품화에는 Broadcom과 Celestica의 이름이 같이 붙습니다. Broadcom은 맞춤형 ASIC과 네트워킹 실리콘에서 강한 회사이고, 이번 발표에서도 Tomahawk 네트워킹 실리콘을 언급했습니다. LLM 추론 클러스터는 가속기 하나가 빠르다고 끝나지 않습니다. 여러 장치가 캐시, 요청, 중간 상태를 효율적으로 주고받아야 하고, 데이터센터 단위에서는 네트워크 병목이 곧 토큰 지연 시간과 비용으로 돌아옵니다.

Celestica는 보드, 랙, 시스템 통합 쪽 파트너로 언급됐습니다. 이 이름은 일반 소비자에게 덜 알려졌지만, 대규모 배포에서는 중요한 층입니다. 칩이 실제 데이터센터에서 돌아가려면 전력 공급, 냉각, 보드 설계, 랙 구성, 제조 수율, 정비 프로세스가 붙어야 합니다. OpenAI가 자체 칩을 발표했다는 사실보다 더 현실적인 변화는, OpenAI가 모델 회사에서 데이터센터 부품의 요구사항을 직접 정하는 고객으로 이동하고 있다는 점입니다.

Broadcom CEO Hock Tan은 보도자료에서 Microsoft와 다른 파트너를 통한 기가와트 규모 데이터센터 배포를 언급했습니다. 이 표현은 숫자가 크지만 동시에 모호합니다. 몇 개 지역, 몇 세대, 몇 장의 가속기, 어떤 전력 계약을 뜻하는지는 공개되지 않았습니다. 그래도 "기가와트"라는 단위는 OpenAI가 추론 칩을 실험실 장비가 아니라 데이터센터 공급망의 일부로 보고 있음을 보여줍니다. 모델 경쟁은 이제 파라미터 수나 벤치마크 점수만이 아니라 전력 계약과 랙 공급 능력으로도 이어집니다.

개발자에게 돌아오는 변화

개발자가 당장 Jalapeño 칩을 주문하거나 API에서 하드웨어를 선택할 수 있는 것은 아닙니다. OpenAI도 고객 접근 방식, 지역, 가격, 하드웨어 선택권을 공개하지 않았습니다. 하지만 추론 칩이 제품 가격과 기능 한도에 미치는 경로는 비교적 직접적입니다. 전력당 성능이 좋아지고 지연 시간이 줄면 같은 비용으로 더 긴 문맥, 더 많은 도구 호출, 더 긴 에이전트 세션을 제공할 여지가 생깁니다. 반대로 배포가 늦거나 실제 효율이 기대보다 낮으면 사용량 제한과 가격 압박은 계속됩니다.

API 제품팀이 봐야 할 첫 번째 질문은 "모델 이름"보다 "워크로드 모양"입니다. 짧은 채팅, 대량 배치 처리, 장시간 코딩 에이전트, 실시간 음성, 다중 도구 호출은 서로 다른 병목을 가집니다. Jalapeño는 공식적으로 상호작용형 LLM 제품과 현재·미래 LLM 추론을 겨냥합니다. 그래서 이 칩이 실제로 강한 영역은 배치 처리 전체가 아니라 OpenAI가 많이 운영하는 서빙 패턴일 가능성이 큽니다. 기술 보고서가 나오면 토큰당 비용, 지연 시간 분포, 긴 문맥 처리, 캐시 효율을 따로 봐야 합니다.

두 번째 질문은 공급망 독립성입니다. OpenAI는 앞으로도 Nvidia, AMD, 클라우드 파트너의 가속기를 계속 쓸 가능성이 큽니다. 자체 칩 하나가 모든 워크로드를 대체하지는 않습니다. 그러나 특정 추론 경로를 자체 ASIC으로 옮기면 GPU 공급 부족이나 가격 협상에서 선택지가 생깁니다. 이는 개발자에게 직접 보이지 않아도 서비스 안정성, 한도 정책, 모델 가용성에 영향을 줄 수 있습니다.

세 번째 질문은 폐쇄성입니다. OpenAI가 모델, 제품, 칩, 데이터센터 배포를 더 많이 직접 통제할수록 외부 개발자는 더 빠르고 저렴한 API를 받을 수 있습니다. 동시에 하드웨어와 서빙 세부가 더 불투명해질 수도 있습니다. 오픈소스 모델을 자체 인프라에 올리는 팀은 GPU, TPU, Inferentia, 온프레미스 가속기 사이에서 비교 가능한 지표를 요구합니다. OpenAI가 Jalapeño를 내부 제품 최적화에만 쓰면 외부 개발자는 결과 가격과 지연 시간만 볼 수 있습니다. 기술 보고서가 공개돼야 이 격차가 줄어듭니다.

경쟁은 Nvidia 대 OpenAI만이 아니다

일부 보도는 이번 발표를 Nvidia에 대한 도전으로 읽었습니다. 그 해석은 절반만 맞습니다. OpenAI가 자체 추론 칩을 갖는 것은 GPU 의존도를 낮추는 선택지입니다. 하지만 AI 인프라 시장은 단순한 일대일 대결이 아닙니다. Google은 TPU를 오래전부터 내부와 클라우드 제품에 연결했고, AWS는 Trainium과 Inferentia를 밀고 있으며, Microsoft는 Maia 계열을 개발하고 있습니다. Meta도 MTIA로 내부 추천·AI 워크로드를 최적화합니다. OpenAI는 자체 클라우드가 아니라 파트너 데이터센터와 Microsoft 관계 위에서 칩을 배포해야 합니다.

Broadcom의 존재도 이 경쟁을 다르게 만듭니다. Broadcom은 대형 고객을 위한 맞춤형 ASIC과 네트워킹에 강점을 둡니다. OpenAI가 반도체 제조 전체를 직접 품었다기보다, 가장 중요한 추론 요구사항을 정의하고 Broadcom의 구현 능력을 빌려 자체 경로를 만든 쪽에 가깝습니다. 이는 Google TPU처럼 내부 설계와 클라우드 판매가 결합된 모델과도 다르고, Nvidia GPU처럼 범용 생태계를 파는 모델과도 다릅니다. Jalapeño의 성공 여부는 칩 단품보다 OpenAI 제품 사용량, Broadcom 생산 능력, Microsoft 데이터센터 배포가 함께 맞아야 결정됩니다.

이 때문에 비교 지표도 바뀝니다. "몇 FLOPS인가"만으로는 충분하지 않습니다. Codex 같은 제품에서는 한 저장소 작업이 끝날 때까지 걸린 시간, 실패 후 재시도 비용, 캐시 재사용률, 긴 문맥의 지연 시간, 도구 호출 후 다시 모델로 돌아오는 왕복 시간이 더 중요합니다. ChatGPT에서는 동시 사용자 부하, 피크 시간 안정성, 음성·영상 같은 멀티모달 요청과의 결합이 중요합니다. Jalapeño가 어떤 워크로드에서 강한지는 이런 제품 지표로 확인해야 합니다.

아직 비어 있는 질문들

첫째, 최종 벤치마크가 없습니다. OpenAI는 전력당 성능 우위를 말했지만, "기존 최고 수준"이 무엇인지, 어떤 모델과 배치 크기에서 측정했는지, 지연 시간 조건이 무엇인지 공개하지 않았습니다. LLM 추론 벤치마크는 설정에 따라 결과가 크게 달라집니다. 긴 문맥과 짧은 문맥, 입력 토큰과 출력 토큰, 단일 요청과 고동시성 요청, 캐시 적중률에 따라 칩의 장점이 달라질 수 있습니다.

둘째, 가격과 접근 방식이 없습니다. OpenAI가 Jalapeño로 비용을 낮춘다면 그 이익이 사용자 가격, 사용량 한도, 기업 계약, API 처리량 중 어디에 반영될지 아직 알 수 없습니다. 발표는 "더 빠르고 안정적이며 저렴한 AI"를 말하지만, 구체적인 요금표는 없습니다. 개발자에게 중요한 것은 하드웨어 이름보다 월말 청구서와 실패율입니다.

셋째, 배포 일정은 목표일 뿐입니다. 공식 발표는 2026년 말 초기 배포와 이후 다세대 확장을 말합니다. Broadcom 자료의 주의 문구는 공급망, 제조, 수요 변동, 무역 제한, 규제, 사이버 보안 등 여러 위험을 함께 적고 있습니다. 반도체 발표에서 이 문구는 형식적이지만 무시할 수 없습니다. AI 데이터센터 배포는 칩 설계보다 전력, 냉각, 네트워크, 지역 규제에서 지연될 수 있습니다.

OpenAI 풀스택 전략의 실제 테스트

OpenAI는 Jalapeño를 통해 모델 회사가 제품 회사, 보안 회사, 인프라 회사로 동시에 움직이는 모습을 보여줬습니다. 이 전략이 성공하면 개발자는 더 긴 Codex 작업, 더 안정적인 API, 더 낮은 지연 시간, 더 예측 가능한 기업 계약을 얻을 수 있습니다. 실패하면 자체 칩은 또 하나의 공급망 부담이 되고, OpenAI는 Nvidia와 클라우드 파트너에 계속 더 높은 비용을 지불해야 합니다.

지금 단계에서 가장 건전한 결론은 좁게 잡아야 합니다. Jalapeño는 OpenAI가 추론 병목을 더 이상 외부 가속기 조달 문제로만 보지 않는다는 신호입니다. OpenAI는 ChatGPT와 Codex의 실제 사용 패턴을 알고 있고, 그 패턴을 칩 설계 요구사항으로 되돌리고 있습니다. 모델 경쟁의 다음 비용표는 토큰 가격표만이 아니라 메모리 이동, 네트워크, 랙, 전력 계약 위에서 작성됩니다. Jalapeño가 그 비용표를 얼마나 바꿀지는 상세 기술 보고서와 실제 배포가 말해줄 차례입니다.

출처: