2나노 칩렛으로 간 토큰 공장, Furiosa와 Broadcom의 우회로

FuriosaAI와 Broadcom의 3세대 추론 칩 협력은 에이전트 시대 병목이 GPU 밖의 토큰 밀도와 네트워크로 이동했음을 보여줍니다.

AI 요약

무슨 일: FuriosaAI가 Broadcom과 3세대 AI 추론 accelerator 공동 개발을 발표했습니다.
- 공식 발표일은 2026년 5월 27일이며, 방향은 2nm, HBM4/4E, multi-die chiplet, Ethernet fabric입니다.
의미: 에이전트 추론 경쟁이 raw GPU 성능에서 토큰 밀도, rack-scale 통신, 전력 효율로 내려갔습니다.
주의점: 2028년 상반기 sampling 로드맵이라 실제 hyperscale 성능은 아직 검증 전입니다.
- 현재 확인 가능한 근거는 RNGD 양산, Samsung SDS와 LG AI Research 검증 언급, 공식 발표의 architecture claim입니다.

FuriosaAI가 Broadcom과 손잡고 3세대 AI 추론 accelerator를 개발한다고 발표했습니다. 발표일은 2026년 5월 27일입니다. 표면적으로는 AI 반도체 스타트업과 대형 반도체 인프라 회사의 파트너십입니다. 하지만 이 뉴스가 흥미로운 이유는 회사 이름보다 문제 설정에 있습니다. Furiosa와 Broadcom은 이번 협력을 "agentic AI"와 "high-volume token requirements"의 문제로 설명합니다. 더 많은 GPU를 붙이는 이야기가 아니라, 토큰을 계속 만들어내는 추론 공장을 어떻게 설계할지의 문제입니다.

최근 AI 제품의 중심은 한 번 답하고 끝나는 챗봇에서 오래 실행되는 에이전트로 이동하고 있습니다. 에이전트는 답변 하나를 생성하는 대신 계획을 세우고, 도구를 호출하고, 검색하고, 코드를 실행하고, 결과를 검증하고, 다시 모델을 부릅니다. 이 과정에서 inference call이 반복되고, context가 길어지고, MoE routing과 post-training sampling 같은 workload도 늘어납니다. 모델이 똑똑해질수록 계산량이 줄어드는 것이 아니라, 제품이 더 많은 행동을 맡기면서 총 토큰량과 실행 시간이 늘어나는 구조입니다.

그래서 이번 발표의 핵심은 "새 칩이 나옵니다"가 아닙니다. 핵심은 Furiosa의 Tensor Contraction Processor, 즉 TCP architecture를 Broadcom의 XPU Technology and IP Platform, Ethernet scale-up, fabric switches, advanced packaging과 결합해 rack-scale inference platform으로 키우겠다는 점입니다. Furiosa는 이를 multi-die chiplet system이라고 부릅니다. 3세대 플랫폼에는 2nm compute die, HBM4/4E, high-speed inter-chip networking, all-to-all-capable topology가 들어간다고 설명합니다.

Furiosa 3세대 AI accelerator rack-scale 플랫폼 이미지

이 문장을 개발자 관점으로 풀면, 경쟁 축이 조금 달라졌다는 뜻입니다. 지금까지 많은 팀은 "어떤 모델이 더 똑똑한가", "어떤 GPU에서 초당 토큰이 더 많이 나오는가"를 먼저 봤습니다. 이제 에이전트 workload에서는 그 질문만으로 충분하지 않습니다. 동시에 떠 있는 많은 세션이 얼마나 안정적으로 토큰을 생산하는지, rack 안팎으로 데이터가 얼마나 효율적으로 이동하는지, memory bandwidth가 긴 문맥과 MoE routing을 얼마나 버티는지, compiler가 새 모델을 얼마나 빨리 silicon에 올리는지가 중요해집니다. Furiosa와 Broadcom의 발표는 이 질문에 대한 하드웨어 쪽 답입니다.

공식 발표에서 Broadcom Semiconductor Solutions Group의 Charlie Kawwas는 inference performance가 더 이상 raw compute만으로 정의되지 않는다고 말합니다. 그는 data reuse와 서버, rack 간 communication efficiency가 점점 중요해진다고 설명했습니다. 이 말은 보도자료 문장처럼 보이지만, 실제 AI 인프라의 병목을 꽤 정확히 찌릅니다. 대형 모델 추론은 accelerator 한 장 안에서 끝나는 문제가 아닙니다. weight, activation, KV cache, expert routing, batching, speculative decoding, request scheduling이 모두 memory와 network를 건드립니다.

Furiosa가 들고 나온 기반은 RNGD입니다. 회사는 RNGD를 데이터센터용 추론 칩으로 설명하며, TSMC 5nm 공정으로 제조되고 현재 양산 중이라고 밝힙니다. Business Wire 배포본은 RNGD가 180W PCIe accelerator이며 LLM과 agentic AI workload를 겨냥한다고 설명합니다. 또 Samsung SDS와 LG AI Research가 production environment에서 검증했다고 언급합니다. 이 지점은 중요합니다. 3세대 플랫폼은 아직 로드맵이지만, Furiosa는 "이미 양산 칩과 고객 검증이 있다"는 토대를 먼저 깔고 있습니다.

Furiosa RNGD accelerator 양산 이미지

물론 이 발표를 곧장 "GPU 대체"로 읽는 것은 위험합니다. AI accelerator 발표는 늘 강한 언어를 씁니다. GPU가 legacy tax를 안고 있다거나, 특정 architecture가 더 높은 performance-per-watt를 낸다는 주장은 workload와 비교 조건에 크게 좌우됩니다. Furiosa의 공식 글도 GPU의 SIMT model이 irregular memory pattern과 high-frequency communication에 부담을 준다고 주장합니다. 그러나 실제 대규모 고객의 총소유비용, 모델별 latency, batching 효율, compiler maturity, 운영 안정성은 발표문만으로 판단할 수 없습니다.

그럼에도 이번 협력은 무시하기 어렵습니다. Broadcom은 단순한 제조 파트너가 아니라 AI data center의 networking, custom silicon, packaging, Ethernet fabric에서 강한 위치를 가진 회사입니다. hyperscaler custom chip 경쟁에서 Broadcom의 이름은 Google TPU, Meta MTIA, 여러 비공개 custom accelerator 프로젝트와 함께 자주 등장합니다. Furiosa가 Broadcom과 묶인다는 것은 "좋은 칩 하나"가 아니라 "rack과 cluster까지 이어지는 공급망과 interconnect 전략"으로 이야기를 키우겠다는 뜻입니다.

계층	RNGD 기반	3세대 플랫폼 방향
공정과 패키징	TSMC 5nm, PCIe accelerator, 180W class	2nm compute die, multi-die chiplet, advanced packaging
메모리	데이터센터 LLM 추론용 memory subsystem	HBM4/4E로 frontier inference와 MoE routing 대응
확장 방식	서버 단위 추론 효율과 양산 검증 강조	Ethernet, PCIe, fabric switch 기반 rack-scale token factory
소프트웨어	Furiosa SDK, PyTorch mapping, compiler 중심 접근	새 frontier model과 최적화 기법을 빠르게 흡수하는 portability

Furiosa가 반복해서 말하는 단어는 "token density"와 "performance per watt"입니다. 이 표현은 AI product 팀의 비용 감각과 맞닿아 있습니다. ChatGPT 같은 범용 서비스든, Claude Code나 Codex 같은 코딩 에이전트든, enterprise workflow agent든, 실제 비용은 모델 호출 한 번의 가격표만으로 계산되지 않습니다. agent가 한 작업을 완료하기까지 몇 번 모델을 부르는지, 얼마나 긴 context를 유지하는지, tool 결과를 몇 번 재해석하는지, 실패 후 retry가 얼마나 일어나는지가 총비용을 결정합니다. 토큰이 workload의 생산 단위라면, data center는 점점 토큰 공장처럼 설계됩니다.

이때 GPU는 여전히 핵심입니다. 하지만 "GPU만 있으면 된다"는 답은 점점 좁아집니다. 에이전트가 늘어나면 CPU, memory, storage, network, sandbox, queue, scheduler가 함께 바빠집니다. NVIDIA가 최근 Vera CPU를 "agentic AI용 CPU"로 밀고, cloud provider들이 managed agent runtime과 sandbox를 강조하는 것도 같은 흐름입니다. Furiosa와 Broadcom의 차이는 이 논의를 추론 accelerator와 Ethernet fabric 쪽으로 밀어붙인다는 점입니다. 즉, 모델이 토큰을 뱉는 순간만이 아니라 토큰이 계속 흐르게 만드는 cluster 구조를 팔겠다는 전략입니다.

개발자에게 더 직접적인 질문은 software portability입니다. Furiosa는 legacy platform이 새 모델마다 hand-tuned kernel을 많이 요구한다고 비판하고, 자사 SDK의 general compiler가 high-level PyTorch code를 silicon에 자동 mapping한다고 설명합니다. 이 주장은 매우 중요하지만 동시에 검증이 필요합니다. AI 모델 구조는 빠르게 바뀝니다. attention 최적화, KV cache layout, quantization, speculative decoding, MoE routing, multimodal preprocessing이 계속 변합니다. compiler가 이 변화를 얼마나 빨리 따라가느냐가 accelerator 채택의 실제 장벽이 됩니다.

CUDA의 강점은 단지 NVIDIA GPU가 빠르다는 데 있지 않습니다. 수많은 kernel, framework integration, profiling tool, operator coverage, 커뮤니티 경험, cloud SKU가 함께 붙어 있다는 점이 강점입니다. Furiosa가 "CUDA library를 복제하는 것은 전략적 dead end"라고 보는 이유도 여기에 있습니다. 같은 게임을 따라 하기보다 architecture와 compiler를 다르게 설계해 새 모델을 더 적은 수작업으로 올리겠다는 접근입니다. 이 접근이 성공하려면 발표보다 훨씬 지루한 일이 필요합니다. PyTorch, vLLM류 serving stack, Kubernetes, observability, model registry, benchmark harness와 매끄럽게 붙어야 합니다.

이번 발표에서 2nm와 HBM4/4E도 눈에 띄지만, 더 중요한 단어는 all-to-all-capable topology입니다. frontier model inference가 mixture-of-experts로 갈수록 token마다 다른 expert로 라우팅되고, inter-chip communication pattern이 복잡해집니다. 단순히 accelerator 한 장의 연산량을 키우는 것만으로는 부족합니다. expert routing, batching, context reuse가 cluster 전체에서 병목을 만들 수 있기 때문입니다. Broadcom의 Ethernet scale-up과 fabric switch가 들어오는 이유가 여기에 있습니다.

Data Center Knowledge는 이 협력을 Broadcom과 Furiosa가 Ethernet AI fabric에 베팅하는 장면으로 해석했습니다. DCD도 third-generation AI inference platform이라는 관점에서 보도했습니다. 아직 Hacker News나 개발자 커뮤니티에서 깊은 논쟁이 형성됐다고 보기는 어렵습니다. Reddit의 관련 게시물들은 대부분 주식 뉴스나 보도자료 공유에 머뭅니다. 하지만 조용하다고 중요하지 않은 것은 아닙니다. 인프라 뉴스는 제품 출시처럼 바로 체감되지 않지만, 몇 년 뒤 cloud SKU와 가격표, agent runtime latency로 돌아옵니다.

로드맵도 냉정하게 봐야 합니다. Business Wire 배포본은 sampling이 2028년 상반기에 시작될 예정이라고 설명합니다. 즉 이 플랫폼은 오늘 당장 개발자가 사용할 수 있는 제품이 아닙니다. 2026년의 AI 제품팀이 지금 선택할 수 있는 것은 대부분 NVIDIA, AMD, TPU, Trainium/Inferentia, 일부 specialty accelerator, model API입니다. Furiosa와 Broadcom의 3세대 칩은 2028년 이후 대량 추론 수요를 겨냥한 선언에 가깝습니다. 따라서 이 뉴스의 의미는 단기 구매 가이드가 아니라 방향 신호입니다.

그 방향 신호는 꽤 선명합니다. 첫째, inference가 training 못지않은 전략 계층이 됐습니다. 둘째, agentic AI는 토큰 수요를 폭발적으로 늘릴 수 있는 제품 형태입니다. 셋째, power envelope와 rack density가 모델 품질만큼 중요해집니다. 넷째, network fabric과 compiler가 accelerator의 일부가 됩니다. 다섯째, 한국계 AI 반도체 회사가 Broadcom과 함께 hyperscale 시장을 직접 겨냥할 정도로 custom silicon 경쟁이 다극화되고 있습니다.

한국 독자에게는 FuriosaAI라는 이름 자체도 눈에 들어옵니다. 하지만 이 글의 핵심은 국적이 아닙니다. 더 중요한 것은 AI 인프라 경쟁이 점점 "모델 회사 대 모델 회사"에서 "토큰 생산 체인 대 토큰 생산 체인"으로 바뀐다는 점입니다. OpenAI, Anthropic, Google, Meta가 모델을 고도화할수록, 누군가는 그 모델을 싸고 빠르게 돌리는 공장을 만들어야 합니다. 그 공장은 accelerator, HBM, switch, compiler, scheduler, cooling, power contract, cloud pricing까지 포함합니다.

이 관점에서 Furiosa와 Broadcom의 조합은 우회로입니다. NVIDIA의 CUDA와 NVLink 생태계를 정면으로 복제하는 것이 아니라, TCP architecture, Broadcom fabric, general compiler, HBM4/4E chiplet로 다른 병목을 겨냥합니다. 우회로가 큰길이 될지는 아직 모릅니다. 그러나 에이전트가 더 많은 추론 호출을 만들고, enterprise가 private inference와 sovereign AI를 요구하고, data center 전력이 가장 비싼 자원이 된다면 이런 우회로는 계속 등장할 것입니다.

개발팀이 지금부터 챙겨볼 질문도 달라집니다. 모델 benchmark만 보면 안 됩니다. 같은 품질을 낼 때 tokens per watt가 어떤지, long-running agent session에서 cache와 memory가 어떻게 쓰이는지, MoE model을 serving할 때 interconnect가 병목이 되는지, compiler가 새 모델 family를 얼마나 빨리 지원하는지, cloud vendor가 accelerator 비용을 어떻게 과금하는지를 함께 봐야 합니다. 결국 agentic AI의 사용자 경험은 "생각이 깊은 모델"과 "멈추지 않는 실행 인프라"가 함께 만들어냅니다.

FuriosaAI와 Broadcom의 발표는 아직 답이 아니라 질문지에 가깝습니다. 2028년 sampling, 실제 성능, supply, software maturity, cloud availability를 더 확인해야 합니다. 다만 질문의 방향은 중요합니다. 에이전트 시대의 병목은 GPU 한 장의 TFLOPS에만 있지 않습니다. 토큰을 많이, 오래, 안정적으로, 전력 안에서 만들어내는 전체 시스템에 있습니다. 이번 협력은 그 시스템을 "토큰 공장"으로 설계하려는 시도입니다.

출처: FuriosaAI 공식 발표, Business Wire 배포본, Data Center Knowledge 보도, Data Center Dynamics 보도.