iPhone 17 Pro에서 400B LLM이 돌아갔다, 온디바이스 AI의 새 이정표

RAM 12GB 스마트폰에서 200GB짜리 모델을 구동한 Flash-MoE 기술의 원리, A19 Pro의 AI 성능, 그리고 온디바이스 AI의 미래를 분석합니다.

Hacker News에 638점 을 기록한 데모 영상 하나가 AI 커뮤니티를 뒤흔들었습니다. iPhone 17 Pro에서 400억이 아닌 4,000억(400B) 파라미터 의 대규모 언어 모델이 돌아가는 장면이었습니다. 클라우드 연결 없이, 완전한 온디바이스 추론으로. 일반적으로 이 규모의 모델을 로드하려면 최소 200GB의 메모리 가 필요합니다. iPhone 17 Pro의 RAM은 12GB 입니다. 어떻게 가능했을까요?

SSD에서 GPU로 — Flash-MoE의 핵심 아이디어

이 데모의 주인공은 오픈소스 프로젝트 ANEMLL(Artificial Neural Engine Machine Learning Library, "animal"이라고 읽습니다)이 개발한 Flash-MoE 추론 엔진입니다. 구동된 모델은 Alibaba의 Qwen3.5-397B-A17B, 총 397B 파라미터의 Mixture of Experts(MoE) 모델입니다.

핵심 발상은 단순합니다. 모델 전체를 RAM에 올리지 않는다. 대신, 필요한 부분만 NVMe SSD에서 GPU로 직접 스트리밍합니다.

Flash-MoE 추론 파이프라인

NVMe SSD

209GB 모델 (4-bit)

512 experts/layer

→

Expert 선택

토큰당 4~10개만 활성화

~6.75MB/expert

→

GPU 추론

RAM 5.5GB만 사용

OS page cache 활용

→

출력

0.6 tokens/sec

~1.5초당 1단어

MoE 아키텍처가 이것을 가능하게 합니다. 모델은 레이어당 512개의 expert 를 가지고 있지만, 각 토큰을 생성할 때 실제로 활성화되는 expert는 4~10개 에 불과합니다. 즉, 전체 400B 파라미터 중 실제 연산에 참여하는 것은 극히 일부입니다. Flash-MoE는 이 특성을 활용해, 활성화될 expert의 가중치만 SSD에서 읽어와 GPU에 전달합니다.

구체적인 기술 스택을 살펴보겠습니다.

parallel pread() + GCD dispatch groups: 여러 expert의 가중치를 병렬로 SSD에서 읽어옵니다
OS page cache: 커스텀 캐시를 구현하지 않고 운영체제의 페이지 캐시를 신뢰합니다. "Trust the OS" 원칙입니다
FMA-Optimized Dequant Kernel: GPU의 fused multiply-add 유닛에서 역양자화와 행렬 곱셈을 하나의 명령어로 처리하여 naive 구현 대비 12% 성능 향상 을 달성했습니다
4-bit 양자화: 전체 모델을 209GB로 압축합니다

이 접근 방식은 Apple이 2023년에 발표한 "LLM in a Flash" 논문에서 제안된 아이디어의 연장선입니다. 당시에는 이론적 제안이었던 것이, iPhone 17 Pro의 하드웨어 발전 덕분에 실제 데모로 구현된 것입니다.

A19 Pro — 모바일 AI 칩의 새로운 기준

이 데모가 iPhone 17 Pro에서 가능했던 이유는 A19 Pro 칩 의 AI 연산 능력에 있습니다.

38 TOPS

16코어 Neural Engine

초당 38조 회 연산

GPU Neural Accelerators

A18 Pro 대비 AI 연산 성능

3.1x

대형 Transformer 추론

iPhone 16 Pro 대비 GPU 성능

A19 Pro의 가장 큰 변화는 Neural Accelerators 의 도입입니다. Apple10 GPU 아키텍처는 각 GPU 코어 안에 전용 텐서 처리 유닛을 내장했습니다. 기존의 별도 Neural Engine(16코어, 38 TOPS)에 더해, GPU 6코어 각각이 행렬 곱셈에 최적화된 연산 유닛을 갖게 된 것입니다.

이것이 의미하는 바가 큽니다. LLM 추론의 핵심 병목은 메모리 대역폭 입니다. 각 토큰을 생성할 때마다 모델 가중치 전체를 읽어야 하기 때문입니다. A19 Pro의 LPDDR5X 메모리는 76.8 GB/s 의 대역폭을 제공합니다. 데이터센터 GPU의 2~~3 TB/s에 비하면 여전히 30~~50배 느리지만, 이전 세대 모바일 칩 대비로는 의미 있는 진전입니다.

Flash-MoE가 MoE의 희소성을 활용해 실제로 읽어야 하는 데이터량을 극적으로 줄이고, A19 Pro가 줄어든 데이터를 더 빠르게 처리합니다. 이 두 요소의 결합이 불가능해 보이던 데모를 현실로 만들었습니다.

0.6 t/s의 냉정한 현실

흥분을 가라앉히고 숫자를 직시할 필요가 있습니다. 0.6 tokens/sec. 이것은 1.5~2초에 한 단어 를 생성하는 속도입니다. 100단어 응답을 받으려면 약 3분 을 기다려야 합니다.

Hacker News의 한 사용자(causal)는 이렇게 풍자했습니다.

0.6 t/s, 30초를 기다려서 이 수십억 번의 계산이 내놓은 결과: "That is a profound observation, and you are absolutely right..."

실용성 측면에서의 문제는 속도만이 아닙니다.

배터리 소모: 한 사용자(mlsu)의 추정에 따르면, 한 번의 쿼리가 배터리의 약 0.5% 를 소모합니다. 하루 200번 질문하면 배터리가 바닥납니다. SSD에서 지속적으로 대량의 데이터를 읽는 작업은 모바일 기기의 전력·열 설계 범위를 크게 벗어납니다.

발열: 지속적인 SSD 읽기와 GPU 연산은 iPhone의 써멀 스로틀링을 유발합니다. 게임을 30분 돌리면 뜨거워지는 현상을 떠올려 보시면 됩니다. LLM 추론은 그보다 더 지속적인 부하를 가합니다.

첫 토큰까지의 시간(TTFT): MacBook 기준으로도 거의 50초 가 걸립니다. iPhone에서는 이보다 더 길 것으로 예상됩니다.

회의론자 ottah는 더 직접적으로 말했습니다.

실용적인 핸드헬드 LLM 추론이 가능해지려면 15~20년은 더 걸린다.

그럼에도 이것이 중요한 이유

그렇다면 이 데모는 단순한 기술적 쇼에 불과한 것일까요? 커뮤니티의 반응은 두 갈래로 나뉘지만, 이 데모의 진정한 의미는 다른 곳에 있습니다.

첫째, 같은 기법을 작은 모델에 적용했을 때의 가능성입니다. 400B 모델에서 0.6 t/s라면, 79B 모델에서는 어떨까요? Flash-MoE의 SSD 스트리밍과 MoE 희소성 최적화를 작은 모델에 적용하면, 실용적 속도의 완전한 오프라인 AI 가 스마트폰에서 가능해집니다. 실제로 ANEMLL 프로젝트는 Gemma 3(270M4B), LLaMA, Qwen 2.5 등 다양한 크기의 모델을 Apple Neural Engine에서 구동하는 것을 지원합니다.

둘째, 프라이버시와 비용의 구조적 변화입니다. 온디바이스 추론은 데이터가 기기를 떠나지 않습니다. API 비용도 없습니다. 인터넷 연결도 필요 없습니다. 이것은 의료, 법률, 금융 등 데이터 민감도가 높은 분야에서 특히 중요합니다.

온디바이스 AI vs 클라우드 AI — 트레이드오프

	온디바이스	클라우드
프라이버시	데이터가 기기에 머묾	서버로 전송
비용	추론 비용 $0	토큰당 과금
오프라인	인터넷 불필요	항상 연결 필요
속도	0.6{'~'}5 t/s (모델·기기별)	50~100+ t/s
모델 크기	메모리·저장공간 제약	제한 없음
배터리	높은 소모	네트워크 비용만

셋째, 데이터센터 의존도의 점진적 감소입니다. HN 사용자 cmiles8의 말처럼, "사용 사례의 95%에 충분한" 오픈소스 모델이 개인 하드웨어에서 돌아가는 미래는 AI 산업의 구조를 바꿀 수 있습니다. 현재 AI 추론의 대부분은 소수의 클라우드 제공자에게 집중되어 있습니다. 온디바이스 AI는 이 중앙화 구조에 대한 분산형 대안입니다.

FlashMoE — 학술적 기반

이 데모의 기술적 기반은 단순한 해킹이 아닙니다. arXiv에 게재된 FlashMoE 논문 (arXiv:2601.17063)은 SSD 기반 MoE 추론의 핵심 병목인 I/O를 체계적으로 해결합니다.

기존의 MoE 오프로딩 시스템은 LRU(Least Recently Used)나 LFU(Least Frequently Used) 같은 고전적 캐시 교체 정책을 사용합니다. FlashMoE는 여기에 ML 기반 캐시 교체 전략 을 도입했습니다. 최근 사용 빈도와 접근 빈도를 적응적으로 결합하는 경량 모델이 어떤 expert를 캐시에 유지할지 결정합니다.

결과는 인상적입니다.

캐시 적중률: LRU/LFU 대비 최대 51% 향상
추론 속도: 기존 MoE 추론 시스템 대비 최대 2.6배 빠름

MacBook Pro(M3 Max, 48GB)에서의 최적화 과정도 주목할 만합니다. 90회 이상의 실험을 거쳐 baseline 0.28 t/s에서 5.74 t/s 까지, 20.5배의 속도 향상 을 달성했습니다. 같은 모델, 같은 하드웨어에서 소프트웨어 최적화만으로 이 정도 차이가 난다는 것은 온디바이스 AI 추론 분야에 아직 엄청난 최적화 여지가 남아 있다는 의미입니다.

온디바이스 AI 생태계의 현주소

이 데모를 더 넓은 맥락에서 보면, 2026년 온디바이스 LLM 생태계는 급속히 성숙하고 있습니다.

모델 측면 에서는, 한때 최소 7B가 필요하다고 여겨졌던 실용적 성능의 기준이 빠르게 내려가고 있습니다. Meta의 Llama 3.2(1B/3B), Google의 Gemma 3(270M부터), Microsoft의 Phi-4 mini(3.8B), Hugging Face의 SmolLM2(135M~1.7B) 등이 sub-billion 파라미터로도 상당한 성능을 보여주고 있습니다.

프레임워크 측면 에서는 Meta의 ExecuTorch(50KB 풋프린트), llama.cpp(CPU 추론), Apple의 MLX(Apple Silicon 최적화), 그리고 ANEMLL(Apple Neural Engine 전용)이 경쟁하고 있습니다.

하드웨어 측면 에서는 모바일 NPU의 성능이 2017년 데이터센터 GPU 수준에 근접하고 있습니다. 하지만 진정한 병목은 메모리 대역폭 입니다. 모바일 기기의 50~~90 GB/s는 데이터센터의 2~~3 TB/s와 비교하면 여전히 30~50배 차이입니다. Flash-MoE가 MoE 희소성으로 이 격차를 우회했지만, dense 모델에서는 여전히 근본적 한계입니다.

전망 — 기술 데모에서 일상의 도구로

iPhone 17 Pro의 400B LLM 구동은 분명 기술 데모 입니다. 0.6 t/s로 일상적으로 사용할 수는 없습니다. 하지만 이 데모가 증명한 것은 명확합니다.

SSD 스트리밍, MoE 희소성, 하드웨어 가속의 조합 은 모바일 기기에서 메모리 한계를 넘어서는 모델을 구동할 수 있게 합니다. 이 기법들이 성숙하고, 하드웨어가 매년 진화하면, 현재의 0.6 t/s는 내년에 5 t/s가, 그 다음 해에 20 t/s가 될 수 있습니다.

Apple의 A19 Pro에서 Neural Accelerators를 GPU 코어에 통합한 것은 방향을 말해줍니다. AI 추론은 모바일 칩의 부가 기능이 아니라 핵심 설계 축 이 되고 있습니다. 다음 세대 칩에서는 메모리 대역폭이 더 넓어지고, Neural Engine과 GPU의 협업이 더 깊어질 것입니다.

가장 현실적인 단기 시나리오는 이것입니다. Flash-MoE 기술을 7~9B 모델 에 적용하면, iPhone에서 30~50 t/s 의 실용적 속도로 완전한 오프라인 AI 어시스턴트를 구동하는 것이 가능해집니다. 프라이버시가 보장되고, API 비용이 없으며, 비행기 안에서도 작동하는 개인 AI. 그것이 이 데모가 가리키는 미래입니다.

ANEMLL 프로젝트의 코드는 GitHub에 오픈소스로 공개되어 있습니다. 누구나 기여하고, 실험하고, 이 미래를 앞당길 수 있습니다.