PrismML이 세계 최초 상용 1-bit LLM을 출시했다, Spotify 캐시보다 작은 8B 모델
Caltech 연구진이 설립한 PrismML이 8B 파라미터를 1.15GB로 압축한 1-bit Bonsai LLM을 Apache 2.0으로 공개했다. 스마트폰에서도 실시간 추론이 가능한 엣지 AI의 새 장을 열었다.
Caltech 연구진이 세운 스타트업 PrismML이 3월 31일 스텔스에서 벗어나며 세계 최초 상용 1-bit LLM 1-bit Bonsai 시리즈를 공개했습니다. 가장 큰 모델인 Bonsai 8B의 파일 크기는 1.15GB에 불과합니다. 공동 창업자 Omead Pooladzandi의 표현을 빌리자면, 여러분의 Spotify 캐시보다 작습니다. 그런데 이 모델이 16GB짜리 Meta Llama 3.1 8B보다 벤치마크 평균 점수가 높습니다.
$16.25M의 시드 펀딩을 확보한 PrismML은 Bonsai 8B(1.15GB), 4B(0.5GB), 1.7B(0.24GB) 세 가지 모델을 Apache 2.0 라이선스로 공개했습니다. HuggingFace, GitHub, Google Colab에서 즉시 다운로드할 수 있습니다. 1-bit 양자화가 학술 논문에서 논의되던 시기는 끝났습니다. 상용 제품으로 시장에 나온 것입니다.
1-bit 양자화, 여기까지 오는 데 2년이 걸렸습니다
1-bit LLM이 갑자기 등장한 것은 아닙니다. 이 기술의 뿌리를 이해하려면 2024년 Microsoft Research로 돌아가야 합니다.
2024년 2월, Microsoft Research는 BitNet b1.58 논문을 발표했습니다. 핵심 아이디어는 LLM의 가중치(weight)를 기존 16비트 부동소수점 대신 {-1, 0, +1} 세 가지 값(삼진, ternary)으로 표현하는 것이었습니다. 이론적으로 1.58비트만으로 가중치를 저장할 수 있게 되면서, 모델 크기와 추론 비용을 극적으로 줄일 수 있다는 가능성을 보여주었습니다. 이 연구는 학계와 업계에 큰 반향을 일으켰지만, 공개된 모델은 2B 파라미터 규모에 머물렀고 연구 프레임워크 수준에 그쳤습니다.
그 이후 1-bit 양자화 연구는 꾸준히 진행되었습니다. 기존의 GPTQ나 AWQ 같은 4비트 post-training 양자화 기법은 이미 널리 사용되고 있었지만, 이들은 학습이 끝난 모델을 사후에 압축하는 방식이라 성능 손실이 불가피했습니다. BitNet은 처음부터 저비트로 학습하는 native quantization-aware training이라는 접근법을 택했고, 이것이 핵심적인 차별점이었습니다.
그런데 왜 지금에서야 상용화가 이루어졌을까요? 두 가지 조건이 맞물렸습니다. 첫째, Qwen 3 시리즈 같은 강력한 베이스 아키텍처가 등장해 1-bit 학습의 출발선 자체가 높아졌습니다. 둘째, Caltech의 신경망 양자화 연구가 이론에서 엔지니어링으로 전환될 만큼 성숙했습니다. PrismML의 CEO Babak Hassibi는 Caltech 전기공학과 교수로, 정보이론과 신경망 양자화 분야에서 수십 년간 연구해 온 인물입니다.
Bonsai의 기술적 구조를 파헤칩니다
Bonsai 8B의 기술적 핵심을 구체적으로 살펴보겠습니다.
진정한 1-bit, {-scale, +scale}
Bonsai의 가중치는 진정한 이진(binary) 입니다. 각 가중치는 0이면 -scale, 1이면 +scale, 단 두 가지 값만 가집니다. Microsoft BitNet b1.58이 {-1, 0, +1} 삼진값을 사용한 것과 비교하면, Bonsai는 한 단계 더 극단적인 압축을 택한 셈입니다.
128개의 가중치마다 하나의 FP16 스케일 팩터를 공유하는 그룹 스케일링 구조를 사용합니다. 이로 인해 실효 비트 수는 가중치당 약 1.125비트가 됩니다. 이 1-bit 양자화는 임베딩, 어텐션 프로젝션, MLP 프로젝션, LM 헤드까지 네트워크 전체에 적용됩니다. 부분적으로 적용한 것이 아니라 전체를 1-bit로 돌린 것입니다.
곱셈이 사라집니다
이 구조의 이론적 장점은 명확합니다. 가중치가 이진값이므로, 선형 레이어에서 곱셈 연산을 단순 덧셈으로 대체할 수 있습니다. GPU에서 가장 비싼 연산인 부동소수점 곱셈이 사라지는 것입니다. 다만 PrismML도 인정하듯, 현재 하드웨어에서 이 이점이 완전히 실현되지는 않았습니다. 지금 단계에서 실질적인 이점은 주로 메모리 풋프린트의 극적인 감소에서 옵니다.
아키텍처 기반
Bonsai 8B는 Alibaba의 Qwen3-8B dense 아키텍처를 기반으로 합니다. 32개의 query head와 8개의 KV head를 가진 GQA(Grouped Query Attention) 구조이며, 36개의 Transformer decoder block으로 구성됩니다. 총 파라미터 수는 8.19B(비임베딩 약 6.95B)이고, 컨텍스트 길이는 65,536 토큰을 지원합니다.
중요한 점은 이것이 post-training quantization이 아니라 네이티브 1-bit 학습이라는 것입니다. 이미 학습된 모델을 사후 압축한 것이 아니라, 처음부터 1-bit 가중치로 학습했습니다. 이것이 품질 유지의 핵심입니다.
파일 크기: 14.2배 압축
숫자가 이 기술의 의미를 가장 직관적으로 보여줍니다.
| 포맷 | 크기 | 압축률 | 비율 |
|---|---|---|---|
| FP16 (원본) | 16.38 GB | - | 1.0x |
| GGUF Q1_0_g128 | 1.15 GB | 93.0% | 14.2x |
| MLX 1-bit g128 | 1.28 GB | 92.2% | 12.8x |
16.38GB가 1.15GB로 줄었습니다. 93%의 데이터가 사라진 셈인데, 뒤에서 살펴볼 벤치마크를 보면 성능 손실은 그에 비해 훨씬 작습니다.
벤치마크: 14배 작은 모델이 Llama 3.1 8B를 이겼습니다
PrismML이 HuggingFace 모델 카드에 공개한 벤치마크 데이터를 보겠습니다.
출처: PrismML HuggingFace 모델 카드 벤치마크 데이터 (점수 범위 0–100)
정확도 벤치마크
| 모델 | 제조사 | 크기 | 평균 | MMLU-R | MuSR | GSM8K | HumanEval+ | IFEval | BFCL |
|---|---|---|---|---|---|---|---|---|---|
| Qwen 3 8B | Alibaba | 16 GB | 79.3 | 83 | 55 | 93 | 82.3 | 84.2 | 81 |
| 1-bit Bonsai 8B | PrismML | 1.15 GB | 70.5 | 65.7 | 50 | 88 | 73.8 | 79.8 | 65.7 |
| Llama 3.1 8B | Meta | 16 GB | 67.1 | 72.9 | 51.3 | 87.9 | 75 | 51.5 | - |
이 표에서 주목할 점이 몇 가지 있습니다.
Bonsai 8B의 벤치마크 평균 70.5는 FP16 Llama 3.1 8B의 67.1보다 높습니다. 14.2배 작은 모델이 풀사이즈 모델을 이긴 것입니다. GSM8K(수학 추론)에서 88점을 기록해 Llama 3.1 8B의 87.9와 사실상 동일하고, IFEval(지시 추종)에서는 79.8로 Llama 3.1 8B의 51.5를 크게 앞섰습니다.
물론 베이스 모델인 Qwen 3 8B(79.3)와 비교하면 약 11% 낮습니다. 특히 MMLU-Redux에서 65.7 대 83으로 격차가 두드러집니다. 지식 집약적 작업에서는 성능 저하가 눈에 띈다는 의미입니다. 하지만 모델 크기가 14.2배 차이라는 점을 감안하면, 이 정도 품질 유지는 인상적입니다.
Intelligence Density: 새로운 메트릭
PrismML은 Intelligence Density(지능 밀도) 라는 자체 메트릭을 제안했습니다. GB당 벤치마크 성능을 측정하는 지표입니다.
| 모델 | 크기 | Intelligence Density (/GB) |
|---|---|---|
| 1-bit Bonsai 8B | 1.15 GB | 1.062 |
| Qwen 3 8B | 16 GB | 0.098 |
Bonsai 8B의 지능 밀도는 Qwen 3 8B 대비 10.8배 높습니다. 자체 메트릭이라 중립적으로 받아들일 필요가 있지만, "GB당 얼마나 많은 지능을 담고 있는가"라는 관점 자체는 엣지 AI 시대에 의미 있는 프레이밍입니다.
추론 속도: 디바이스별 성능
사람이 텍스트를 읽는 속도는 약 4–5 단어/초입니다. Samsung S25 Ultra의 19.6 tok/s도 실시간 대화에 충분한 수준입니다.
실제로 이 모델이 다양한 디바이스에서 어떤 속도로 동작하는지가 핵심입니다.
| 플랫폼 | 백엔드 | 생성 속도 (tok/s) | FP16 대비 |
|---|---|---|---|
| RTX 4090 | llama.cpp CUDA | 368 | 6.2x |
| RTX L40S | llama.cpp CUDA | 327 | 6.3x |
| RTX 3060 노트북 | llama.cpp CUDA | 81 | 23x |
| M4 Pro 48GB | llama.cpp Metal | 85 | 5.4x |
| Samsung S25 Ultra | llama.cpp OpenCL | 19.6 | - |
PrismML 공식 블로그에서는 추가적인 수치도 공개했습니다. iPhone 17 Pro Max에서 약 44 tok/s, M4 Pro Mac에서 136 tok/s, RTX 4090에서 440 tok/s를 기록했습니다.
여기서 특히 눈에 띄는 것은 RTX 3060 노트북에서의 23배 속도 향상입니다. VRAM이 제한적인 노트북 GPU에서 FP16 모델은 사실상 구동이 어렵지만, 1.15GB 모델은 여유롭게 돌아갑니다. 메모리 병목이 사라지면서 속도 격차가 극대화된 것입니다.
스마트폰에서의 성능도 주목할 만합니다. Samsung S25 Ultra에서 19.6 tok/s, iPhone 17 Pro Max에서 44 tok/s는 실시간 대화가 가능한 수준입니다. 사람이 텍스트를 읽는 속도가 대략 초당 4-5단어임을 고려하면, 토큰 생성 속도는 이미 사람의 읽기 속도를 크게 초과합니다.
에너지 효율
엣지 디바이스에서 에너지 효율은 속도만큼이나 중요합니다.
| 플랫폼 | 에너지 소비 (mWh/tok) | FP16 대비 효율 개선 |
|---|---|---|
| RTX 4090 | 0.276 | 4.1x |
| M4 Pro | 0.091 | 5.1x |
| iPhone 17 Pro Max | 0.068 | - |
M4 Pro에서 토큰당 0.091mWh, 즉 FP16 대비 5.1배 에너지 효율이 높습니다. 배터리로 동작하는 모바일 디바이스에서 이 차이는 단순한 수치 이상의 의미를 가집니다. 같은 배터리 용량으로 5배 더 많은 추론을 돌릴 수 있다는 뜻이니까요.
경쟁 구도: BitNet, GPTQ, 그리고 Bonsai
1-bit 양자화 영역에서 PrismML Bonsai의 위치를 경쟁 기술과 비교해 보겠습니다.
PrismML Bonsai
PrismML (Caltech 스핀오프)
- 비트 수
- 1-bit (이진, {-scale, +scale})
- 학습 방식
- 네이티브 1-bit 학습
- 최대 모델 크기
- 8B (공개 모델)
- 메모리 (8B)
- 1.15 GB
- 라이선스
- Apache 2.0
- 상용화 단계
- 시드 스타트업 ($16.25M)
- 하드웨어 최적화
- llama.cpp 포크, MLX 지원
BitNet b1.58
Microsoft Research
- 비트 수
- 1.58-bit (삼진, {-1, 0, +1})
- 학습 방식
- 네이티브 ternary 학습
- 최대 모델 크기
- 2B (공개 모델)
- 메모리 (8B)
- 해당 없음
- 라이선스
- MIT
- 상용화 단계
- 연구 프레임워크
- 하드웨어 최적화
- bitnet.cpp (연구용)
GPTQ / AWQ
커뮤니티 / 오픈소스
- 비트 수
- 4-bit (INT4)
- 학습 방식
- Post-training 양자화
- 최대 모델 크기
- 제한 없음
- 메모리 (8B)
- 약 4–5 GB
- 라이선스
- 도구에 따라 상이
- 상용화 단계
- 광범위 사용 중
- 하드웨어 최적화
- vLLM, llama.cpp 등 지원
| 항목 | PrismML Bonsai | Microsoft BitNet b1.58 | 기존 GPTQ/AWQ (INT4) |
|---|---|---|---|
| 비트 수 | 1비트 (이진) | 1.58비트 (삼진) | 4비트 |
| 학습 방식 | 네이티브 1-bit 학습 | 네이티브 ternary 학습 | Post-training 양자화 |
| 최대 모델 크기 | 8B | 2B (공개 모델) | 제한 없음 |
| 메모리 (8B 기준) | 1.15 GB | 해당 없음 | ~4-5 GB |
| 라이선스 | Apache 2.0 | MIT | 도구 의존 |
| 상용화 단계 | 시드 스타트업 | 연구 프레임워크 | 광범위 사용 |
세 가지 차별점이 두드러집니다.
첫째, 규모입니다. Microsoft BitNet은 공개 모델이 2B까지인 반면, Bonsai는 8B까지 공개했습니다. 더 큰 모델에서 1-bit 학습이 실용적으로 동작한다는 것을 증명한 셈입니다.
둘째, 상용화 지향입니다. BitNet이 연구 프레임워크로 남아 있는 동안, PrismML은 llama.cpp 포크, MLX 지원, iOS 앱(Locally AI)까지 갖춘 상태로 출시했습니다. VC 투자까지 확보하며 "제품"으로서의 체계를 갖추었습니다.
셋째, 에코시스템 접근성입니다. Bonsai는 GGUF Q1_0_g128과 MLX 1-bit g128 두 가지 포맷으로 배포되며, HuggingFace에서 바로 다운로드할 수 있습니다. 다만 표준 llama.cpp로는 동작하지 않고 PrismML이 포크한 버전이 필요하다는 점은 에코시스템 통합 측면에서 아직 풀어야 할 과제입니다.
실무에 미치는 영향
이 발표가 개발자와 AI 실무자에게 구체적으로 어떤 의미를 가질까요?
로컬 LLM 접근성의 대폭 확대
VRAM 1GB면 8B 모델을 실행할 수 있습니다. 이 말은 거의 모든 현대 디바이스에서 8B 파라미터 LLM을 돌릴 수 있다는 뜻입니다. 지금까지 로컬 LLM은 "충분한 VRAM을 가진 사람들의 영역"이었습니다. RTX 3090이나 M 시리즈 Mac을 가진 사용자들이 주로 누릴 수 있었죠. 1.15GB 모델은 이 장벽을 근본적으로 낮춥니다.
프라이버시와 오프라인
클라우드로 데이터를 전송하지 않고 온디바이스에서 추론하면, 민감한 데이터를 외부에 노출할 필요가 없습니다. 의료, 법률, 금융 같은 규제 산업에서 특히 의미 있는 변화입니다. 네트워크가 없는 환경에서도 LLM을 사용할 수 있다는 점 역시 특정 유스케이스에서 결정적 장점이 됩니다.
서빙 비용의 급감
서버 사이드에서도 영향이 큽니다. 동일한 GPU에서 FP16 모델 대비 약 14배 더 많은 모델 인스턴스를 동시에 구동할 수 있습니다. RTX 4090 한 장으로 Bonsai 8B를 여러 인스턴스 서빙하는 것이 현실적으로 가능해집니다. 스타트업이나 소규모 팀에게 GPU 서빙 비용 절감은 사업 모델 자체를 바꿀 수 있는 변수입니다.
현재의 제약 사항
실무에 적용하려면 알아야 할 제약도 분명합니다.
- 자체 llama.cpp 포크 필요: 표준 llama.cpp에서는 Q1_0_g128 커널을 지원하지 않습니다. PrismML이 포크한 버전(PrismML-Eng/llama.cpp)을 빌드해야 합니다
- 지식 집약적 작업에서의 성능 저하: MMLU-Redux 65.7은 FP16 Qwen 3 8B의 83 대비 상당히 낮습니다. 광범위한 지식이 필요한 질의응답에서는 품질 차이가 체감될 수 있습니다
- 하드웨어 최적화 미완성: 곱셈을 덧셈으로 대체하는 이론적 이점은 현 하드웨어에서 완전히 실현되지 않았습니다. 지금의 속도 향상은 주로 메모리 절감에서 오는 것입니다
전문가들은 뭐라고 했을까
PrismML의 출시에 대해 AI 업계 주요 인사들이 논평했습니다.
Khosla Ventures 창업자 Vinod Khosla는 이렇게 말했습니다.
"AI의 미래는 누가 가장 큰 데이터센터를 지을 수 있느냐로 정의되지 않을 것입니다. 에너지와 비용 단위당 가장 많은 지능을 전달할 수 있는 자가 정의할 것입니다."
(원문: "AI's future will not be defined by who can build the largest datacenters...It will be defined by who can deliver the most intelligence per unit of energy and cost.")
Databricks 공동 창업자 Ion Stoica는 효율성의 복리 효과를 강조했습니다.
"모델 레벨에서의 효율성은 인프라 전체로 복리 효과를 냅니다."
(원문: "Efficiency at the model level compounds across infrastructure.")
Google VP Engineering Bill Jia도 시스템 설계 관점에서 의미를 짚었습니다.
"고급 모델이 제약된 디바이스에서 돌아갈 수 있으면, 시스템 설계가 처음부터 끝까지 전부 바뀝니다."
(원문: "When advanced models can run on constrained devices, it reshapes system design end to end.")
Cerberus Ventures의 Amir Salek(전 Google TPU 프로그램 리더)은 전력 문제와의 연결고리를 짚었습니다.
"전력이 AI 데이터센터 확장의 궁극적 병목이 되었으며, PrismML은 전력 대 컴퓨팅 방정식을 근본적으로 변환하고 있습니다."
(원문: "Power has become the ultimate bottleneck for scaling AI datacenters, and PrismML is fundamentally transforming the power-to-compute equation.")
소셜 미디어 반응
PrismML 공동 창업자 Omead Pooladzandi는 X에서 스텔스 탈출을 알리며 인상적인 한 마디를 남겼습니다.
"당신의 Spotify 캐시가 우리의 가장 큰 AI 모델보다 큽니다. 지능은 엣지에 속하며, 우리가 거기에 넣을 것입니다."
(원문: "your spotify cache is bigger than our largest AI model...intelligence belongs at the edge and we're going to put it there.")
Wall Street Journal이 PrismML의 스텔스 탈출을 보도했고, Techmeme에서도 주요 뉴스로 다루었습니다. 발표 직후라 Reddit의 r/LocalLLaMA나 r/MachineLearning에서의 심층 토론은 아직 본격적으로 형성되지 않은 상태입니다. 다만 로컬 LLM 커뮤니티의 특성상, 벤치마크 검증과 실사용 후기가 빠르게 올라올 것으로 예상됩니다.
1-bit가 가리키는 방향
PrismML Bonsai의 출시가 가리키는 방향은 명확합니다. LLM의 중심이 데이터센터에서 엣지로 이동하는 흐름이 가속되고 있습니다.
지금까지 AI 업계의 주류 내러티브는 "더 큰 모델, 더 큰 데이터센터, 더 많은 GPU"였습니다. OpenAI, Anthropic, Google이 수십억 달러를 데이터센터에 투자하고, NVIDIA가 AI 팩토리 개념을 밀어붙이는 흐름이 계속되고 있습니다. 이 방향이 잘못됐다는 것이 아닙니다. 하지만 반대 방향의 혁신도 동시에 진행되고 있다는 것이 Bonsai가 증명한 사실입니다.
Babak Hassibi CEO의 말이 이 방향성을 잘 요약합니다.
"우리는 1-bit를 종착점이 아니라 출발점으로 봅니다. 우리는 AI의 새로운 패러다임을 만들고 있습니다."
(원문: "We see 1-bit not as an endpoint, but as a starting point. We are creating a new paradigm for AI.")
앞으로 주목해야 할 것들
커스텀 하드웨어의 등장 가능성입니다. 1-bit 연산에 최적화된 전용 칩이 나온다면, 현재 메모리 절감에 머물고 있는 이점이 연산 속도에서도 본격적으로 발현될 수 있습니다. 곱셈 대신 덧셈만 수행하는 하드웨어는 기존 GPU 대비 에너지 효율이 극적으로 높아질 수 있습니다.
더 큰 모델로의 확장입니다. 8B에서 증명된 1-bit 학습이 70B, 400B급 모델로 확장될 수 있을까요? 만약 가능하다면, 현재 데이터센터에서만 구동 가능한 대형 모델을 워크스테이션이나 서버 한 대에서 돌릴 수 있게 됩니다.
에코시스템 통합입니다. 현재 PrismML의 자체 llama.cpp 포크가 필요한 것은 채택의 장벽입니다. Q1_0_g128 커널이 표준 llama.cpp에 머지되거나, vLLM, Ollama 같은 주요 서빙 프레임워크에서 지원이 추가되면 채택 속도가 크게 달라질 것입니다.
냉정한 시각도 필요합니다
벤치마크는 인상적이지만, 주의할 점도 있습니다. 벤치마크 평균 70.5는 특정 태스크에서의 평균이며, 실제 사용 경험은 다를 수 있습니다. 특히 MMLU-Redux에서의 큰 격차(65.7 vs 83)는 지식 기반 질의응답에서 체감 품질이 떨어질 가능성을 시사합니다. "Intelligence Density"는 흥미로운 메트릭이지만, PrismML이 자체적으로 제안한 것이므로 업계 표준으로 자리 잡을지는 미지수입니다.
또한 $16.25M 시드 펀딩으로 시작한 스타트업이 장기적으로 모델을 지속 업데이트하고 에코시스템을 확장할 수 있을지도 관건입니다. 1-bit 양자화 기술 자체는 매력적이지만, 제품으로서의 지속 가능성은 별개의 문제입니다.
정리하며
PrismML의 1-bit Bonsai는 "작은 모델도 쓸 만하다"는 수준을 넘어, "극단적으로 작은 모델이 상당히 잘 동작한다"는 것을 증명했습니다. 1.15GB로 8B 파라미터 모델이 Llama 3.1 8B보다 높은 벤치마크 성능을 보이고, 스마트폰에서 실시간 추론이 가능하며, 에너지 효율이 4-5배 높다는 사실은 엣지 AI의 가능성을 구체적으로 보여줍니다.
물론 이것이 데이터센터 기반 대형 모델을 대체한다는 의미는 아닙니다. GPT-5나 Claude 4가 처리하는 복잡한 추론 작업을 1-bit 8B 모델에 기대하기는 어렵습니다. 하지만 모든 AI 작업이 프론티어 모델을 필요로 하는 것은 아닙니다. 간단한 요약, 텍스트 분류, 코드 자동완성, 로컬 어시스턴트 같은 작업에서 1-bit 모델은 충분히 실용적인 선택이 될 수 있습니다.
Caltech 연구실에서 나온 이 기술이 어디까지 갈 수 있을지, 함께 지켜보겠습니다.