8B LLM이 1GB에 담겼다, 1-bit 양자화가 실험실을 벗어난 날

PrismML이 세계 최초 상용 1-bit LLM Bonsai를 출시했습니다. 8B 모델이 1.15GB로 줄어 iPhone에서 44 tok/s로 구동되며, Caltech 30년 연구와 $16.25M 펀딩이 뒷받침합니다.

16GB짜리 모델이 1.15GB가 되었습니다. 14배 압축 입니다. PrismML이 2026년 3월 31일 스텔스에서 벗어나며 공개한 1-bit Bonsai 8B 는 세계 최초의 상용 1-bit LLM입니다. iPhone 17 Pro Max에서 44 tokens/sec, RTX 4090에서 368 tokens/sec 로 동작합니다. FP16 대비 8배 빠르고, 에너지는 4~5배 덜 씁니다. 가격표는 없습니다. Apache 2.0 오픈소스입니다.

Microsoft의 BitNet이 2024년 "1-bit LLM이 가능하다"를 학술적으로 증명했다면, PrismML은 "지금 당장 쓸 수 있다"를 보여주는 첫 번째 상용 사례입니다. Caltech 교수의 30년 신경망 압축 연구, Khosla Ventures의 $16.25M 투자, 그리고 iPhone부터 RTX 4090까지 아우르는 멀티 플랫폼 지원. 1-bit 양자화가 논문 속 실험에서 프로덕션 제품으로 넘어온 전환점을 살펴보겠습니다.

FP16에서 1-bit까지, 양자화 전쟁의 연대기

LLM의 크기를 줄이려는 시도는 양자화(quantization)라는 이름으로 꾸준히 진행되어 왔습니다. 각 파라미터를 표현하는 비트 수를 줄이면, 모델 크기와 연산량이 함께 줄어드는 원리입니다.

8B 모델 양자화 단계별 크기 비교

1-bit: 14배 압축

FP16 (16비트)16 GB

100%

INT8 (8비트)8 GB

50%

INT4 (4비트, GPTQ/AWQ)4 GB

25%

1-bit Bonsai (1.125 bpw)1.15 GB

FP16 대비 14배 압축7.2%

전통적인 LLM은 각 파라미터를 16비트 부동소수점(FP16) 으로 저장합니다. 8B 모델이면 약 16GB입니다. 여기서 INT8(8비트)로 줄이면 절반인 8GB, INT4(4비트, GPTQ/AWQ 등)로 가면 4GB까지 내려갑니다. 그런데 이 방식들에는 공통점이 있습니다. 모두 FP16으로 학습된 모델을 사후에 압축하는 후처리 양자화(Post-Training Quantization)라는 점입니다. 비트를 깎을수록 품질 손실이 누적됩니다.

1-bit은 다른 게임입니다. 각 가중치를 +1 또는 -1, 단 두 값으로만 표현합니다. 후처리로 깎아내리는 것이 아니라, 처음부터 1-bit 구조로 설계하고 학습 합니다. PrismML은 이를 "네이티브 1-bit 학습"이라고 부릅니다. 128개 가중치마다 하나의 FP16 스케일 팩터를 공유하여, 실효 비트 수는 약 1.125 bpw(bits per weight)입니다.

이 접근의 학술적 토대를 놓은 것이 Microsoft의 BitNet b1.58 입니다. 2024년 발표된 이 연구는 1 세 값(ternary)을 사용하는 1.58-bit 구조로, 네이티브 저비트 학습이 실용적 품질을 달성할 수 있음을 보여줬습니다. 하지만 BitNet은 2B 파라미터 규모의 학술 연구에 머물러 있었고, CPU 최적화 중심이었습니다. 상용 제품으로 나온 적은 없었습니다.

PrismML이 이 간극을 메웠습니다. 8B 규모로 스케일업하고, GPU/Apple Silicon/모바일까지 멀티 플랫폼을 지원하며, Locally AI 앱 파트너십으로 즉시 배포 가능한 형태를 갖췄습니다.

곱셈이 사라졌다, 1-bit의 기술적 원리

1-bit 연산이 왜 빠르고 효율적인지를 이해하려면, 신경망 추론의 핵심 연산을 봐야 합니다. LLM 추론은 대부분 행렬 곱셈 입니다. 가중치와 입력의 곱을 계산하는 과정이 연산의 대부분을 차지합니다.

그런데 가중치가 +1 또는 -1뿐이라면 어떻게 될까요? 곱셈이 필요 없어집니다. +1을 곱하면 그대로, -1을 곱하면 부호만 바꾸면 됩니다. 행렬 곱셈이 단순 덧셈과 뺄셈 으로 대체됩니다. 곱셈기(multiplier)는 하드웨어에서 가장 전력을 많이 소비하는 유닛 중 하나입니다. 이것이 사라지면 에너지 효율이 극적으로 개선됩니다.

PrismML의 Bonsai 8B 아키텍처를 살펴보겠습니다.

베이스 아키텍처: Qwen3-8B dense (Grouped Query Attention)
레이어: 36 Transformer 디코더 블록
어텐션: 32 query / 8 KV heads
MLP: SwiGLU
포지션 인코딩: RoPE
컨텍스트 길이: 65,536 토큰

여기서 주목할 점은 "진정한 end-to-end 1-bit" 이라는 것입니다. embeddings, attention projections, MLP projections, LM head까지 모든 구성 요소가 1-bit 입니다. 일부 레이어만 낮은 비트로 바꾸고 나머지는 높은 정밀도를 유지하는 "higher-precision escape hatches"가 없습니다. 이것이 BitNet과도 구별되는 지점입니다. BitNet b1.58은 ternary(1)로 실질적으로 1.58-bit인 반면, Bonsai는 binary(1)로 진정한 1-bit입니다.

벤치마크 분석, 14배 작지만 성능은?

숫자는 인상적이지만, 정말 중요한 질문은 하나입니다. "14배 작아진 대가로 얼마나 잃었는가?"

EvalScope v1.4.2 기반 벤치마크에서 Bonsai 8B(1.15GB)는 평균 70.5점 을 기록했습니다. FP16 기준 Llama 3.1 8B(67.1점, 16GB)를 넘어서고, Mistral 3 8B(71.0점, 16GB)에 필적 합니다. 1/14 크기의 모델이 풀사이즈 경쟁자들과 어깨를 나란히 한다는 것입니다.

세부 항목을 보면 강점과 약점이 뚜렷합니다. GSM8K(수학적 추론) 에서 88점으로 FP16 모델들과 사실상 동등합니다. IFEval(지시사항 준수) 에서는 79.8점으로 Llama 3.1 8B(51.5점)를 크게 앞섭니다. 반면, 같은 베이스 아키텍처인 Qwen 3 8B(FP16, 79.3점)과 비교하면 약 11% 낮은 평균 점수를 보입니다. MMLU-R(지식 이해)에서 65.7 대 83이라는 차이가 가장 두드러집니다.

PrismML은 이 결과를 해석하는 새로운 메트릭을 제안했습니다. Intelligence Density(지능 밀도) 입니다.

alpha = -ln(1 - score/100) / size_GB

이 메트릭으로 보면 Bonsai 8B의 지능 밀도는 1.062/GB 로, Qwen 3 8B의 0.098/GB 대비 10.8배 높습니다. GB당 얼마나 많은 지능을 담고 있느냐를 측정하는 지표입니다. 자사에 유리한 메트릭을 만든 것이라는 비판이 가능하지만, 엣지 디바이스에서는 절대 성능보다 "메모리 1GB당 성능"이 더 의미 있는 지표라는 주장에는 설득력이 있습니다.

디바이스별 추론 속도, 어디서 얼마나 빠른가

벤치마크 점수만큼 중요한 것이 실제 구동 속도입니다. 1-bit 모델의 진가는 다양한 하드웨어에서의 추론 성능에서 드러납니다.

디바이스	RAM	추론 속도	FP16 대비	활용 시나리오
RTX 4090	24 GB VRAM	368 tok/s	6.2×	고성능 로컬 서빙
M2 Ultra	192 GB	247 tok/s	—	Mac Pro 워크스테이션
M4 Pro (MLX)	24 GB	131 tok/s	5.1×	MacBook Pro 데일리 작업
M4 Pro (llama.cpp)	24 GB	85 tok/s	—	크로스 플랫폼 호환
RTX 3060 Laptop	12 GB VRAM	81 tok/s	23×	저사양 노트북 (VRAM 부족 해결)
iPhone 17 Pro Max	16 GB	44 tok/s	3.1×	온디바이스 모바일 AI
Samsung S25 Ultra	12 GB	19.6 tok/s	—	Android 플래그십

* RTX 3060 Laptop의 23× 수치는 FP16이 VRAM 부족으로 CPU 오프로드를 사용하기 때문

RTX 4090 에서 368 tok/s는 FP16 대비 6.2배 빠른 수치입니다. 하지만 더 극적인 숫자는 RTX 3060 Laptop 의 81 tok/s, FP16 대비 23배 입니다. 왜 이렇게 차이가 클까요? FP16으로 8B 모델을 돌리려면 16GB VRAM이 필요한데, RTX 3060 Laptop은 VRAM이 부족해서 CPU로 오프로드해야 합니다. 1-bit 모델은 1.15GB로 VRAM에 완전히 들어가므로, GPU 연산의 이점을 온전히 누립니다. 저사양 하드웨어에서 격차가 더 벌어지는 것입니다.

Apple Silicon에서의 성능도 눈에 띕니다. M4 Pro 에서 MLX Python 백엔드로 131 tok/s, llama.cpp Metal로 85 tok/s 를 기록합니다. iPhone 17 Pro Max 에서는 MLX Swift로 44 tok/s 입니다. 4-bit 양자화 모델 대비 3.1배 빠른 속도입니다.

에너지 효율도 주목할 만합니다. M4 Pro에서 토큰당 0.074~~0.091 mWh로 FP16 대비 **5.1~~5.6배** 효율적이고, iPhone에서는 토큰당 약 0.068 mWh입니다. 배터리로 구동되는 모바일 디바이스에서 이 차이는 사용 시간을 직접적으로 좌우합니다.

세 가지 모델, 세 가지 시장

PrismML은 단일 모델이 아닌 라인업 으로 출시했습니다. 디바이스 스펙트럼에 맞춘 전략입니다.

Bonsai 8B(1.15GB)는 스마트폰과 노트북을 타겟으로 합니다. 앞서 살펴본 벤치마크의 주인공입니다. Bonsai 4B(0.5GB)는 저사양 스마트폰과 태블릿을 위한 모델입니다. 그리고 Bonsai 1.7B(0.24GB)가 가장 흥미로운 포지셔닝을 차지합니다. 240MB라는 크기는 IoT 기기, 웨어러블, 로봇 에 LLM을 탑재할 수 있는 수준입니다. 기존에 "불가능"하다고 여겨졌던 엣지 디바이스 AI 시나리오가 현실적인 옵션이 됩니다.

지원 포맷도 폭넓습니다. llama.cpp용 GGUF Q1_0_g128, Apple Silicon 네이티브 MLX 1-bit g128, iOS/macOS용 MLX Swift, Android용 OpenCL까지. 다만 현재 llama.cpp의 Q1_0_g128 커널은 PrismML의 포크에서만 지원됩니다. 메인 llama.cpp 레포에 머지되기 전까지는 별도 빌드가 필요합니다.

범용

Bonsai 8B

1.15

▸스마트폰 · 노트북

▸44 tok/s (iPhone 17 Pro Max)

▸368 tok/s (RTX 4090)

Apache 2.0

IoT · 웨어러블

Bonsai 4B

0.5

▸저사양 스마트폰 · 태블릿

▸IoT 기기 · 웨어러블

▸4B 파라미터

Apache 2.0

초경량 엣지

Bonsai 1.7B

0.24

▸240 MB — 마이크로컨트롤러급

▸로봇 · 엣지 디바이스

▸1.7B 파라미터

Apache 2.0

Caltech 30년 연구와 $16.25M 베팅

PrismML의 기술적 깊이를 이해하려면 창업팀의 배경을 알아야 합니다. CEO Babak Hassibi 는 Caltech 전기공학과의 석좌교수입니다. 1993년, 그는 "Optimal Brain Surgeon" 이라는 논문을 발표했습니다. 신경망에서 어떤 가중치를 제거해도 성능이 유지되는지를 Hessian(2차 미분) 정보로 정밀하게 판단하는 프루닝 기법이었습니다. 신경망 압축 분야의 기초 연구로 꼽히는 이 논문에서 시작된 30년 넘는 연구가, 1-bit 네이티브 학습이라는 극한 형태로 귀결된 것입니다.

Hassibi 교수는 이렇게 말합니다.

"우리는 신경망의 추론 능력을 잃지 않으면서 압축하기 위해 수년간 수학적 이론을 개발했습니다."

공동 창업자 세 명(Sahin Lale, Omead Pooladzandi, Reza Sadri)도 모두 PhD 출신입니다. 이 팀의 무기는 Caltech의 독점 지적재산입니다.

투자 규모도 주목할 만합니다. $16.25M SAFE + 시드 펀딩 을 확보했으며, 리드 투자자는 Khosla Ventures 와 Cerberus Ventures 입니다. Google에서 v4 TPU 컴퓨팅 그랜트를 받기도 했습니다. 모델은 Apache 2.0 라이선스로 완전 오픈소스 공개되었습니다. 학술 연구의 신뢰도, 벤처 캐피털의 자금, 오픈소스의 확산력을 동시에 확보한 구조입니다.

Microsoft BitNet vs PrismML Bonsai, 학술과 상용의 분기점

1-bit LLM 생태계에서 Microsoft BitNet과 PrismML Bonsai를 직접 비교하면 차이가 명확해집니다.

BitNet b1.58은 2B 파라미터 규모에서 ternary(1) 가중치를 사용하며, CPU 최적화에 초점을 맞춘 학술 연구입니다. MIT 라이선스로 공개되어 있지만, 프로덕션 배포를 위한 멀티 플랫폼 지원이나 앱 파트너십은 없습니다.

Bonsai는 8B로 4배 스케일업하여 실용적 품질을 확보했고, binary(1)로 더 극단적인 압축을 달성했습니다. GPU, Apple Silicon, iPhone, Android를 모두 지원하며, Locally AI 앱과의 파트너십으로 일반 사용자도 접근할 수 있습니다. 학술 연구가 "이론적 가능성"을 열었다면, PrismML은 "제품화된 현실"을 만든 셈입니다.

기존 INT4 후처리 양자화(GPTQ, AWQ)와도 다릅니다. 후처리 양자화는 이미 학습된 모델을 사후에 깎는 방식이라, 비트 수가 줄수록 품질 손실이 심해집니다. 네이티브 1-bit 학습은 처음부터 저비트 구조에 맞춰 학습하므로, 같은 비트 수에서 더 높은 품질을 유지할 수 있습니다.

커뮤니티 반응, 열광과 회의 사이

업계 인사들의 반응은 긍정적입니다. Khosla Ventures의 창업자 Vinod Khosla 는 이렇게 말했습니다.

"AI의 미래는 누가 가장 큰 데이터센터를 지을 수 있느냐로 결정되지 않을 것입니다. 에너지와 비용 단위당 가장 많은 지능을 전달할 수 있는 자가 결정할 것입니다."

Databricks 공동 창업자이자 UC Berkeley 교수인 Ion Stoica 는 "모델을 1-bit 표현으로 줄이는 것은 최적화 방정식을 변화시킨다"며, "클라우드에서 새로운 유형의 경제적으로 확장 가능한 AI 시스템"이 가능해진다고 평가했습니다. Google VP Bill Jia 도 "고급 모델이 제한된 디바이스에서 실행될 수 있을 때, 시스템 설계를 처음부터 끝까지 재구성하게 된다"고 언급했습니다.

HuggingFace에서는 출시 초기 기준 50 likes와 80 downloads를 기록했습니다. GGUF와 MLX 포맷 모두 제공되어 접근성은 확보된 상태입니다.

하지만 회의적인 시각도 분명히 존재합니다. 주요 우려를 정리하면 다음과 같습니다.

첫째, 벤치마크 vs 실사용 품질 문제입니다. 표준 벤치마크에서 높은 점수를 받아도, 실제 대화나 복잡한 추론에서의 품질은 다를 수 있다는 것은 AI 커뮤니티의 오래된 비판입니다. 독립적인 Chatbot Arena 평가나 커뮤니티 블라인드 테스트 결과가 나오기 전까지는 판단을 유보해야 합니다.

둘째, "진짜 1-bit인가" 라는 논란입니다. 128개 가중치마다 FP16 스케일 팩터를 공유하므로 실효 비트 수는 1.125 bpw입니다. 순수한 1-bit과는 차이가 있다는 지적이 가능합니다. 다만, 이 스케일 팩터 없이는 품질이 크게 떨어지므로 실용적 타협이라는 반론도 있습니다.

셋째, 대규모 데이터 학습의 한계 입니다. 일부 연구에 따르면 100조 토큰 이상으로 완전히 학습된 모델에 저비트 양자화를 적용하면 성능 저하가 더 심해질 수 있다는 우려가 있습니다. Bonsai가 더 큰 규모로 스케일업할 때 이 한계에 부딪힐지는 아직 미지수입니다.

넷째, Qwen 3 8B FP16 대비 11%의 성능 차이 가 실무에서 체감되는 수준인지의 문제입니다. 14배 작다는 것은 인상적이지만, 그 대가가 무시할 수 없는 수준이라면 일부 용도에서는 4-bit 양자화가 더 나은 선택일 수 있습니다.

엣지 AI의 다음 단계

PrismML Bonsai의 출시가 가리키는 방향은 명확합니다. AI가 클라우드에서 디바이스로 내려오는 흐름이 가속 된다는 것입니다.

단기적으로는 커뮤니티 독립 벤치마크가 핵심입니다. HuggingFace Open LLM Leaderboard, Chatbot Arena 등에서의 평가가 나와야 Bonsai의 실력이 검증됩니다. llama.cpp 메인 레포에 Q1_0_g128 커널이 머지되는 것도 생태계 확산의 분수령이 될 것입니다.

중기적으로는 전용 하드웨어 최적화 가 관건입니다. 1-bit 연산은 곱셈기 없이 가산기만으로 가능하므로, Apple Neural Engine이나 Qualcomm NPU에서 1-bit 최적화를 지원하면 효율이 한 단계 더 도약합니다. 70B급 1-bit 모델이 나온다면, 데스크톱에서 GPT-4급 추론이 가능해지는 시나리오도 그려집니다.

장기적으로는 데이터센터 경제학 자체가 바뀝니다. 같은 GPU 클러스터에서 14배 더 많은 모델 인스턴스를 서빙할 수 있다면, 추론 비용이 극적으로 감소합니다. 고가 GPU 없이도 고품질 AI 모델을 구동할 수 있게 되면, AI 접근성의 민주화에도 기여합니다.

한 가지 더 생각해볼 점이 있습니다. 완전 로컬 AI가 보편화되면, 현재의 "서버 측 통제" 중심 AI 규제 모델이 재검토되어야 할 수 있습니다. 모델이 디바이스에서 독립적으로 구동되는 세상에서, 중앙 서버에서의 콘텐츠 필터링이나 사용 제한은 의미를 잃기 때문입니다. 이 기술적 전환이 규제 논의에 어떤 영향을 미칠지도 주목해야 합니다.

이전에 다룬 iPhone 17 Pro에서의 400B LLM 구동 사례가 SSD 스트리밍으로 "큰 모델을 작은 RAM에서 돌리는" 접근이었다면, PrismML의 Bonsai는 모델 자체를 줄여서 통째로 메모리에 올리는 접근입니다. 두 기술은 상호 보완적입니다. Flash-MoE 같은 스트리밍 기술과 1-bit 양자화를 결합하면, 엣지 AI의 가능성은 더욱 확장됩니다.

1-bit 양자화가 실험실을 벗어났습니다. Bonsai가 그 첫 번째 증거입니다. 이제 남은 질문은 "가능한가"가 아니라, "얼마나 빨리 생태계가 따라오는가"입니다.