26바이트가 80억 파라미터를 바꿨다, TinyLoRA와 RL이 뒤집은 파인튜닝의 상식

Meta FAIR, Cornell, CMU 연구진의 TinyLoRA가 13개 파라미터(26바이트)로 8B 모델에 수학 추론을 가르쳤다. RL이 SFT보다 1000배 효율적이라는 증거가 파인튜닝의 패러다임을 바꾸고 있다.

80억 개의 파라미터를 가진 LLM에 수학 추론 능력을 가르치는 데 필요한 학습 파라미터가 단 13개라면 믿을 수 있을까요? 저장 공간으로 환산하면 26바이트. 여러분이 지금 읽고 있는 이 문장 하나보다도 적은 용량입니다.

Meta FAIR, Cornell University, Carnegie Mellon University 공동 연구진이 발표한 논문 "Learning to Reason in 13 Parameters"가 이를 실증했습니다. 연구진이 개발한 TinyLoRA는 Qwen2.5-7B-Instruct 모델에 13개 파라미터만으로 GSM8K 벤치마크 91.8% 정확도를 달성했습니다. 전체 파인튜닝(Full Fine-Tuning, 약 76억 파라미터)의 91.7%와 사실상 동등한 성능입니다.

하지만 이 연구의 진짜 핵심은 "파라미터를 얼마나 줄였느냐"가 아닙니다. 강화학습(RL)이 지도 미세조정(SFT)보다 극소 파라미터 환경에서 100배에서 1000배 더 효율적이라는 정량적 증거를 제시한 것이 이 논문의 가장 중요한 기여입니다.

LoRA에서 TinyLoRA까지, 파라미터 효율의 극한을 향한 경쟁

파인튜닝의 파라미터 효율을 높이려는 시도는 2021년 LoRA의 등장과 함께 본격화되었습니다. 이 흐름을 이해하면 TinyLoRA가 어디에 위치하는지 명확해집니다.

2021LoRA~3M params

저랭크 행렬 분해로 파인튜닝 파라미터 혁신

2023QLoRA메모리 4× 절감

4비트 양자화 결합, 메모리 4배 추가 절감

2023VeRALoRA 대비 ~10×

공유 랜덤 행렬 + 레이어별 스케일링 벡터

2024DoRALoRA와 동등 수준

가중치 분해로 동일 파라미터에서 성능 향상

2024LoRA-XSLoRA 대비 ~100×

SVD 초기화 + 소형 학습 행렬

2026TinyLoRALoRA 대비 ~100,000×, 최소 1 param

학습 벡터 + 고정 랜덤 텐서 + weight tying

2021년 Microsoft 연구진이 발표한 LoRA(Low-Rank Adaptation)는 사전학습된 가중치를 고정하고 저랭크 행렬 분해를 통해 학습 파라미터를 획기적으로 줄였습니다. 그런데 LoRA도 rank-1로 설정하면 8B 모델 기준 최소 약 300만 개의 파라미터가 필요합니다. 충분히 적다고 느낄 수 있지만, 이후 연구자들은 이 한계를 계속 밀어붙였습니다.

2023년에는 두 가지 중요한 발전이 있었습니다. QLoRA는 4비트 양자화를 LoRA와 결합해 메모리 사용량을 약 4배 추가로 줄였고, VeRA는 모든 레이어에 공유 랜덤 행렬을 사용하고 레이어별 스케일링 벡터만 학습하는 방식으로 파라미터를 LoRA 대비 약 10분의 1로 줄였습니다.

2024년에는 LoRA-XS가 SVD 초기화와 소형 학습 행렬을 도입해 LoRA 대비 약 100배 적은 파라미터를 달성했습니다. 그리고 2026년, TinyLoRA가 등장합니다. LoRA 대비 약 10만 배 적은 파라미터. 이론적 최솟값은 단 1개입니다.

이 진화의 방향이 시사하는 바는 분명합니다. 대형 모델을 특정 과제에 적응시키기 위해 실제로 변경해야 하는 정보량이 우리가 생각했던 것보다 훨씬 적을 수 있다는 것입니다.

TinyLoRA의 기술적 원리, 학습 벡터와 고정 랜덤 텐서

TinyLoRA가 이런 극단적 압축을 달성한 방법을 살펴보겠습니다. 핵심 아이디어는 세 가지 기법의 조합입니다.

첫째, 학습 가능한 행렬을 학습 가능한 벡터로 대체했습니다. 기존 LoRA가 행렬 쌍(A, B)을 학습하는 반면, TinyLoRA는 학습 대상을 벡터 v 하나로 축소합니다. 이 벡터는 모듈당 u개의 요소만 가집니다.

둘째, 고정된 랜덤 텐서(fixed random tensor) P를 통해 이 작은 벡터를 필요한 행렬 형태로 복원합니다. P는 학습하지 않고 초기화 시 고정되므로 저장 공간을 차지하지 않습니다. 동결된 가중치 행렬 W의 절단 SVD에서 얻은 U, Σ, V와 결합해 최종 업데이트를 생성합니다.

셋째, weight tying입니다. 하나의 학습 벡터 v를 여러 모듈이 공유합니다. 표준 트랜스포머는 레이어당 7개 모듈(query, key, value, output, up, down, gate)을 가지는데, weight tying factor(n_tie)를 전체 모듈 수와 동일하게 설정하면 모델 전체가 단 하나의 벡터만 학습합니다. 13개 파라미터라는 숫자가 여기서 나옵니다.

논문의 ablation 연구에서 흥미로운 발견도 있습니다. frozen rank r의 최적값은 2이며, r이 2를 넘으면 오히려 성능이 하락합니다. 고정된 SVD 성분의 자유도가 늘어나면서 극소 학습 벡터의 최적화가 어려워지기 때문입니다. 또한 비트 제약 환경에서는 FP32가 바이트 크기가 2배임에도 BF16이나 FP16보다 더 우수한 결과를 보였습니다. 극소 파라미터 환경에서는 정밀도가 용량보다 중요하다는 뜻입니다.

벤치마크 분석, 13개 파라미터의 실제 성능

숫자를 구체적으로 살펴봅시다. Qwen2.5-7B-Instruct 모델에 GRPO(Group Relative Policy Optimization)를 적용한 결과입니다.

GSM8K 단일 벤치마크에서, 베이스라인(파인튜닝 없음)은 88.2%였습니다. TinyLoRA 13개 파라미터는 91.8%를 달성했고, 표준 LoRA 100,352개 파라미터는 92.8%, 전체 파인튜닝(약 76억 파라미터)은 91.7%였습니다. 13개 파라미터가 76억 파라미터 전체 파인튜닝과 사실상 동등하거나 근소하게 앞섰다는 것이 눈에 띕니다.

하지만 GSM8K 하나만으로는 부족합니다. 6개 수학 벤치마크 종합 결과를 보면 좀 더 균형 잡힌 그림이 그려집니다. MATH500, Minerva, OlympiadBench, AIME24, AMC23까지 포함한 평균에서, 13개 파라미터는 50.1%(베이스라인 40.3% 대비 +9.8%p), 196개 파라미터는 53.2%, 전체 파인튜닝은 55.2%를 기록했습니다. 196개 파라미터가 전체 성능 향상의 87%를 유지한다는 것은 인상적이지만, 전체 파인튜닝과의 격차도 분명히 존재합니다.

GSM8K 정확도 비교 (Qwen2.5-7B-Instruct)

파라미터 수	RL (GRPO)	SFT	RL 우위
13개	91%	83%	+8%p
120개	95%	84%	+11%p
100개 미만	90%	88.2% (베이스라인 수준)	SFT ≈ 베이스라인
100K+ (LoRA)	92.8%	88.2% (베이스라인 수준)	비교 기준점

결론: SFT가 RL과 동일 성능에 도달하려면 100배~1000배 더 많은 파라미터가 필요합니다. 극소 파라미터 환경에서 RL의 우위는 더욱 극대화됩니다.

3B 모델(Qwen2.5-3B-Instruct)에서도 유사한 패턴이 확인됩니다. 16개 파라미터로 GSM8K 80.9%(베이스라인 76.0% 대비 +4.9%p), 252개 파라미터로 종합 평균 45.0%(베이스라인 32.7% 대비 +12.3%p)를 달성했습니다. 특히 흥미로운 것은 스케일링 법칙입니다. 모델 크기가 3B에서 8B로 증가하면 동일 성능 달성에 필요한 TinyLoRA 파라미터 수가 오히려 감소합니다. 더 큰 모델일수록 더 적은 파라미터로 제어 가능하다는 멱법칙 추세를 보여줍니다.

RL vs SFT, 이 논문의 가장 중요한 발견

TinyLoRA 자체보다 더 주목해야 할 것은 RL과 SFT의 효율성 격차입니다. 이것이 이 논문의 핵심 기여입니다.

GSM8K에서 RL(GRPO)과 SFT를 동일 파라미터 예산으로 비교한 결과는 극적입니다. 13개 파라미터에서 RL은 91%, SFT는 83%. 120개 파라미터에서 RL은 약 95%, SFT는 84%. 100개 미만 파라미터에서 RL은 약 90%를 달성하는 반면, SFT는 베이스라인(88.2%)과 거의 차이가 없었습니다.

다시 말해, SFT가 RL과 동일한 성능에 도달하려면 100배에서 1000배 더 많은 파라미터가 필요합니다. 왜 이런 차이가 발생할까요?

연구진은 이를 Signal Separation Hypothesis로 설명합니다. 논문 원문을 인용하면 이렇습니다.

"RL은 더 희소하고 깨끗한 신호를 수신하여, 더 적은 용량으로 효과적인 학습이 가능합니다."

(원문: "RL receives a sparser, cleaner signal, allowing it to learn effectively with less capacity.")

RL의 보상 함수는 "정답인가, 오답인가"라는 극도로 압축된 피드백을 제공합니다. 모델은 이 깨끗한 신호를 바탕으로 "어떻게" 풀지를 자체적으로 탐색합니다. 반면 SFT는 전체 출력 시퀀스를 모방해야 합니다. 정답에 도달하는 추론 과정뿐 아니라, 스타일, 포맷, 표현 방식 등 과제 해결에 직접적으로 필요하지 않은 "잡음"까지 동시에 학습해야 합니다.

극소 파라미터 환경에서 이 차이가 극대화됩니다. 학습할 수 있는 용량이 극히 제한되어 있을 때, RL은 핵심 신호만 효율적으로 인코딩하고, SFT는 잡음에 의해 용량이 소진됩니다. TinyLoRA는 이 이론적 차이를 최초로 정량적으로 증명한 것입니다.

이 발견은 기존 연구들과도 맥을 같이합니다. RL이 훈련 분포 외(OOD) 문제에서 SFT보다 더 나은 일반화를 보인다는 연구, SFT가 중간 레이어에 과제 특화 지식을 과도하게 집중시켜 일반 추론 능력을 손상시킨다는 연구 등이 있었습니다. TinyLoRA의 기여는 이 효율성 차이가 극소 파라미터 예산에서 극대화된다는 점을 보여준 것입니다.

실무에 미치는 영향

이 연구 결과가 당장 프로덕션에 적용될 수 있는 것은 아닙니다. 하지만 몇 가지 방향에서 실무적 함의를 생각해볼 수 있습니다.

어댑터 서빙의 효율성은 가장 직접적인 영향입니다. 논문은 이를 명시적으로 언급합니다.

"추론 시 더 많은 LoRA를 메모리에 저장할 수 있습니다. 어댑터 크기가 10배 줄어들면 동시에 10배 더 많은 LoRA를 서빙할 수 있습니다."

(원문: "At inference time, more LoRAs can be stored in memory: a 10x reduction in the size of an adapter allows 10x more LoRAs to be served concurrently.")

기존 LoRA 어댑터가 수 MB에서 수십 MB인 반면, TinyLoRA는 26바이트에서 수백 바이트입니다. 멀티테넌시 환경에서 사용자별 맞춤 어댑터를 수천, 수만 개 동시에 서빙하는 시나리오에서 이 차이는 의미가 있습니다.

엣지 디바이스 맞춤화도 흥미로운 가능성입니다. 26바이트 어댑터는 IoT, 모바일, 프라이버시 민감 환경에서 온디바이스 커스터마이징을 가능하게 합니다. 어댑터 전송에 필요한 데이터가 문자 그대로 "한 문장보다 적다"는 것은 네트워크 대역폭이 제한된 환경에서 큰 장점입니다.

연합 학습(Federated Learning) 시나리오에서는 클라이언트가 로컬 데이터로 RL 업데이트를 계산한 뒤 마이크로 어댑터만 업스트림으로 전송할 수 있습니다. 통신 비용과 프라이버시 리스크가 극적으로 감소합니다.

그리고 이 모든 것 뒤에 있는 더 근본적인 시사점이 있습니다. 논문의 표현을 빌리면 이렇습니다.

"과제를 풀기 위한 지식은 이미 모델의 파라미터에 저장되어 있으며, 과제 성공을 위해서는 스타일만 바꾸면 됩니다."

(원문: "The knowledge required to solve the task is already stored in the parameters of the model, and only the style has to change for task success.")

13개 파라미터로 수학 추론 성능을 3.6%p 끌어올릴 수 있었던 이유는, 모델이 이미 수학을 "알고 있었기" 때문입니다. 파인튜닝이 한 일은 새로운 지식을 주입한 것이 아니라, 이미 가지고 있는 지식을 올바른 방식으로 표현하도록 "스타일"을 미세 조정한 것입니다.

커뮤니티 반응, 흥분과 회의 사이

이 논문은 소셜 미디어에서 상당한 주목을 받았습니다. Emergent Mind 집계 기준 26개 트윗에서 총 1,551개 좋아요를 기록했습니다.

X에서 Akshay(@akshay_pachaar)는 이렇게 요약했습니다.

"Meta, Cornell, CMU 연구진이 대작을 터뜨렸다. 80억 파라미터 모델을 13개 파라미터만 조정해서 수학과 추론의 강자로 만들었다. 26바이트. 이 문장보다 적은 저장 공간이다."

(원문: "that's 26 bytes. less storage than this sentence.")

논문의 제1저자인 Jack Morris(@jxmnop)는 이 논문이 자신의 Cornell University PhD 마지막 연구임을 밝혔습니다.

"마침내, 제 박사학위의 마지막 논문입니다."

(원문: "at long last, the final paper of my phd.")

Morris는 FAIR에서 파트타임 연구원으로 일하며 이 연구를 수행했고, 2025년 10월 FAIR을 떠난 뒤 여러 현실적 이유로 논문 공개가 지연되었다고 설명했습니다.

반면, 비판적 시각도 있습니다. AI 뉴스레터 Kaitchup의 Benjamin Marie는 상세한 분석에서 몇 가지 중요한 제한을 지적했습니다.

"현재로서는 실용적이지 않습니다."

(원문: "This is not very useful in practice, now.")

Marie의 지적은 세 가지로 요약됩니다. 첫째, 결과가 수학 추론에 국한된다는 점입니다. 가장 강한 결과는 검증 가능한 보상(정답/오답)이 있는 수학 과제에서 나왔습니다. 과학, 창작 글쓰기, 코딩 등 다른 도메인으로의 전이성은 불확실합니다. 둘째, 아키텍처 의존성입니다. Qwen 모델이 LLaMA 대비 약 10배 적은 파라미터로 동등한 성능을 달성했는데, 그 원인이 명확하지 않습니다. 모델에 따라 결과가 크게 달라질 수 있다는 뜻입니다. 셋째, "기존 패턴을 확인하는 수준이지 완전히 새로운 영역을 개척한 것은 아니다"라는 평가입니다.

Hacker News에서는 상대적으로 주목을 덜 받았습니다. 3회 제출에 최대 3포인트, 댓글은 거의 없었습니다. MarkTechPost는 2026년 3월 24일 보도에서 "13개 파라미터로 GSM8K 91.8%"를 헤드라인으로 부각했습니다.

한계와 전망, 냉정한 평가

이 연구의 한계를 분명히 짚어야 합니다.

도메인 범위가 좁습니다. 수학 추론은 "정답이 하나"인, 보상 함수를 명확히 정의할 수 있는 이상적인 도메인입니다. RL의 Signal Separation Hypothesis가 코드 생성, 자연어 추론, 요약 등 보상 함수가 모호한 과제에서도 동일하게 작동할지는 열린 질문입니다.

모델 의존성이 높습니다. Qwen과 LLaMA 사이의 10배 성능 격차는 TinyLoRA의 효과가 모델의 사전학습 품질과 아키텍처에 크게 의존한다는 것을 보여줍니다. 어떤 모델에서는 극적인 결과가, 다른 모델에서는 평범한 결과가 나올 수 있습니다.

실용적 활용 경로가 아직 불명확합니다. 26바이트 어댑터가 인상적인 숫자이지만, 실제 프로덕션 환경에서 13개 파라미터 TinyLoRA를 적용할 시나리오는 아직 제한적입니다. Benjamin Marie의 "현재로서는 실용적이지 않다"는 평가가 현실적입니다.

그럼에도 이 연구가 가리키는 방향은 의미가 있습니다.

RL의 파라미터 효율성이 극소 환경에서 정량적으로 증명되었다는 것은 향후 PEFT 연구에 중요한 이정표입니다. 모델 크기가 계속 커지는 추세에서, 논문이 발견한 스케일링 법칙("더 큰 모델일수록 더 적은 파라미터로 제어 가능")은 TinyLoRA 같은 극단적 PEFT 기법의 유용성이 시간이 갈수록 높아질 수 있음을 시사합니다.

"더 큰 모델일수록 더 적은 파라미터로 제어할 수 있습니다... TinyLoRA와 같은 극도로 파라미터 효율적인 방법의 인기는 계속 높아질 것입니다."

(원문: "Larger models can be controlled with fewer parameters... extremely parameter-efficient methods such as TinyLoRA will only grow in popularity.")

13 params

= 26 bytes

이 문장 하나보다 적은 저장 공간

91.8%

GSM8K 정확도

Full Fine-Tuning 91.7%와 사실상 동등

100–1000×

RL이 SFT 대비

적은 파라미터로 동등 성능 달성

87%

성능 향상 유지

196 params만으로 전체 향상의 87% 확보

↑ 모델

↓ 필요 파라미터

더 큰 모델일수록 더 적게 필요 (멱법칙)

1개

이론적 최솟값

파라미터 효율의 궁극적 한계

향후 연구 방향도 여러 갈래가 보입니다. 수학 이외 도메인으로의 확장, weight tying의 최적 전략, 다양한 모델 아키텍처에서의 검증, 그리고 RL 보상 함수 설계가 TinyLoRA 성능에 미치는 영향 등이 후속 연구로 기대됩니다.

결국 이 논문이 우리에게 던지는 질문은 이것입니다. LLM을 파인튜닝한다는 것은 정확히 무엇을 바꾸는 행위일까요? 새로운 지식을 주입하는 것인지, 이미 가지고 있는 지식의 표현 방식을 조정하는 것인지. 13개 파라미터가 보여준 것은, 적어도 수학 추론이라는 도메인에서는, 후자에 훨씬 가깝다는 증거입니다. 이 통찰이 얼마나 넓은 범위로 일반화될 수 있을지, 후속 연구들이 답해줄 것입니다.