StepFun Step 3.5 Flash가 11B 활성 파라미터로 프론티어급 성능을 냈다

196B MoE 모델에서 11B만 활성화해 GPT-5.2급 성능을 달성한 StepFun Step 3.5 Flash. DeepSeek의 1/6 비용으로 Apache 2.0 오픈소스 공개된 중국 AI 모델을 분석한다.

196B 파라미터 모델에서 11B만 활성화 해 프론티어급 성능을 달성한 오픈소스 LLM이 등장했습니다. 중국 AI 스타트업 StepFun이 2026년 2월 12일 공개한 Step 3.5 Flash 는 AIME 2025에서 97.3점, SWE-bench Verified에서 74.4%를 기록하면서도 DeepSeek V3.2 대비 약 1/6의 추론 비용 으로 유사한 성능을 달성합니다. Apache 2.0 라이선스로 완전한 오픈소스 공개가 이루어졌고, Mac Studio M4 Max 같은 소비자급 하드웨어에서도 로컬 구동이 가능합니다.

DeepSeek, Qwen에 이어 중국 오픈소스 AI 생태계에 세 번째 강력한 플레이어가 등장한 셈입니다. 이 모델이 왜 중요하고, MoE 아키텍처의 효율성 경쟁에서 어떤 의미를 갖는지 살펴보겠습니다.

중국 AI "Six Tigers"의 새로운 도전자

StepFun을 이해하려면 중국 AI 생태계의 맥락부터 짚어야 합니다.

StepFun은 2023년 4월 전 Microsoft 직원들이 설립한 상하이 기반 AI 연구소입니다. 중국에서 "AI Six Tigers"로 불리는 6대 AI 스타트업 중 하나로, 첫 투자 라운드에서 유니콘 지위(기업 가치 10억 달러)를 달성한 유일한 기업입니다. 2026년 1월에는 Series B+ 라운드에서 50억 위안(약 7.17억 달러) 을 조달했는데, 이는 경쟁사 Zhipu AI와 MiniMax의 홍콩 상장 규모를 초과하는 금액입니다. 주요 투자자로는 Tencent, Qiming Venture Partners, Shanghai State-owned Capital Investment 등이 포함되어 있습니다.

그동안 중국 오픈소스 LLM 시장은 사실상 DeepSeek와 Qwen의 양강 구도였습니다. DeepSeek V3/R1이 MoE 아키텍처의 가능성을 입증하면서 전 세계 개발자 커뮤니티의 주목을 받았고, Alibaba의 Qwen 시리즈가 Dense 모델 영역에서 꾸준히 경쟁력을 유지해왔습니다. Step 3.5 Flash는 이 구도에 균열을 내는 세 번째 선택지입니다.

흥미로운 점은 StepFun이 DeepSeek의 MoE 전략을 따르면서도 훨씬 더 극단적인 효율성 을 추구했다는 것입니다. DeepSeek V3.2가 671B 중 37B를 활성화하는 반면, Step 3.5 Flash는 196B 중 11B만 활성화 합니다. 활성 파라미터가 DeepSeek의 1/3 수준인데도 유사한 벤치마크 성능을 기록한 것입니다.

288개 전문가 중 8개만 골라쓰는 아키텍처

Step 3.5 Flash의 핵심은 Sparse MoE(Mixture of Experts) 아키텍처의 극한 효율화에 있습니다.

Step 3.5 Flash MoE 아키텍처 흐름

총 196B 파라미터

45개 레이어 · Hidden dim 4,096 · 256K 컨텍스트

↓

각 레이어: Router

입력 토큰을 288개 Routed Expert + 1개 Shared Expert로 분배

↓

Shared Expert × 1

모든 토큰에 항상 활성화

Top-8 Expert 선택

288개 중 토큰별 8개만

↓

11B 활성 파라미터

196B의 5.6%만 활성화 · DeepSeek 활성 파라미터의 1/3

모델의 기본 사양을 정리하면 이렇습니다. 총 45개 레이어로 구성되어 있고, 각 레이어에는 288개의 Routed Expert와 1개의 Shared Expert 가 배치되어 있습니다. Shared Expert는 모든 토큰에 대해 항상 활성화되는 범용 전문가이고, 288개의 Routed Expert 중에서는 토큰별로 Top-8만 선택 됩니다. Hidden Dimension은 4,096이며, 컨텍스트 윈도우는 256K 토큰 을 지원합니다.

여기서 주목할 점은 어텐션 구조입니다. Step 3.5 Flash는 Sliding-Window Attention(SWA)과 Full Attention을 3:1 비율 로 혼합한 하이브리드 어텐션을 사용합니다. 대부분의 레이어에서는 계산 비용이 낮은 SWA가 로컬 패턴을 처리하고, 전략적으로 배치된 Full Attention 레이어가 장거리 의존성을 캡처합니다. SWA 쿼리 헤드는 일반적인 64개 대신 96개 로 증가시켜, 슬라이딩 윈도우 내에서의 표현력을 높였습니다.

이 아키텍처 설계에는 Dense 레이어도 전략적으로 혼합 되어 있습니다. 순수한 Sparse MoE만으로 구성하지 않고, 특정 깊이에서 Dense 레이어를 배치해 안정성과 표현력의 균형을 맞추는 접근입니다. StepFun의 논문에 따르면, 이 하이브리드 구조가 순수 MoE나 순수 Dense보다 더 나은 성능-효율 트레이드오프를 제공합니다.

수학에서 코딩까지, 벤치마크가 보여주는 것

Step 3.5 Flash의 벤치마크 결과는 "11B 활성 파라미터"라는 스펙과 대비되어 더 인상적으로 다가옵니다.

주요 모델 벤치마크 비교

모델	총/활성	AIME 2025	SWE-bench	LiveCode-V6	비용	라이선스
Step 3.5 Flash	196B / 11B	97.3	74.4%	86.4	$0.10/1M	Apache 2.0
DeepSeek V3.2	671B / 37B	—	~75%	—	~$0.60/1M	MIT
Qwen 3 72B	72B / 72B	—	~60%	—	~$0.30/1M	Apache 2.0
Llama 4 Maverick	400B / 17B	—	~70%	—	~$0.15/1M	Llama 4

SWE-bench Verified 기준. 비용은 API 기준 대략값. Step 3.5 Flash 하이라이트.

수학과 추론 영역 에서의 성과가 특히 두드러집니다. AIME 2025에서 97.3점을 기록했으며, HMMT 2025 February에서 98.4점, November에서 94.0점을 달성했습니다. 수학 벤치마크 리더보드인 MathArena에서 1위를 차지하기도 했습니다. IMOAnswerBench에서는 85.4점으로, 이는 올림피아드급 수학 문제에서도 경쟁력 있는 성능을 보여줍니다.

코딩 벤치마크 역시 프론티어급입니다. 실제 소프트웨어 엔지니어링 작업을 평가하는 SWE-bench Verified에서 74.4% 를 기록했는데, 이는 DeepSeek V3.2의 약 75%에 근접한 수치입니다. 활성 파라미터가 DeepSeek의 1/3 수준임을 감안하면 놀라운 효율성입니다. LiveCodeBench-V6에서는 86.4점, Terminal-Bench 2.0에서는 51.0%를 기록했습니다.

에이전틱 능력 도 강점입니다. tau2-Bench에서 88.2점, BrowseComp에서 51.6점(Context Manager 사용 시 69.0점), GAIA(no file)에서 84.5점을 기록했습니다. StepFun은 이 모델을 80개 이상의 MCP 도구 오케스트레이션 이 가능하도록 설계했고, Claude Code와 OpenClaw와의 네이티브 통합을 지원합니다.

이 벤치마크 수치들을 경쟁 모델과 비교하면 Step 3.5 Flash의 위치가 명확해집니다. DeepSeek V3.2(671B/37B 활성)와 유사한 성능을 11B 활성 파라미터로 달성했고, Qwen 3 72B(Dense)보다 SWE-bench에서 약 14%p 높은 성능을 보입니다. Meta의 Llama 4 Maverick(400B/17B 활성)과 비교해도 코딩과 수학에서 우위를 보여줍니다.

핵심 기술 혁신, MTP-3와 MIS-PO

벤치마크 뒤에는 몇 가지 핵심 기술 혁신이 있습니다.

첫 번째는 MTP-3(3-way Multi-Token Prediction) 입니다. 일반적인 LLM은 한 번에 하나의 토큰을 생성하지만, Step 3.5 Flash는 한 번에 4개 토큰을 동시에 예측 합니다. 이 기법 덕분에 토큰 생성 속도가 100~300 tok/s 에 달하며, 피크 시에는 350 tok/s 까지 올라갑니다. Hacker News에서 한 사용자는 M1 Ultra에서 36 tok/s 생성, 300 tok/s 프롬프트 처리를 달성했다고 보고했습니다.

두 번째 혁신은 MIS-PO(Metropolis Independence Sampling Filtered Policy Optimization) 입니다. 이것은 StepFun이 개발한 강화학습 프레임워크로, 기존 importance weighting 대신 엄격한 sample filtering 을 사용합니다. 긴 추론 시퀀스에서 발생하는 gradient 불안정성을 제거하는 것이 핵심인데, 이는 Step 3.5 Flash가 수학 문제 풀이 같은 긴 Chain-of-Thought 추론에서 안정적인 성능을 보이는 이유이기도 합니다.

그 외에도 Head-wise Gated Attention (동적 정보 흐름 조절), Truncation-aware Value Bootstrapping (컨텍스트 제한으로 인한 페널티 방지), Routing Confidence Monitoring (MoE 라우팅 안정성 확보) 등의 기법이 적용되어 있습니다. StepFun은 이 모든 기술적 세부사항을 arXiv 논문을 통해 공개했습니다.

DeepSeek의 1/6 비용, 로컬 구동의 현실

실무적으로 Step 3.5 Flash가 가장 매력적인 부분은 비용 효율성 입니다.

API 기준으로 OpenRouter에서 $0.10/1M tokens 에 제공되고 있으며, 이는 DeepSeek V3.2 대비 약 1/6 수준 의 비용입니다. 같은 수준의 성능을 훨씬 적은 비용으로 사용할 수 있다는 것은, 특히 대량의 API 호출이 필요한 에이전틱 워크플로에서 결정적인 차이를 만듭니다.

추론 비용 · 토큰 생성 속도 비교 (Step 3.5 Flash = 1x 기준)

Step 3.5 Flash

$0.10/1M · 100~350 tok/s

Llama 4 Maverick

~~$0.15/1M · 80~~200 tok/s

1.5x

Qwen 3 72B

~~$0.30/1M · 30~~80 tok/s

DeepSeek V3.2

~~$0.60/1M · 50~~150 tok/s

비용은 OpenRouter 기준 대략값. 속도는 클라우드 API 환경 기준 추정치.

로컬 구동 가능성도 현실적입니다. INT4 양자화(GGUF) 기준 약 111.5GB의 메모리가 필요하며, 이는 Mac Studio M4 Max(192GB 통합 메모리), NVIDIA DGX Spark, AMD AI Max+ 395 같은 소비자급 하드웨어에서 실행 가능한 수준입니다. llama.cpp, vLLM, SGLang, Transformers 등 주요 추론 엔진을 모두 지원하며, HuggingFace에서 월 96,535회 다운로드를 기록 중입니다.

물론 "소비자급"이라 해도 120GB 이상의 메모리를 갖춘 하드웨어는 아직 보편적이지 않습니다. Mac Studio M4 Max 기준으로 수백만 원대의 투자가 필요합니다. 하지만 이전까지 프론티어급 성능의 모델을 로컬에서 구동하려면 서버급 GPU 클러스터가 필요했다는 점을 감안하면, 진입 장벽이 크게 낮아진 것은 사실입니다.

에이전트 통합 측면에서는 Claude Code, OpenClaw, Codex와 네이티브로 연동됩니다. Hacker News의 한 스레드에서는 "StepFun 3.5 Flash가 OpenClaw에서 가장 비용 효율적인 모델"이라는 보고가 올라오기도 했습니다. 한 사용자는 Opus 4.6이 5번의 함수 호출을 하는 작업을 Step 3.5 Flash가 2번 호출로 27초 만에 완료했다고 전했습니다.

Apache 2.0 라이선스로 공개된 만큼, 상업적 사용에 제한이 없습니다. HuggingFace와 ModelScope에서 다운로드할 수 있으며, INT4, INT8, FP8, BF16 등 다양한 양자화 포맷이 제공됩니다.

커뮤니티 반응, 로컬 최강자인가 환각 머신인가

Hacker News에서 Step 3.5 Flash는 여러 스레드에 걸쳐 활발한 토론을 불러일으켰습니다. 반응은 기대와 우려가 뚜렷하게 갈립니다.

긍정적 평가 를 먼저 보겠습니다. 한 사용자(tarruda)는 이렇게 평가했습니다.

"로컬에서 실행할 수 있는 다른 모든 LLM을 능가한다."

이 사용자는 M1 Ultra에서 36 tok/s 생성, 300 tok/s 프롬프트 처리를 달성했다고 보고했습니다. 또 다른 사용자(hedgehog)는 "명령 준수도와 출력 품질이 테스트한 대부분의 선두 모델보다 나았다"고 평가하며, 구체적으로 Opus 4.5와의 비교를 언급했습니다. 워드 문제와 카워시 테스트에서 좋은 추론 능력이 확인되었다는 보고도 있었습니다.

하지만 비판적 의견 도 만만치 않습니다.

사실 기반 질문에서의 환각(hallucination) 문제 가 여러 사용자에 의해 보고되었습니다. 한 사용자(danieltanfh95)는 포켓몬 챔피언십 덱 정보를 질문했을 때 "미친 듯이 환각한다"고 지적했습니다. 추론에 특화된 모델이 사실 기반 지식 질의에서 약점을 보이는 것은 흔한 패턴이지만, 실무 적용 시 무시할 수 없는 약점입니다.

과도한 추론 체인 문제도 반복적으로 지적됩니다. 한 사용자(Mashimo)는 간단한 HTML 코딩 프롬프트에서 엄청난 양의 thinking 텍스트가 생성되어, 빠른 토큰 출력 속도에도 불구하고 실질적인 응답 시간이 느려졌다고 보고했습니다. 다른 사용자(Tepix)는 이 문제를 더 직접적으로 꼬집었습니다.

"엄청난 양의 추론이 속도 이점을 상쇄할 수 있다."

때때로 무한 추론 루프에 빠지는 버그 도 보고되었습니다. 매우 긴 추론 체인을 생성하다 루프에 빠져 응답이 끝나지 않는 현상인데, 이는 피크 350 tok/s의 속도가 무색해지는 치명적인 문제입니다.

로컬 구동의 비용 효율성 에 대한 의문도 제기되었습니다. Mac Studio M4 Max를 구매하는 비용 대비 Claude나 Codex 구독료가 더 합리적이지 않느냐는 지적입니다. 이미 클라우드 API가 충분히 저렴해진 상황에서, 고가의 하드웨어를 구매해 로컬 구동을 하는 것이 경제적으로 정당화되는지는 각자의 사용 패턴과 프라이버시 요구에 달려 있을 것입니다.

MoE 효율성 경쟁의 가속, 그리고 중국 오픈소스의 미래

Step 3.5 Flash가 가리키는 방향은 명확합니다. "작은 활성 파라미터로 큰 성능을 내는" MoE 아키텍처가 LLM의 주류 설계로 자리잡고 있다는 것입니다.

196B → 11B

활성 파라미터 비율 5.6%

96,535

HuggingFace 월 다운로드

Apache 2.0

상업적 이용 완전 허용

2024년 DeepSeek V3가 671B/37B 구성으로 MoE의 실용성을 입증한 이후, 2025~2026년에 걸쳐 MoE 모델이 쏟아지고 있습니다. Meta의 Llama 4 Maverick(400B/17B), Nvidia의 Nemotron 3 Super(120B/12B), 그리고 이번 StepFun Step 3.5 Flash(196B/11B)까지, 활성 파라미터 대비 성능의 효율을 극대화 하는 경쟁이 치열합니다. 흥미로운 점은 활성 파라미터 수가 점점 줄어드는 추세라는 것입니다. 37B에서 17B, 12B, 11B로, "얼마나 적게 활성화하고도 프론티어급 성능을 유지할 수 있는가"가 기술 경쟁의 핵심 축이 되었습니다.

중국 오픈소스 AI 생태계의 다양화도 주목할 만합니다. DeepSeek, Qwen만으로 구성되던 중국발 오픈소스 LLM 시장에 StepFun이 세 번째 주요 플레이어로 등장하면서, 선택지가 늘어났습니다. 세 모델 모두 Apache 2.0 또는 MIT 같은 허용적 라이선스를 채택하고 있어, 글로벌 개발자 커뮤니티가 제한 없이 활용할 수 있습니다. 이는 미국의 프론티어 모델들이 대부분 독점 API로만 제공되는 것과 대비되는 흐름입니다.

에이전틱 AI 특화 설계도 트렌드를 반영합니다. Step 3.5 Flash는 처음부터 MCP 도구 통합, 에이전트 프레임워크 네이티브 지원 을 핵심 기능으로 내세웠습니다. 이는 LLM의 용도가 단순 텍스트 생성에서 에이전틱 워크플로 실행으로 전환되고 있음을 보여줍니다. Nemotron 3 Super가 "에이전트용 아키텍처"를 표방한 것과 같은 맥락입니다.

다만 해결해야 할 과제도 분명합니다. 커뮤니티에서 반복적으로 지적된 과도한 추론 체인과 무한 루프 버그 는 후속 버전에서 반드시 개선되어야 합니다. 사실 기반 환각 문제도 에이전틱 사용에서는 특히 위험합니다. 에이전트가 잘못된 정보를 기반으로 도구를 호출하면, 그 영향은 단순 텍스트 오류보다 훨씬 크기 때문입니다.

전체적으로 Step 3.5 Flash는 "MoE 효율성의 새로운 기준점" 을 세웠다고 평가할 수 있습니다. 11B 활성 파라미터로 프론티어급 성능을 달성한 것은, Dense 모델 시대의 "파라미터 수 = 성능" 공식이 완전히 깨졌음을 의미합니다. 이제 질문은 "얼마나 큰 모델인가"가 아니라 "얼마나 효율적으로 활성화하는가" 입니다. 그리고 이 질문에 대한 가장 공격적인 답을 내놓은 것이 바로 StepFun입니다.

출처