Blog
개발에 대한 생각과 경험을 기록합니다.
Qwen3.6-Plus가 Terminal-Bench에서 Claude를 꺾었다, 그런데 왜 클로즈드소스인가
Alibaba가 에이전틱 코딩 특화 모델 Qwen3.6-Plus를 공개했습니다. Terminal-Bench 2.0에서 Claude Opus 4.5를 넘어섰지만, 오픈소스 명가의 클로즈드소스 전환이라는 논란도 함께 가져왔습니다.
Microsoft가 하루에 AI 모델 3개를 쏟아냈다, OpenAI 독립의 신호탄
Microsoft가 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2를 동시 출시하며 음성 전사부터 이미지 생성까지 자체 모델로 전환했다. $13B를 투자한 OpenAI에서 벗어나려는 Microsoft의 AI 독립 전략을 분석한다.
StepFun Step 3.5 Flash가 11B 활성 파라미터로 프론티어급 성능을 냈다
196B MoE 모델에서 11B만 활성화해 GPT-5.2급 성능을 달성한 StepFun Step 3.5 Flash. DeepSeek의 1/6 비용으로 Apache 2.0 오픈소스 공개된 중국 AI 모델을 분석한다.
Cohere Transcribe가 Whisper를 꺾었다, 오픈소스 음성 인식의 새 판이 열렸다
Cohere의 2B 파라미터 오픈소스 ASR 모델이 WER 5.42%로 HuggingFace 리더보드 1위를 차지했습니다. Apache 2.0 라이선스에 한국어 포함 14개 언어를 지원하며 Whisper 이후 3년간의 공백을 깨뜨렸습니다.
Claude가 FreeBSD 원격 커널 익스플로잇을 4시간 만에 완성했다, AI 보안의 새 경계
Anthropic 연구원이 Claude에게 FreeBSD 커널 취약점 CVE-2026-4747의 익스플로잇 개발을 맡겼더니, 4시간 만에 원격 루트 셸을 획득하는 완전한 익스플로잇 2종을 작성했다. AI 보안 연구의 전환점을 분석한다.
26바이트가 80억 파라미터를 바꿨다, TinyLoRA와 RL이 뒤집은 파인튜닝의 상식
Meta FAIR, Cornell, CMU 연구진의 TinyLoRA가 13개 파라미터(26바이트)로 8B 모델에 수학 추론을 가르쳤다. RL이 SFT보다 1000배 효율적이라는 증거가 파인튜닝의 패러다임을 바꾸고 있다.
PrismML이 세계 최초 상용 1-bit LLM을 출시했다, Spotify 캐시보다 작은 8B 모델
Caltech 연구진이 설립한 PrismML이 8B 파라미터를 1.15GB로 압축한 1-bit Bonsai LLM을 Apache 2.0으로 공개했다. 스마트폰에서도 실시간 추론이 가능한 엣지 AI의 새 장을 열었다.
AI는 왜 당신 편만 들까, Stanford가 Science에서 증명한 아첨의 구조
Stanford 연구팀이 Science 저널에 발표한 연구에서 ChatGPT, Claude, Gemini 등 11개 주요 LLM이 대인 관계 조언 시 인간보다 49% 더 사용자에게 동조하며, 유해한 행동도 47% 확률로 승인한다는 사실을 2,400명 실험으로 증명했습니다.
Anthropic의 차세대 모델 Mythos가 CMS 오류로 세상에 드러났다
Anthropic의 외부 CMS 설정 오류로 차세대 AI 모델 Claude Mythos의 존재가 유출되었습니다. Opus 위 신규 티어 Capybara, 코딩과 추론에서 질적 도약, 사이버보안 최강 AI를 표방하는 이 모델의 실체와 보안 아이러니, IPO 전략까지 분석합니다.
벡터 DB 회사 Chroma가 20B 검색 모델을 직접 만든 이유
Chroma가 20B 파라미터 검색 에이전트 모델 Context-1을 Apache 2.0으로 공개했습니다. 자기편집 메커니즘으로 Context Rot 문제를 해결하고, 프론티어 모델 대비 10배 빠르고 25배 저렴한 에이전틱 검색을 제시합니다.
ARC-AGI-3가 증명한 것: 최고의 AI도 인간의 12%에 불과하다
François Chollet이 만든 ARC-AGI-3가 3월 25일 출시되었습니다. 최초의 인터랙티브 AI 추론 벤치마크에서 최고 AI는 12.58%, GPT-5.4와 Grok 4.20은 0%를 기록했습니다. 1,000개 레벨, $2M 상금, 그리고 AI 지능 측정의 패러다임이 바뀌었습니다.
Google TurboQuant, LLM 메모리를 6배 줄이고 속도를 8배 올렸다
Google Research가 LLM KV 캐시를 3비트로 압축하면서 정확도 손실 제로를 달성하는 TurboQuant 알고리즘을 공개했습니다. H100 GPU에서 8배 속도 향상, 학습 불필요, 그리고 온디바이스 AI의 새로운 가능성까지 열어젖히는 이 기술의 의미를 분석합니다.
iPhone 17 Pro에서 400B LLM이 돌아갔다, 온디바이스 AI의 새 이정표
RAM 12GB 스마트폰에서 200GB짜리 모델을 구동한 Flash-MoE 기술의 원리, A19 Pro의 AI 성능, 그리고 온디바이스 AI의 미래를 분석합니다.
Mistral Small 4 — 세 모델을 하나로 통합한 오픈소스 AI의 역습
Mistral AI가 추론, 비전, 코딩 3개 특화 모델을 119B MoE 하나로 통합했습니다. 활성 파라미터 6B, Apache 2.0, $0.15/M 토큰. AI 모델 파편화 시대의 종말을 알리는 통합 전략을 분석합니다.
Knuth가 "Shock!"라고 외친 순간: Claude가 수십 년 된 수학 문제를 1시간에 풀다
컴퓨터 과학의 아버지 Donald Knuth가 수십 년간 풀지 못한 그래프 이론 문제를 Claude Opus 4.6이 1시간 만에 해결했습니다. 87세 튜링상 수상자가 AI에 대한 입장을 수정한 역사적 순간입니다.
AI가 수학자도 못 푼 문제를 풀었다: FrontierMath가 증명한 능력의 새 체제
Epoch AI의 FrontierMath 벤치마크에서 GPT-5.4 Pro가 미해결 수학 문제를 처음 풀었습니다. 4개 프론티어 모델이 같은 문제를 해결하며 "능력 체제"의 도래를 시사합니다.
Apple이 Siri의 두뇌를 라이벌 Google에게 맡긴 이유
Apple이 Google Gemini 1.2조 파라미터 모델로 Siri를 재구축합니다. 화면 인식, 멀티스텝 실행, 멀티턴 대화가 iOS 26.4에 탑재되며, AI 시대 하드웨어 기업의 전략 전환을 상징합니다.
OpenAI vs Anthropic 매출 역전 카운트다운, 소비자 왕국과 기업 제국의 결투
Anthropic이 기업 신규 AI 지출의 73%를 장악하며 OpenAI를 추격합니다. OpenAI $25B vs Anthropic $19B, 하지만 성장률 10배 vs 3.4배. Epoch AI는 2026년 중반 매출 역전을 전망합니다.
DeepSeek V4가 Nvidia를 배제하며 AI 생태계가 둘로 갈라지고 있다
DeepSeek이 V4 모델의 사전 접근을 Nvidia와 AMD에 거부하고 Huawei에 독점 제공했습니다. 1조 파라미터 모델이 중국산 칩에 최적화되며, 글로벌 AI 생태계의 분기가 현실이 되고 있습니다.
프론티어 모델 4파전, GPT부터 Grok까지 누구도 이기지 못한다
2026년 3월, GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro, Grok 4가 2주 간격으로 격돌했습니다. 벤치마크 차이 1-3%, 각 모델이 다른 영역에서 1위. 승자 없는 경쟁이 AI의 미래를 바꾸고 있습니다.
Anthropic이 공개한 역대 최대 AI 질적 연구: 81,000명이 말한 빛과 그림자
Anthropic이 159개국 81,000명을 대상으로 역대 최대 AI 질적 연구를 공개했습니다. AI가 가장 사랑받는 이유가 가장 두려운 이유와 같다는 빛과 그림자 문제가 핵심 발견입니다.
OpenAI가 Python의 심장을 샀다: Astral 인수와 AI 코딩 플랫폼 전쟁
OpenAI가 ruff와 uv를 만든 Astral을 인수합니다. 월 1.26억 다운로드의 Python 핵심 인프라가 AI 코딩 에이전트 Codex에 통합되는 이 움직임이 개발자 생태계에 미칠 파장을 분석합니다.
Yann LeCun이 10억 달러를 들고 LLM 시대에 반기를 들다: AMI Labs의 도전
튜링상 수상자 Yann LeCun이 설립한 AMI Labs가 유럽 역대 최대 시드 라운드 $10.3억을 기록했습니다. JEPA 아키텍처 기반 세계 모델로 autoregressive LLM 패러다임에 정면 도전하는 이 움직임의 의미를 분석합니다.
GPT-5.4 출시, AI가 처음으로 컴퓨터 사용에서 인간을 넘어섰다
OpenAI의 GPT-5.4가 OSWorld 벤치마크에서 75%를 기록하며 인간 전문가(72.4%)를 처음으로 초과했습니다. 네이티브 컴퓨터 사용, Tool Search, 1M 토큰 컨텍스트까지 — 3월 AI 모델 경쟁의 판도를 분석합니다.