LLM

172개의 글

OpenAI가 GPT-Rosalind를 갱신하고 LifeSciBench, MedChemBench, GeneBench 수치와 Codex 생명과학 플러그인을 공개했습니다.

MAI-Code-1-Flash가 GitHub Copilot VS Code 모델 선택기에 들어갔습니다. 5B 코딩 모델의 성능·비용·벤치마크 한계를 짚습니다.

Google Gemma 4 12B는 16GB급 노트북에서 이미지·음성·텍스트를 처리하는 로컬 멀티모달 에이전트를 겨냥합니다.

AWS가 차세대 OpenSearch Serverless를 공개했습니다. scale-to-zero, 20배 autoscaling, RAG·에이전트 검색 비용을 봅니다.

NVIDIA Vera CPU가 full production에 들어갔습니다. 도구 호출, 샌드박스 실행, 검색이 만든 에이전트 CPU 병목을 봅니다.

Microsoft가 MAI-Thinking-1과 7개 자체 모델을 공개했습니다. 35B active, 256K context, Foundry private preview를 봅니다.

MiniMax M3는 100만 토큰 context, agentic coding, 오픈 웨이트 예고를 내세웁니다. API와 검증 과제를 분리해 봅니다.

OpenAI가 Codex 지식노동 보고서를 공개했습니다. 500만 주간 사용자, 20% 비개발자, 병렬 작업 50%가 새 관찰 지점입니다.

Perplexity가 Search as Code를 공개했습니다. Agent API와 Computer에서 반복 검색 호출을 Python sandbox pipeline으로 바꾸는 설계입니다.

arXiv 논문이 Claude Code 채택 전후 5838명 GitHub 개발자 활동을 분석했습니다. 커밋, 저장소, 새 언어 수치와 인과 한계를 봅니다.

Anthropic이 SEC에 S-1 초안을 제출했습니다. Claude Code 성장 뒤의 매출, 컴퓨트 비용, 고객 집중도가 공개 검증대로 갑니다.

Alphabet이 AI 컴퓨트 확장을 위해 800억 달러 equity offerings를 발표했습니다. Gemini API와 에이전트 비용의 자금 구조를 봅니다.