AI
GPU 없이 11초 오디오를 8초 안에, Arm SME2의 온디바이스 AI
Google과 Arm의 LiteRT 최적화는 생성 AI 배포 경쟁이 모델에서 CPU 런타임과 메모리 경계로 내려가고 있음을 보여줍니다.
AI
Google과 Arm의 LiteRT 최적화는 생성 AI 배포 경쟁이 모델에서 CPU 런타임과 메모리 경계로 내려가고 있음을 보여줍니다.
AI
5월 13일 arXiv 연구는 Google AI Overviews의 5.5만 검색과 9.8만 주장을 분석해 AI 검색의 출처와 클릭 경제를 드러냅니다.
AI
arXiv의 AI 생성 논문 단속은 LLM 사용 금지가 아니라, 환각 인용이 연구 인프라의 신뢰와 검증 비용을 흔드는 사건입니다.
AI
Mistral 3는 675B MoE와 3B·8B·14B 엣지 모델을 Apache 2.0으로 묶어 오픈 AI의 경쟁축을 성능에서 배포로 옮깁니다.
AI
Google Gemini Intelligence는 Android를 앱 실행 OS에서 AI가 문맥을 읽고 행동하는 지능 시스템으로 바꾸려는 시도입니다.
AI
NVIDIA SANA-WM은 2.6B 파라미터로 720p 60초 월드 모델을 주장합니다. 진짜 의미는 영상 품질보다 오픈 모델의 비용 구조입니다.
AI
Baidu가 Daily Active Agents를 AI 시대 핵심 지표로 제안했습니다. 토큰 비용이 아니라 결과를 내는 에이전트 수를 보자는 주장입니다.
AI
WaveSpeed가 GPT, Claude, Gemini 등 260개 이상 LLM을 한 API로 묶었습니다. 멀티모달 에이전트 시대의 모델 라우팅 경쟁을 분석합니다.
AI
GitHub Copilot에서 Grok Code Fast 1이 사라졌습니다. 저가 코딩 모델의 수명과 라우팅 정책이 새 운영 리스크가 됐습니다.
AI
Databricks OfficeQA Pro에서 GPT-5.5가 50% 정확도를 넘었습니다. 기업 에이전트의 병목은 추론보다 문서 파싱과 권한 있는 오케스트레이션입니다.
AI
General Compute가 에이전트용 ASIC 추론 클라우드를 일반 제공하며 GPU 중심 AI 인프라의 지연시간과 전력 병목에 도전합니다.
AI
Thinking Machines Interaction Models는 AI가 말하면서 듣고 보는 full-duplex 협업 모델을 제안합니다.