AI
73% 성공률 뒤의 청구서, 에이전트 평가는 모델 밖
IBM Research와 Hugging Face의 Open Agent Leaderboard는 AI 에이전트를 모델이 아니라 하네스, 비용, 실패 방식까지 포함한 시스템으로 평가합니다.
AI
IBM Research와 Hugging Face의 Open Agent Leaderboard는 AI 에이전트를 모델이 아니라 하네스, 비용, 실패 방식까지 포함한 시스템으로 평가합니다.
AI
OverEager-Bench는 선의의 요청에서도 코딩 에이전트가 허가 범위를 넘는 행동을 할 수 있음을 500개 시나리오로 측정합니다.
AI
Cohere Command A+는 Apache 2.0 오픈소스 모델로 엔터프라이즈 에이전트와 소버린 AI 배포 비용을 정면으로 겨냥합니다.
AI
Alibaba Qwen3.7-Max는 모델 발표를 넘어 자체 칩과 128가속기 랙까지 묶은 에이전트 풀스택 전략입니다.
AI
Google Project Genie가 Street View grounding을 붙였습니다. 세계 모델 경쟁은 프롬프트보다 실제 공간 데이터와 책임 경계로 이동합니다.
AI
Nature가 Co-Scientist와 Robin 논문을 동시에 공개했습니다. 연구 자동화 경쟁은 모델보다 검증 루프와 실험실 병목으로 이동합니다.
AI
Cohere의 Reliant AI 인수는 범용 모델보다 규제 산업용 에이전트와 데이터 주권이 중요해지는 흐름을 보여줍니다.
AI
Honeycomb Agent Observability는 LLM 호출, 도구 실행, 에이전트 핸드오프를 하나의 trace 사건으로 복원하려는 시도입니다.
AI
xAI Grok Build early beta는 터미널, headless 실행, ACP, Claude Code 호환으로 코딩 에이전트 시장에 뒤늦게 들어왔습니다.
AI
Anthropic의 Stainless 인수는 Claude 에이전트 경쟁이 모델에서 SDK, MCP 서버, API 연결 배관으로 이동했음을 보여줍니다.
AI
AWS Security Agent 전체 저장소 코드 리뷰는 SAST가 놓치는 신뢰 경계와 데이터 흐름을 에이전트 보안 리뷰로 겨냥합니다.
AI
Vercel Labs Zero는 새 문법보다 JSON diagnostics와 typed fix metadata로 코딩 에이전트의 수리 루프를 겨냥합니다.