Devlery

Blog

AI 뉴스와 코딩 에이전트, LLM, AI 인프라의 변화를 기록합니다.

73% 성공률 뒤의 청구서, 에이전트 평가는 모델 밖

73% 성공률 뒤의 청구서, 에이전트 평가는 모델 밖

IBM Research와 Hugging Face의 Open Agent Leaderboard는 AI 에이전트를 모델이 아니라 하네스, 비용, 실패 방식까지 포함한 시스템으로 평가합니다.

17.1%로 뛴 과잉 행동, 코딩 에이전트의 허가 경계

17.1%로 뛴 과잉 행동, 코딩 에이전트의 허가 경계

OverEager-Bench는 선의의 요청에서도 코딩 에이전트가 허가 범위를 넘는 행동을 할 수 있음을 500개 시나리오로 측정합니다.

2개 H100의 Command A+, 소버린 AI의 비용 문턱

2개 H100의 Command A+, 소버린 AI의 비용 문턱

Cohere Command A+는 Apache 2.0 오픈소스 모델로 엔터프라이즈 에이전트와 소버린 AI 배포 비용을 정면으로 겨냥합니다.

35시간 에이전트, Qwen3.7이 칩까지 끌어안은 이유

35시간 에이전트, Qwen3.7이 칩까지 끌어안은 이유

Alibaba Qwen3.7-Max는 모델 발표를 넘어 자체 칩과 128가속기 랙까지 묶은 에이전트 풀스택 전략입니다.

Street View를 먹은 Genie, 세계 모델의 병목은 지도

Street View를 먹은 Genie, 세계 모델의 병목은 지도

Google Project Genie가 Street View grounding을 붙였습니다. 세계 모델 경쟁은 프롬프트보다 실제 공간 데이터와 책임 경계로 이동합니다.

Nature에 오른 AI 과학자 2편, 실험실 병목은 사람

Nature에 오른 AI 과학자 2편, 실험실 병목은 사람

Nature가 Co-Scientist와 Robin 논문을 동시에 공개했습니다. 연구 자동화 경쟁은 모델보다 검증 루프와 실험실 병목으로 이동합니다.

Cohere Reliant 인수, 소버린 AI가 제약 문헌으로 간 이유

Cohere Reliant 인수, 소버린 AI가 제약 문헌으로 간 이유

Cohere의 Reliant AI 인수는 범용 모델보다 규제 산업용 에이전트와 데이터 주권이 중요해지는 흐름을 보여줍니다.

Agent Timeline, 에이전트 장애를 span으로 되감는 관측 전쟁

Agent Timeline, 에이전트 장애를 span으로 되감는 관측 전쟁

Honeycomb Agent Observability는 LLM 호출, 도구 실행, 에이전트 핸드오프를 하나의 trace 사건으로 복원하려는 시도입니다.

Grok Build 베타, 300달러 문턱 뒤의 코딩 에이전트 전쟁

Grok Build 베타, 300달러 문턱 뒤의 코딩 에이전트 전쟁

xAI Grok Build early beta는 터미널, headless 실행, ACP, Claude Code 호환으로 코딩 에이전트 시장에 뒤늦게 들어왔습니다.

Stainless 인수, Claude가 SDK 배관까지 품은 이유

Stainless 인수, Claude가 SDK 배관까지 품은 이유

Anthropic의 Stainless 인수는 Claude 에이전트 경쟁이 모델에서 SDK, MCP 서버, API 연결 배관으로 이동했음을 보여줍니다.

전체 repo 스캔, AWS Security Agent가 겨냥한 SAST의 빈칸

전체 repo 스캔, AWS Security Agent가 겨냥한 SAST의 빈칸

AWS Security Agent 전체 저장소 코드 리뷰는 SAST가 놓치는 신뢰 경계와 데이터 흐름을 에이전트 보안 리뷰로 겨냥합니다.

Zero 0.1.3, 컴파일러가 에이전트 API가 되는 조건

Zero 0.1.3, 컴파일러가 에이전트 API가 되는 조건

Vercel Labs Zero는 새 문법보다 JSON diagnostics와 typed fix metadata로 코딩 에이전트의 수리 루프를 겨냥합니다.