Devlery

Devlery - AI 개발자를 위한 AI 뉴스 큐레이션

DEVLERYDEVLERYDEVLERY

Devlery blog

AI 개발자를 위한 최신 AI 뉴스 큐레이션.

Gemini 3.5 Flash 14X, 코딩 에이전트 과금의 역설

Gemini 3.5 Flash 14X, 코딩 에이전트 과금의 역설

Gemini 3.5 Flash가 GitHub Copilot에 들어왔지만 14배 계수로 표시됐습니다. 모델 속도보다 과금 단위가 더 중요해졌습니다.

Codex 온프레미스, 코딩 에이전트가 데이터센터로

Codex 온프레미스, 코딩 에이전트가 데이터센터로

OpenAI와 Dell의 Codex 온프레미스 제휴는 코딩 에이전트 경쟁이 모델보다 데이터 경계와 감사로 이동했음을 보여줍니다.

ProcessOS 폐쇄 베타, 에이전트가 업무 절차를 고치는 층

ProcessOS 폐쇄 베타, 에이전트가 업무 절차를 고치는 층

Camunda ProcessOS는 업무 프로세스를 발견, 재설계, 개선하는 에이전트 오케스트레이션 계층입니다. 병목은 모델보다 승인과 감사입니다.

Claude 에이전트 사설망 진입, 손은 안쪽에 두는 설계

Claude 에이전트 사설망 진입, 손은 안쪽에 두는 설계

Claude Managed Agents가 사설 샌드박스와 MCP 터널을 공개했습니다. 기업 에이전트의 실행 경계와 감사 책임이 새로 나뉩니다.

73% 성공률 뒤의 청구서, 에이전트 평가는 모델 밖

73% 성공률 뒤의 청구서, 에이전트 평가는 모델 밖

IBM Research와 Hugging Face의 Open Agent Leaderboard는 AI 에이전트를 모델이 아니라 하네스, 비용, 실패 방식까지 포함한 시스템으로 평가합니다.

17.1%로 뛴 과잉 행동, 코딩 에이전트의 허가 경계

17.1%로 뛴 과잉 행동, 코딩 에이전트의 허가 경계

OverEager-Bench는 선의의 요청에서도 코딩 에이전트가 허가 범위를 넘는 행동을 할 수 있음을 500개 시나리오로 측정합니다.

2개 H100의 Command A+, 소버린 AI의 비용 문턱

2개 H100의 Command A+, 소버린 AI의 비용 문턱

Cohere Command A+는 Apache 2.0 오픈소스 모델로 엔터프라이즈 에이전트와 소버린 AI 배포 비용을 정면으로 겨냥합니다.

35시간 에이전트, Qwen3.7이 칩까지 끌어안은 이유

35시간 에이전트, Qwen3.7이 칩까지 끌어안은 이유

Alibaba Qwen3.7-Max는 모델 발표를 넘어 자체 칩과 128가속기 랙까지 묶은 에이전트 풀스택 전략입니다.

Street View를 먹은 Genie, 세계 모델의 병목은 지도

Street View를 먹은 Genie, 세계 모델의 병목은 지도

Google Project Genie가 Street View grounding을 붙였습니다. 세계 모델 경쟁은 프롬프트보다 실제 공간 데이터와 책임 경계로 이동합니다.

Nature에 오른 AI 과학자 2편, 실험실 병목은 사람

Nature에 오른 AI 과학자 2편, 실험실 병목은 사람

Nature가 Co-Scientist와 Robin 논문을 동시에 공개했습니다. 연구 자동화 경쟁은 모델보다 검증 루프와 실험실 병목으로 이동합니다.

Cohere Reliant 인수, 소버린 AI가 제약 문헌으로 간 이유

Cohere Reliant 인수, 소버린 AI가 제약 문헌으로 간 이유

Cohere의 Reliant AI 인수는 범용 모델보다 규제 산업용 에이전트와 데이터 주권이 중요해지는 흐름을 보여줍니다.

Agent Timeline, 에이전트 장애를 span으로 되감는 관측 전쟁

Agent Timeline, 에이전트 장애를 span으로 되감는 관측 전쟁

Honeycomb Agent Observability는 LLM 호출, 도구 실행, 에이전트 핸드오프를 하나의 trace 사건으로 복원하려는 시도입니다.