Blog
AI 뉴스와 코딩 에이전트, LLM, AI 인프라의 변화를 기록합니다.
1,000개 데스크톱 과제, 컴퓨터 사용 에이전트의 검증 공장
OpenComputer는 컴퓨터 사용 에이전트 평가를 LLM 심판이 아니라 앱 상태 검증기와 재현 가능한 데스크톱 과제로 옮깁니다.
Runtime 44표 Launch HN, 팀 코딩 에이전트의 새 격리층
Runtime의 Launch HN은 코딩 에이전트 경쟁이 개인 IDE에서 팀 샌드박스, 비밀 관리, 관측성 런타임으로 이동함을 보여줍니다.
SDK 생성기가 문을 닫았다, Claude가 가져간 연결 계층
Anthropic의 Stainless 인수는 Claude 경쟁력이 모델보다 SDK, MCP 서버, API 연결 품질로 확장되고 있음을 보여줍니다.
37%p 격차, Chrome이 코딩 에이전트에 넣은 웹 상식
Modern Web Guidance는 코딩 에이전트가 오래된 웹 패턴 대신 Baseline, 최신 API, fallback을 문맥으로 쓰게 만드는 Chrome의 새 실험입니다.
실시간 문맥 엔진 GA, 에이전트 데이터 병목의 새 전선
Confluent Intelligence GA 업데이트는 AI 에이전트 경쟁이 모델보다 실시간 데이터 문맥, MCP 운영, 거버넌스로 이동했음을 보여줍니다.
2.5억 달러 Exa, 에이전트 검색 병목의 가격표
Exa의 2.5억 달러 Series C는 AI 에이전트 경쟁이 모델 밖 검색·인덱스·지연시간 인프라로 이동했음을 보여줍니다.
MCP가 휴대폰 안으로, 로컬 에이전트의 새 실행 경계
Google AI Edge Gallery는 Gemma 4 온디바이스 에이전트에 MCP, 알림, 세션 지속성을 붙인 모바일 실행 실험입니다.
80년 난제의 반례, OpenAI 모델이 연 연구 자동화의 문
OpenAI 모델이 Erdős unit distance 추측을 반박했습니다. 핵심은 AI 대체보다 검증 가능한 연구 자동화입니다.
검색창 안의 24시간 에이전트, 링크 경제의 새 경계
Google Search agents는 AI Mode를 링크 검색에서 정보 감시, 예약, 생성형 미니앱 실행면으로 확장합니다.
AI-Q 스킬, 리서치 에이전트의 데이터 경계
NVIDIA AI-Q agent skill은 Claude Code와 Codex가 기업 데이터 연구를 로컬 AI-Q 서버에 위임하게 만드는 새 실행 구조입니다.
Nature 두 편의 Gemini for Science, 연구 에이전트의 검증대
Google Gemini for Science는 가설, 코드, 문헌 분석을 묶고 Nature 논문 두 편으로 연구 에이전트 검증 경쟁을 열었습니다.
OpenAI가 SynthID를 붙였다, AI 이미지 신뢰의 새 기준선
OpenAI가 C2PA와 Google SynthID를 함께 쓰며 AI 이미지 검증을 탐지 모델이 아닌 출처 인프라 문제로 옮겼습니다.