AI
1,000개 데스크톱 과제, 컴퓨터 사용 에이전트의 검증 공장
OpenComputer는 컴퓨터 사용 에이전트 평가를 LLM 심판이 아니라 앱 상태 검증기와 재현 가능한 데스크톱 과제로 옮깁니다.
AI
OpenComputer는 컴퓨터 사용 에이전트 평가를 LLM 심판이 아니라 앱 상태 검증기와 재현 가능한 데스크톱 과제로 옮깁니다.
AI
Runtime의 Launch HN은 코딩 에이전트 경쟁이 개인 IDE에서 팀 샌드박스, 비밀 관리, 관측성 런타임으로 이동함을 보여줍니다.
AI
Anthropic의 Stainless 인수는 Claude 경쟁력이 모델보다 SDK, MCP 서버, API 연결 품질로 확장되고 있음을 보여줍니다.
AI
Modern Web Guidance는 코딩 에이전트가 오래된 웹 패턴 대신 Baseline, 최신 API, fallback을 문맥으로 쓰게 만드는 Chrome의 새 실험입니다.
AI
Confluent Intelligence GA 업데이트는 AI 에이전트 경쟁이 모델보다 실시간 데이터 문맥, MCP 운영, 거버넌스로 이동했음을 보여줍니다.
AI
Exa의 2.5억 달러 Series C는 AI 에이전트 경쟁이 모델 밖 검색·인덱스·지연시간 인프라로 이동했음을 보여줍니다.
AI
Google AI Edge Gallery는 Gemma 4 온디바이스 에이전트에 MCP, 알림, 세션 지속성을 붙인 모바일 실행 실험입니다.
AI
OpenAI 모델이 Erdős unit distance 추측을 반박했습니다. 핵심은 AI 대체보다 검증 가능한 연구 자동화입니다.
AI
Google Search agents는 AI Mode를 링크 검색에서 정보 감시, 예약, 생성형 미니앱 실행면으로 확장합니다.
AI
NVIDIA AI-Q agent skill은 Claude Code와 Codex가 기업 데이터 연구를 로컬 AI-Q 서버에 위임하게 만드는 새 실행 구조입니다.
AI
Google Gemini for Science는 가설, 코드, 문헌 분석을 묶고 Nature 논문 두 편으로 연구 에이전트 검증 경쟁을 열었습니다.
AI
OpenAI가 C2PA와 Google SynthID를 함께 쓰며 AI 이미지 검증을 탐지 모델이 아닌 출처 인프라 문제로 옮겼습니다.