Devlery
Blog/AI

OpenJarvis 1.0, 개인 AI가 Ollama PC로 들어온 날

Ollama가 OpenJarvis v1.0 지원을 공개했습니다. 로컬 개인 AI가 비용, 지연 시간, 데이터 경계를 어떻게 다시 계산하는지 봅니다.

OpenJarvis 1.0, 개인 AI가 Ollama PC로 들어온 날
AI 요약
  • 무슨 일: Ollama가 2026년 5월 28일 OpenJarvis v1.0의 Ollama 실행 지원을 공개했습니다.
    • OpenJarvis는 Stanford Hazy Research와 Scaling Intelligence 연구진이 만든 로컬 우선 개인 AI 프레임워크입니다.
  • 숫자: 논문은 온디바이스 spec search가 API 비용을 약 800배, 지연 시간을 4배 줄였다고 주장합니다.
  • 의미: 개인 AI 경쟁의 기준이 모델 이름에서 Engine, 도구, 메모리, 평가 spec으로 쪼개집니다.
  • 주의점: 로컬 모델 단순 교체는 논문 기준 25-39%p 정확도 하락을 만들 수 있어 스택 최적화가 필요합니다.

Ollama가 2026년 5월 28일 블로그에서 OpenJarvis v1.0을 Ollama로 실행할 수 있다고 발표했습니다. OpenJarvis는 개인 AI 에이전트를 사용자의 하드웨어에서 먼저 돌리고, 클라우드는 필요할 때만 호출하도록 설계된 오픈소스 프레임워크입니다. 발표문은 macOS와 Linux에서 설치 스크립트가 Ollama 설치를 자동 감지하고, Windows에서는 WSL2 또는 데스크톱 앱을 쓰라고 안내합니다.

OpenJarvis 공식 가로 로고

이번 뉴스는 "Ollama에서 또 하나의 로컬 앱을 돌릴 수 있다"는 수준보다 넓습니다. OpenJarvis 논문은 개인 AI가 메일, 일정, 파일, 브라우저, 코드처럼 사용자의 민감한 문맥을 오래 들고 일하는 상황을 전제로 삼습니다. 이 문맥이 매번 클라우드 모델로 올라가면 비용, 지연 시간, 데이터 노출, 오프라인 동작이 모두 제품 제약이 됩니다. Ollama 지원은 연구 코드가 로컬 모델 사용자에게 바로 설치 가능한 런타임으로 내려온 사건입니다.

Ollama 발표문은 OpenJarvis를 Stanford Hazy Research와 Scaling Intelligence 연구진의 "Intelligence Per Watt" 연구와 연결합니다. GitHub README도 같은 배경을 씁니다. 로컬 언어 모델이 단일 턴 채팅과 추론 질의의 88.7%를 처리할 수 있고, 2023년부터 2025년까지 intelligence efficiency가 5.3배 개선됐다는 주장입니다. OpenJarvis의 출발점은 "로컬 모델도 꽤 좋아졌다"가 아니라 "좋아진 로컬 모델을 개인 AI 스택 안에서 어떻게 실제 제품으로 만들 것인가"입니다.

논문이 먼저 부정하는 방법은 모델만 바꾸는 접근입니다. 연구진은 기존 개인 AI 스택에서 Claude Opus 4.6을 Qwen3.5-9B 같은 로컬 모델로 단순 교체하면 PinchBench와 GAIA 같은 개인 AI 태스크에서 정확도가 25-39%p 떨어진다고 적었습니다. 기존 스택은 에이전트 프롬프트, 도구 설명, 메모리 설정, 런타임 설정이 특정 클라우드 모델에 묶여 있기 때문입니다. prompt optimizer만으로는 로컬-클라우드 격차를 5%p 정도 줄이는 데 그친다는 설명도 붙었습니다.

OpenJarvis의 설계는 개인 AI 시스템을 다섯 개 프리미티브로 분해합니다. 논문은 이를 Intelligence, Engine, Agents, Tools & Memory, Learning으로 부릅니다. 각 프리미티브는 독립적으로 수정 가능한 typed spec의 필드가 됩니다. 모델 ID 하나를 고르는 방식이 아니라 어떤 추론 엔진을 쓸지, 어떤 agent loop를 쓸지, 어떤 도구와 메모리 구성을 줄지, 사용 기록으로 무엇을 학습할지를 함께 측정하는 구조입니다.

항목단순 로컬 모델 교체OpenJarvis spec 접근
조정 단위모델 이름과 프롬프트 중심Intelligence, Engine, Agents, Tools & Memory, Learning
논문상 위험개인 AI 태스크에서 25-39%p 정확도 하락비회귀 spec edit만 받아들이는 탐색
측정 기준대개 정확도와 응답 품질정확도, 비용, 지연 시간, 에너지 제약

Ollama 통합은 이 구조에서 Engine 층을 일반 개발자에게 익숙한 로컬 모델 실행 환경으로 연결합니다. 발표문 예시는 jarvis model pull qwen3.5:35b로 모델을 받고, jarvis ask -m qwen3.5:35b "Your prompt"로 질의하는 흐름을 보여줍니다. 기본 모델은 ~/.openjarvis/config.toml[intelligence] 섹션에 적고, preferred_engine = "ollama"로 선택합니다. 개인 AI가 기존 클라우드 API 키 중심 설정에서 로컬 inference daemon 중심 설정으로 이동하는 장면입니다.

OpenJarvis GitHub README는 2026년 5월 29일 확인 기준 약 5,048개 스타, 1,142개 포크, Apache-2.0 라이선스를 표시했습니다. 저장소의 최신 데스크톱 릴리스는 2026년 5월 25일 공개된 desktop-v1.0.2입니다. README는 macOS, Linux, Windows WSL2를 설치 경로로 제시하고, Windows 사용자는 데스크톱 바이너리를 선택할 수 있다고 설명합니다. 네이티브 Windows CLI가 아니라 WSL2 또는 데스크톱 앱이라는 조건은 기업 배포나 비개발자 사용에서 아직 확인해야 할 운영 변수입니다.

내장 preset은 OpenJarvis가 단순 채팅 앱이 아니라 agent stack을 겨냥한다는 점을 드러냅니다. morning-digest-mac은 메일, 캘린더, 뉴스로 아침 브리핑을 만들고, deep-research는 웹과 로컬 문서를 함께 인덱싱해 출처가 있는 답변을 반환합니다. code-assistant는 로컬 머신에서 Python 코드를 쓰고 실행하는 에이전트입니다. scheduled-monitor는 일정 기반의 장기 모니터링을 맡고, chat-simple은 도구 없는 가벼운 대화 preset입니다.

이 preset 목록에서 개발자가 봐야 할 부분은 도구 권한입니다. 로컬 개인 AI는 클라우드 전송을 줄이지만, 대신 사용자의 PC에서 파일 I/O, 코드 실행, OAuth 연결, 메모리 인덱싱을 직접 수행합니다. 데이터가 외부 API로 나가지 않는다는 장점은 로컬 권한 관리가 제품 책임으로 이동한다는 사실과 함께 옵니다. OpenJarvis가 개인 AI를 로컬로 가져올수록 승인 UI, 실행 로그, 실패 복구, 비밀 정보 스캔 같은 기능은 프레임워크 사용자의 체크리스트가 됩니다.

논문에서 가장 공격적인 숫자는 LLM-guided spec search 결과입니다. 연구진은 클라우드 frontier 모델이 search time에 spec edit을 제안하고, 비회귀 edit만 받아들이며, 최종 spec은 inference time에 온디바이스로 실행된다고 설명합니다. 이 방식으로 온디바이스 spec이 8개 벤치마크 중 4개에서 클라우드 정확도와 같거나 높았고, 평균적으로 최고 클라우드 기준보다 3.2%p 안에 들어왔다고 주장합니다. marginal API 비용은 약 800배 줄고, end-to-end latency는 4배 줄었다는 수치도 제시됐습니다.

4/8
클라우드 정확도와 같거나 높은 벤치마크
~800x
논문상 marginal API 비용 감소
4x
논문상 end-to-end latency 감소

이 수치는 OpenJarvis가 클라우드 모델을 완전히 배제한다는 뜻이 아닙니다. 연구진의 spec search 자체는 frontier cloud model을 탐색 단계의 도우미로 씁니다. 차이는 inference time의 실행 위치입니다. 사용자가 매일 호출하는 개인 AI 작업은 로컬 spec으로 돌아가고, 클라우드 모델은 더 나은 로컬 spec을 찾는 개발 단계의 도구가 됩니다. 비용과 데이터 경계가 매 요청 과금에서 주기적 최적화 비용으로 이동합니다.

Ollama가 이 발표에 붙은 이유도 여기에서 읽힙니다. Ollama는 2026년 들어 OpenAI Codex CLI, Claude Code, OpenClaw 같은 개발자 도구와 로컬 또는 클라우드 모델을 연결하는 통합을 계속 추가했습니다. OpenJarvis v1.0 지원은 그 방향을 개인 AI 쪽으로 넓힙니다. 코딩 에이전트에서 쓰던 로컬 모델 실행 습관이 메일 브리핑, 문서 연구, 개인 모니터링, 코드 실행 에이전트로 이어질 수 있습니다.

경쟁 구도는 두 갈래입니다. 하나는 Claude, ChatGPT, Gemini처럼 클라우드 frontier 모델을 중심으로 개인 비서 경험을 확장하는 제품입니다. 다른 하나는 OpenClaw, Hermes Agent, Open WebUI, AnythingLLM처럼 사용자의 장치나 자체 서버에서 도구와 메모리를 묶는 로컬/셀프호스트 계열입니다. OpenJarvis는 후자에 속하지만, 논문은 "작은 로컬 모델만 믿자"보다 복합적입니다. 클라우드 모델을 spec search에 활용하고, 최종 실행을 로컬로 고정하는 하이브리드 설계를 택합니다.

커뮤니티 반응은 아직 초기입니다. Hacker News에서 이번 Ollama 발표에 대한 큰 토론은 확인하지 못했습니다. 3월 OpenJarvis 저장소와 논문 공개 당시 Reddit과 2차 요약은 local-first agent, MCP, privacy, latency, data sovereignty를 주로 언급했습니다. r/LocalLLaMA 주변 논의는 로컬 실행에 우호적이지만, 모델 크기, tool calling 품질, Ollama 설정, GPU/메모리 제약을 반복적으로 지적합니다. OpenJarvis v1.0은 설치 경로를 단순화했지만, 실제 장기 사용 품질은 이제부터 사용자 로그와 issue에서 검증됩니다.

개발팀 관점에서 첫 실험은 작은 업무부터 시작하는 편이 맞습니다. 개인 문서 검색, 반복 리포트, 로컬 코드 분석처럼 데이터 이동 비용이 큰 작업은 OpenJarvis의 장점과 맞습니다. 반대로 정확한 최신 웹 조사, 큰 컨텍스트 추론, 복잡한 멀티모달 작업은 아직 클라우드 모델 fallback이 필요할 수 있습니다. OpenJarvis의 가치도 로컬과 클라우드 중 하나를 고르는 데 있지 않습니다. 어떤 작업을 로컬 spec으로 고정하고, 어떤 작업을 클라우드로 넘길지 측정하게 만드는 데 있습니다.

보안팀은 "클라우드로 안 나간다"는 문장만 보고 승인하면 안 됩니다. 로컬 에이전트는 사용자의 키체인, 파일 시스템, 브라우저 세션, 개발 환경에 더 가까이 붙습니다. code-assistant 같은 preset은 코드 실행과 파일 I/O를 다루므로, sandbox, allowlist, audit log, secret redaction, 네트워크 egress 정책이 필요합니다. 개인 AI가 로컬에서 돈다는 말은 데이터 경계가 PC 안으로 내려왔다는 뜻이지, 위험이 사라졌다는 뜻이 아닙니다.

제품팀은 비용 모델을 다시 계산할 수 있습니다. 클라우드 개인 AI는 사용량이 늘수록 API 비용과 latency budget이 제품 한계가 됩니다. OpenJarvis 논문이 제시한 약 800배 marginal API 비용 감소와 4배 latency 감소는 연구 조건의 수치이므로 그대로 가격표에 넣을 수는 없습니다. 다만 사용자 기기에서 충분히 처리 가능한 작업을 찾아내면, 구독형 AI 제품의 원가 구조와 개인정보 설명 방식이 달라집니다. 로컬 inference는 "무료"가 아니라 사용자 하드웨어, 전력, 설치 복잡도로 비용을 옮기는 선택입니다.

한국 독자에게 이 뉴스가 의미 있는 이유는 AI 에이전트의 실행 위치가 다시 제품 설계 주제가 됐기 때문입니다. 2025년과 2026년 코딩 에이전트 뉴스는 대부분 cloud sandbox, browser control, remote workspace, enterprise governance로 흘렀습니다. OpenJarvis와 Ollama 조합은 반대편 질문을 던집니다. 개인 AI가 정말 개인 문맥을 오래 들고 일한다면, 모든 요청을 외부 모델로 보내는 방식이 기본값이어야 하는가. 이번 v1.0 지원은 그 질문을 논문과 설치 명령 사이에 놓았습니다.

다음 관찰 지점은 세 가지입니다. 첫째, OpenJarvis issue와 release note에서 실제 tool calling 실패, 메모리 인덱싱 비용, desktop app 안정성이 얼마나 빨리 줄어드는지 봐야 합니다. 둘째, Ollama의 로컬 모델 생태계가 개인 AI preset에 맞는 function calling과 장기 문맥 처리를 얼마나 개선하는지 확인해야 합니다. 셋째, OpenJarvis의 spec search가 연구 벤치마크 밖의 개인 업무 로그에서도 비용과 정확도 균형을 유지하는지 검증해야 합니다.

OpenJarvis 1.0은 개인 AI 시장을 한 번에 뒤집는 제품 출시가 아닙니다. 더 정확한 표현은 "개인 AI의 클라우드 기본값에 대한 실행 가능한 반례"입니다. Ollama가 설치 경로를 붙였고, 논문은 왜 단순한 모델 교체가 실패하는지 수치로 설명했습니다. 이제 비교 기준은 모델 이름 하나가 아니라 실행 위치, spec 구조, 권한 경계, 에너지와 비용, 사용자 장치에서 버틸 수 있는 장기 운영성입니다.