Devlery
Blog/AI

AI 에이전트 20개를 동시에 돌리다 막힌 개발자가 만든 무인 회사 운영체제

Paperclip은 여러 AI 에이전트를 하나의 회사처럼 조직화하는 오픈소스 오케스트레이션 플랫폼입니다. 3주 만에 GitHub 스타 4만 개를 돌파한 이 프로젝트가 AI 에이전트 인프라의 새로운 계층을 열고 있습니다.

Claude Code 창을 20개 열어놓고 자동화 헤지펀드를 운영하던 개발자가 있었습니다. 각 창이 무슨 작업을 하는지 추적할 수 없었고, 에이전트 간 공유 컨텍스트도 없었으며, 비용이 얼마나 나가는지도 몰랐습니다. 리부트하면 모든 상태가 사라졌습니다. 이 개발자가 만든 것이 Paperclip 입니다. 3주 만에 GitHub 스타 39,900개를 돌파한, AI 에이전트를 위한 오픈소스 오케스트레이션 플랫폼입니다.

Paperclip의 슬로건은 도발적입니다.

"오픈소스 오케스트레이션 for zero-human companies"

(원문: "Open-source orchestration for zero-human companies")

개별 에이전트를 더 똑똑하게 만드는 도구가 아닙니다. 여러 에이전트를 하나의 회사 처럼 조직화하고 운영하는 컨트롤 플레인입니다. 이 프로젝트가 왜 지금 폭발적인 관심을 받고 있는지, 그리고 AI 에이전트 생태계에서 어떤 빈자리를 채우고 있는지 살펴보겠습니다.

에이전트는 넘쳤지만, 관리자는 없었다

2026년은 에이전틱 AI가 엔터프라이즈에 본격 진입하는 원년으로 평가됩니다. Forrester, Gartner, Deloitte 등 주요 리서치 기관이 올해 AI 에이전트를 최대 트렌드로 꼽았습니다. 실제로 약 2/3의 기업이 AI 에이전트를 실험 중입니다.

하지만 수치의 이면에는 뚜렷한 병목이 있습니다. 프로덕션 스케일링에 성공한 기업은 1/4 미만 입니다. 개별 에이전트의 성능은 급격히 향상되었지만, 여러 에이전트를 동시에 돌릴 때 발생하는 구조적 문제들이 해결되지 않았기 때문입니다.

거버넌스 공백
CISO가 에이전트 리스크를 우려하지만, 성숙한 보호 장치를 갖춘 곳은 극소수
비용 통제
다수의 에이전트가 동시에 API를 호출할 때 비용이 통제 불가 수준으로 폭주
상태 관리
에이전트 세션의 컨텍스트 유지 및 리부트 후 복구가 사실상 불가능
작업 중복
여러 에이전트가 동시에 같은 작업을 반복 수행하는 이중 작업 문제
감사 추적
AI 에이전트의 결정과 행동에 대한 투명한 기록이 전무한 상태

프로덕션 스케일링에 성공한 기업은 전체의 1/4 미만 — 개별 에이전트 성능이 아닌 오케스트레이션 부재가 원인

문제를 구체적으로 열거하면 이렇습니다. 첫째, 거버넌스 공백 입니다. CISO들이 AI 에이전트의 리스크를 우려하지만, 성숙한 보호 장치를 구현한 곳은 극소수입니다. 둘째, 비용 통제 입니다. 다수의 에이전트가 동시에 API를 호출할 때 비용이 폭주합니다. 셋째, 상태 관리 입니다. 에이전트 세션의 컨텍스트를 유지하거나, 리부트 후 복구하는 것이 불가능에 가까웠습니다. 넷째, 작업 중복 입니다. 여러 에이전트가 같은 작업을 반복 수행하는 이중 작업 문제가 빈번했습니다. 다섯째, 감사 추적 입니다. AI 에이전트의 결정과 행동에 대한 투명한 기록이 없었습니다.

이 다섯 가지 문제는 개별 에이전트의 성능과는 무관합니다. 아무리 뛰어난 직원을 고용해도, 조직 구조와 운영 시스템이 없으면 회사가 돌아가지 않는 것과 같습니다. Paperclip의 창시자 dotta가 정확히 이 지점을 겨냥한 것입니다.

Paperclip이 풀려는 문제, 에이전트의 "회사화"

에이전트 런타임에 비의견적

Paperclip의 첫 번째 설계 원칙은 에이전트 런타임에 대해 비의견적(unopinionated) 이라는 것입니다. 특정 에이전트 프레임워크에 종속되지 않습니다. 하트비트 신호를 받을 수 있는 모든 에이전트가 호환됩니다.

현재 지원되는 런타임 목록이 이를 증명합니다. Claude Code, Codex, Cursor, OpenCode, Gemini CLI, Pi, Hermes, 그리고 OpenClaw까지. 일반 Bash 스크립트와 HTTP 엔드포인트도 에이전트로 등록할 수 있습니다. Paperclip의 공식 README는 이 포지셔닝을 이렇게 요약합니다.

"OpenClaw가 직원이라면, Paperclip은 회사다."

(원문: "If OpenClaw is an employee, Paperclip is the company.")

LangChain, CrewAI, AutoGen 같은 에이전트 컴포지션 프레임워크가 파이프라인을 구축 하는 도구라면, Paperclip은 그 파이프라인들이 실행되는 환경에서의 조직 운영 체제 입니다. 이 구분이 Paperclip을 기존 도구들과 차별화하는 핵심입니다.

원자적 작업 체크아웃

멀티 에이전트 환경의 가장 골치 아픈 문제 중 하나가 이중 작업입니다. 두 에이전트가 동시에 같은 버그를 수정하거나, 같은 기능을 구현하는 상황입니다. Paperclip은 이를 원자적 작업 체크아웃(Atomic Task Checkout) 으로 해결합니다.

// 작업 상태 전이: 한 번에 하나의 에이전트만 소유
// in_progress로의 전환에는 원자적 체크아웃이 필요
// 두 에이전트가 동시에 같은 작업을 요청하면, 하나는 409 Conflict를 받음

작업 체크아웃과 예산 차감이 하나의 트랜잭션으로 처리됩니다. 데이터베이스 수준에서 원자성이 보장되므로, 이중 작업이나 예산 초과가 원천 차단됩니다. 이것은 단순한 편의 기능이 아니라, 멀티 에이전트 시스템의 정합성(consistency) 을 보장하는 인프라 레벨의 설계입니다.

예산 관리와 승인 게이트

에이전트에게 예산을 줄 수 있다는 발상 자체가 흥미롭습니다. Paperclip은 에이전트별 월간 예산을 설정하고, 80% 소진 시 소프트 경고를, 100% 소진 시 자동 일시정지를 수행합니다. 에이전트별, 작업별, 프로젝트별, 목표별로 비용을 추적할 수 있습니다.

더 중요한 것은 승인 게이트(Approval Gates) 입니다. 자율 에이전트가 중요한 결정을 내리기 전에 인간의 승인을 요구하는 거버넌스 메커니즘입니다. 새 에이전트 채용, 전략적 변경 실행, 시스템 설정 수정 같은 핵심 결정에서 인간이 개입할 수 있습니다. 모든 설정 변경은 버전 관리되며, 문제 발생 시 롤백이 가능합니다.

여기에 불변 감사 로그(immutable audit log) 가 더해집니다. 모든 도구 호출과 결정이 추가 전용(append-only) 로그에 기록됩니다. "이 에이전트가 왜 이 결정을 내렸는가"를 사후에 추적할 수 있다는 것입니다. 엔터프라이즈 환경에서 AI 에이전트를 프로덕션에 배포하려면, 이 수준의 감사 추적은 선택이 아니라 필수입니다.

조직도와 하트비트

Paperclip은 에이전트들을 실제 기업 조직도처럼 계층적으로 구성합니다. 역할(Role)과 보고선(Reporting Line)을 정의하고, 회사 미션에서 팀 목표, 개인 작업까지 추적할 수 있습니다. 교차 팀 요청은 최적의 에이전트에게 자동으로 위임됩니다.

하트비트 시스템은 이 조직의 "맥박"입니다. 에이전트별로 주기를 설정할 수 있습니다. 활발한 빌더는 4시간마다, 분석가는 8시간마다, 주간 리포터는 24시간마다 하트비트를 실행합니다. 핵심은 상태 지속성 입니다. 에이전트가 이전 하트비트의 동일한 작업 컨텍스트를 이어받습니다. 처음부터 다시 시작하지 않습니다. dotta가 Claude Code 20개 창에서 겪었던 "리부트 후 상태 유실" 문제를 정확히 해결하는 기능입니다.

3주, 4번의 릴리스, 39,900 스타

Paperclip의 개발 속도는 프로젝트의 모멘텀을 보여줍니다. 3월 초 공개 이후 3주 동안 4개의 릴리스가 나왔습니다.

v0.3.0(3월 9일)에서 Cursor, OpenCode, Pi 어댑터와 OpenClaw 게이트웨이가 추가되었습니다. v0.3.1(3월 12일)에서 Gemini CLI가 합류했습니다. v2026.318.0(3월 18일)에서는 풀 플러그인 시스템과 격리된 실행 워크스페이스가 도입되었습니다. 가장 최근인 v2026.325.0(3월 25일)에서는 회사 포터빌리티(임포트/엑스포트), 스킬 시스템 UI, 풀 루틴 엔진, Docker 이미지 CI가 추가되었습니다.

Paperclip 릴리스 타임라인 — 3주, 4번의 릴리스
v0.3.03월 9일
  • Cursor, OpenCode, Pi 어댑터 추가
  • OpenClaw 게이트웨이 통합
v0.3.13월 12일
  • Gemini CLI 어댑터 추가
v2026.318.03월 18일
  • 풀 플러그인 시스템 도입
  • 격리된 실행 워크스페이스
v2026.325.03월 25일
  • 회사 포터빌리티 (임포트/엑스포트)
  • 스킬 시스템 UI + 풀 루틴 엔진
  • Docker 이미지 CI

특히 v2026.318.0의 플러그인 시스템 도입은 주목할 만합니다. 서드파티 확장 생태계의 문을 열었기 때문입니다. 그리고 v2026.325.0의 회사 포터빌리티는 "회사 구조를 파일로 내보내고 다른 환경에서 가져올 수 있다"는 의미입니다. 시크릿 스크러빙과 충돌 처리까지 포함되어 있어, 에이전트 조직 구조 자체를 템플릿화할 수 있습니다.

기술 스택도 언급할 가치가 있습니다. Node.js 20+, pnpm 9.15+, PostgreSQL, React, TypeScript로 구성됩니다. 로컬에서는 단일 프로세스가 임베디드 PostgreSQL을 관리하고, 프로덕션에서는 외부 PostgreSQL을 연결합니다. 설치는 한 줄입니다.

npx paperclipai onboard --yes

실무에서의 의미, 에이전트 오케스트레이션이라는 새 계층

우리가 주목해야 할 것은 Paperclip이라는 개별 프로젝트가 아니라, 에이전트 오케스트레이션이라는 새로운 인프라 계층이 등장하고 있다 는 사실입니다.

지금까지 AI 에이전트 생태계의 관심은 주로 개별 에이전트의 성능에 집중되었습니다. Claude Code가 얼마나 정확한 코드를 생성하는가, Cursor의 자동완성이 얼마나 빠른가, Codex가 얼마나 큰 컨텍스트를 처리하는가. 하지만 실무에서 에이전트를 5개, 10개, 20개 동시에 운용하기 시작하면, 개별 성능보다 조율(orchestration) 이 병목이 됩니다.

이것은 컨테이너 기술의 역사와 닮았습니다. Docker가 개별 컨테이너를 쉽게 만들어주었지만, 수십 개의 컨테이너를 프로덕션에서 운영하려면 Kubernetes가 필요했습니다. 마찬가지로, 개별 AI 에이전트 런타임은 충분히 성숙했지만, 이들을 조직적으로 운용하는 오케스트레이션 레이어가 부재했습니다. Paperclip은 이 공백을 채우려는 첫 번째 본격적인 시도입니다.

개발자 워크플로우의 변화

Paperclip이 실무에 미치는 영향을 구체적으로 생각해 보겠습니다. 현재 많은 개발자가 Claude Code, Cursor, Copilot 등 여러 AI 코딩 도구를 동시에 사용합니다. 하지만 이들 사이에 공유 컨텍스트가 없고, 하나가 수정한 코드를 다른 하나가 덮어쓰는 충돌이 빈번합니다. Paperclip의 원자적 작업 체크아웃과 조직도 기반 위임이 이 문제를 해결할 수 있습니다.

더 넓게 보면, Jira나 Linear 같은 프로젝트 관리 도구가 인간 팀을 위한 플랫 백로그를 제공한다면, Paperclip은 AI 에이전트를 위한 계층적 목표 구조 를 제공합니다. 이것은 단순한 태스크 관리가 아니라, 에이전트 팀의 의사결정 구조를 설계하는 것입니다.

관련 도구: harness

에이전트 팀 오케스트레이션과 관련해서 주목할 만한 도구가 하나 더 있습니다. 한국 개발자가 제작한 revfactory/harness 는 Claude Code 플러그인으로, 도메인별 에이전트 팀을 자동으로 설계하는 메타 스킬입니다. "build a harness for this project"라고 말하면 에이전트 설정 파일을 자동 생성합니다. Pipeline, Fan-out/Fan-in, Expert Pool 등 6가지 아키텍처 패턴을 제공하며, 연구 논문에서는 작업 복잡도가 높을수록 효과가 상승하는 것으로 보고되었습니다(Expert 수준에서 +36.2).

harness와 Paperclip은 보완적입니다. harness가 에이전트 팀을 설계 하는 도구라면, Paperclip은 그 팀을 운영 하는 플랫폼입니다. 설계 단계와 운영 단계, 양쪽 모두에서 도구가 등장하고 있다는 것은 에이전트 오케스트레이션이 하나의 독립된 인프라 계층으로 자리잡고 있음을 보여줍니다.

커뮤니티 반응, 흥분과 우려 사이

긍정적 평가

X(Twitter)에서의 반응은 뜨거웠습니다. AI 뉴스레터 The Neuron은 이렇게 평가했습니다.

"당신의 AI 에이전트에게 CEO가 필요할 수 있습니다. Paperclip은 Claude Code, Codex, Cursor 등을 실제 회사 구조로 바꾸는 오픈소스 도구입니다."

(원문: "Your AI agents might need a CEO. Paperclip is an open source tool that turns Claude Code, Codex, Cursor, and other agents into a real company structure.")

Andrew Levine은 더 실무적인 관점에서 짚었습니다.

"Paperclip에 대한 솔직한 평가는 이렇습니다. 대부분의 사람들이 AI 에이전트에서 겪고 있지만 인식하지 못하는 문제, 즉 좋은 프로젝트 관리 시스템의 부재를 해결합니다."

(원문: "Honest assessment of Paperclip... It solves the problem most people are having with AI agents but don't know they're having which is that they lack a good project management system.")

Substack의 심층 분석에서는 더 근본적인 전환을 지적했습니다.

"제품을 설계하는 것을 멈추고 무리(swarm)를 프로젝트 관리하기 시작하는 순간이 옵니다. 문제는 자율 에이전트 팀과 일하게 될 것인지가 아닙니다. 그들이 어떻게 함께 일하는지를 설계하는 사람이 될 것인지가 문제입니다."

(원문: "There's a moment where you stop designing products and start project-managing a swarm. The question isn't whether you'll work with autonomous agent teams. It's whether you'll be the one designing how they work together.")

우려와 비판

흥분 속에서도 냉정한 목소리가 있습니다.

첫 번째는 성숙도 입니다. 3주 된 프로젝트입니다. PRODUCT.md에서 인증/온보딩 이슈를 명시적으로 플래그하고 있으며, "설치 후 5분 내 첫 작업 실행"이 목표이지만 아직 일관된 현실은 아닙니다. 매니지드 클라우드 버전이 없어서 DevOps 역량 없이는 운영이 어렵습니다.

두 번째는 에이전트 간 오류 전파 입니다. 에이전트의 출력이 다른 에이전트의 입력이 될 때, 하나의 실수가 전체 체인으로 확산됩니다. 실제로 Flowtivity는 3건 대상이어야 할 작업이 23건으로 실행된 사례를 문서화했습니다. Paperclip은 작업 중복은 방지하지만, 결과물의 품질 검증 메커니즘은 아직 제한적입니다.

세 번째는 복잡한 의사결정 위임 입니다. 승인 게이트가 바이너리(승인/거부)에 가까우며, 복잡한 비즈니스 판단을 AI에 위임하는 프레임워크는 아직 미성숙합니다. "이 PR을 머지해도 되는가"처럼 명확한 결정은 가능하지만, "고객 대응 전략을 변경해야 하는가" 같은 판단은 현재 구조로는 어렵습니다.

"페이퍼클립 극대화기"의 아이러니

이 프로젝트의 이름에서 코끼리를 무시할 수 없습니다. Paperclip 이라는 이름은 철학자 Nick Bostrom의 유명한 사고실험 "페이퍼클립 극대화기(Paperclip Maximizer)"를 직접 연상시킵니다. 페이퍼클립을 만들라는 목표를 받은 초지능 AI가 지구의 모든 자원을 페이퍼클립 생산에 투입하여 인류를 멸망시킨다는, AI 안전 분야의 고전적 경고입니다.

"무인 회사를 운영하는 AI 오케스트레이션 플랫폼"에 이 이름을 붙인 것은 분명 의도된 아이러니입니다. 하지만 이 아이러니가 가리키는 방향은 진지합니다. AI 에이전트가 자율적으로 작업을 수행하고, 예산을 집행하고, 다른 에이전트를 "고용"할 수 있는 시스템이 실제로 구축되고 있다는 것입니다.

Paperclip이 이 우려에 대한 답으로 제시하는 것이 승인 게이트와 감사 로그입니다. 하지만 AI 안전 커뮤니티의 관점에서 보면, 이것만으로는 충분하지 않을 수 있습니다. 에이전트가 에이전트를 관리하는 구조에서, 최종적인 인간 감독이 형식적 절차가 아닌 실질적 통제로 작동하려면 어떤 거버넌스 프레임워크가 필요한지는 아직 열린 질문입니다.

MIT Sloan Management Review와 Deloitte는 완전한 무인 회사보다는 하이브리드 인간-AI 워크포스 를 현실적 방향으로 제시합니다. 인간이 핵심 결정 지점에 개입하는 에이전틱 자동화가 주류가 될 것이라는 전망입니다. Paperclip의 승인 게이트 설계는 이 방향과 일치하지만, "zero-human company"라는 슬로건과는 긴장 관계에 있습니다. 이 긴장이 해소되지 않는 한, Paperclip은 비전과 현실 사이에서 줄타기를 계속할 것입니다.

전망, 오케스트레이션이 핵심 경쟁 영역이 된다

Paperclip이 보여주는 가장 중요한 신호는 개별 에이전트의 성능 경쟁이 상향 평준화되는 가운데, 오케스트레이션 레이어가 새로운 경쟁 영역으로 부상하고 있다 는 것입니다.

개별 에이전트의 코드 생성 정확도나 컨텍스트 윈도우 크기는 매달 개선됩니다. 하지만 10개의 에이전트를 동시에 운용하면서 비용을 통제하고, 작업 충돌을 방지하고, 결정을 감사하고, 장애에서 복구하는 능력은 개별 에이전트의 성능과는 전혀 다른 문제입니다. 이것은 인프라 의 문제이고, Paperclip은 이 인프라를 오픈소스로 제공하려는 것입니다.

앞으로 주목할 지점은 세 가지입니다.

첫째, 엔터프라이즈 거버넌스의 필수화 입니다. 에이전트 배포가 기업 보안 정책보다 빠르게 진행되고 있습니다. 감사, 승인, 비용 통제가 필수 인프라로 부상할 것이고, Paperclip의 감사 로그와 승인 게이트 같은 기능이 표준이 될 가능성이 높습니다.

둘째, 플러그인 생태계의 성장 입니다. v2026.318.0에서 도입된 플러그인 시스템은 서드파티 확장의 문을 열었습니다. 에이전트 런타임 어댑터, 커스텀 거버넌스 규칙, 외부 서비스 통합 등이 플러그인으로 제공될 수 있습니다. 생태계가 형성되면 Paperclip의 가치는 플랫폼 효과로 증폭됩니다.

셋째, 회사 템플릿의 공유 입니다. v2026.325.0의 포터빌리티 기능으로 에이전트 조직 구조를 파일로 내보내고 공유할 수 있게 되었습니다. "스타트업용 에이전트 팀 구조", "데이터 파이프라인용 에이전트 조직" 같은 템플릿이 커뮤니티에서 공유되기 시작하면, 에이전트 오케스트레이션의 진입 장벽이 크게 낮아질 것입니다.

물론 3주 된 프로젝트가 이 모든 약속을 지킬 수 있을지는 미지수입니다. 매니지드 클라우드의 부재, 에이전트 간 오류 전파, 인증 시스템의 미성숙함은 프로덕션 도입에 걸림돌입니다. 하지만 39,900개의 GitHub 스타가 말해주는 것은 분명합니다. AI 에이전트를 여러 개 동시에 운용하는 사람들이, 오케스트레이션 도구를 절실하게 원하고 있다는 것입니다.

Paperclip 대시보드 — 에이전트 현황, 월간 지출, 최근 작업 목록을 한눈에 볼 수 있는 컨트롤 플레인

Paperclip은 AI 에이전트 생태계에서 빠져 있던 퍼즐 조각을 보여줍니다. 개별 에이전트의 시대는 이미 왔습니다. 이제 질문은 이들을 어떻게 조직화할 것인가입니다. "에이전트에게 조직도를 주다"는 발상이 과연 실무에서 작동할까요? 3주 된 프로젝트에 대해 확정적 판단을 내리기는 이릅니다. 하지만 한 가지는 분명합니다. 에이전트 오케스트레이션이라는 인프라 계층의 필요성은, Paperclip의 성패와 무관하게 사라지지 않을 것입니다.