AI 앱은 다 어디로 갔나? PyPI 80만 패키지가 말하는 불편한 진실
answer.ai가 PyPI 데이터를 분석한 결과, AI 도구의 생산성 혁명은 데이터에서 보이지 않습니다. AI가 만든 것은 더 많은 소프트웨어가 아니라, 더 많은 AI 소프트웨어뿐이었습니다.
OpenAI의 연간 매출이 $25B을 돌파했습니다. GitHub Copilot 사용자 수는 1억 명을 넘었습니다. 모든 AI 코딩 도구가 "개발자 생산성 10배 향상"을 약속합니다. 그렇다면 당연히 소프트웨어가 폭발적으로 늘어났어야 합니다. 새로운 앱, 새로운 라이브러리, 새로운 패키지가 쏟아져 나왔어야 합니다.
그런데 그 증거가 없습니다.
Jeremy Howard가 이끄는 AI 연구소 answer.ai의 Alexis Gallagher와 Rens Dimmendaal이 PyPI(Python Package Index)의 80만 개 패키지 데이터를 분석했습니다. 2014년부터 2025년 말까지의 패키지 생성량, 업데이트 빈도, AI/비AI 분류를 종합적으로 들여다본 결과, 그들이 내린 결론은 이렇습니다.
"소프트웨어 생산성의 캄브리아기 대폭발은 일어나지 않았습니다. 일어난 것은, AI 생태계 자체의 집중적이고 좁은 범위의 폭발뿐입니다."
이 연구는 Hacker News에서 321 포인트, 291개의 댓글을 기록하며, AI 업계에서 가장 불편한 질문을 정면으로 던졌습니다 — 우리는 정말로 더 많은 소프트웨어를 만들고 있는 걸까요?
데이터가 보여주는 것 — 범용 생산성 폭발은 없었다
answer.ai의 분석 방법론은 명확합니다. PyPI에서 가장 많이 다운로드된 상위 15,000개 패키지를 기준으로, 패키지 생성 시기별 코호트(cohort)를 나누고, 각 코호트의 릴리스 빈도(release frequency) 를 추적했습니다. "진짜 사용되는 패키지"만 분석하기 위해 알파/베타/RC 릴리스는 제외했으며, AI 관련 여부는 GPT-5.2로 분류한 뒤 수동 검증(93% 일치율)을 거쳤습니다.
결과는 세 가지 핵심 발견으로 요약됩니다.
1. 새로운 패키지의 "폭발"은 없었다
PyPI의 총 패키지 수는 약 80만 개로, 꾸준히 증가하고 있지만 ChatGPT 출시 전후로 뚜렷한 변곡점이 없습니다. 월별 신규 패키지 생성량(5,000~15,000개)도 AI 시대에 눈에 띄는 증가를 보이지 않았습니다. 간헐적인 급증은 스팸과 악성코드 때문이었습니다.
answer.ai의 저자들은 이를 이렇게 표현했습니다.
"시대를 획정하는 소프트웨어 생산성 혁명처럼 보이나요? 아닙니다."
2. 업데이트 빈도 증가는 AI 이전부터 시작됐다
패키지의 첫 12개월간 릴리스 빈도를 코호트별로 비교하면 흥미로운 패턴이 나타납니다.
코호트별 첫 12개월 릴리스 빈도 (중앙값)
PyPI 상위 15,000개 패키지 기준 · 출처: answer.ai
2014년 코호트의 패키지는 첫해에 평균 6회 릴리스했습니다. 2019년 코호트는 10회, 2023년 코호트는 13회까지 올라갔습니다. 언뜻 AI 효과처럼 보이지만, 이 추세는 2019년부터 이미 시작됐습니다. 저자들은 이를 GitHub Actions 등 CI/CD 자동화의 확산으로 설명합니다. 코드를 더 자주 push하는 것이 더 생산적인 것은 아닙니다 — 단지 자동화된 파이프라인이 릴리스를 더 쉽게 만든 것뿐입니다.
3. AI 효과는 "AI에 대한 AI"에만 집중돼 있다
가장 결정적인 발견입니다. 15,000개 패키지를 AI/비AI로 분류하고, 다시 인기도(다운로드 수) 상위/하위로 나누어 2×2 매트릭스를 만들면, 효과의 집중도가 선명하게 드러납니다.
~10회
변화 없음
21-26회
2배 이상 증가 ↑
~10회
변화 없음
~15회
소폭 증가
ChatGPT 이후 릴리스 빈도가 2배 이상 증가한 영역은 인기 AI 패키지뿐입니다
인기 AI 패키지는 연 21~26회 릴리스로, ChatGPT 이전 대비 2배 이상 증가했습니다. 반면 인기 비AI 패키지는 ~10회로 거의 변화가 없습니다. 효과는 오직 "인기 있는 AI 관련 패키지"에만 집중되어 있었습니다.
이것은 무엇을 의미할까요? AI 도구가 모든 개발자를 더 생산적으로 만든 것이 아니라, AI 생태계 자체가 폭발적으로 성장한 것입니다. LangChain, LlamaIndex, Transformers, vLLM 같은 AI 프레임워크들이 빠르게 반복하면서 릴리스 빈도를 끌어올린 것이지, 일반적인 웹 프레임워크나 유틸리티 라이브러리가 AI 덕분에 더 자주 업데이트되는 것은 아닙니다.
두 가지 가설 — 스킬인가, 돈인가
answer.ai는 이 집중 현상을 설명하는 두 가지 가설을 제시합니다.
가설 1: AI 스킬 집중. AI 도구를 가장 잘 활용하는 개발자가 AI 관련 패키지를 만드는 개발자라는 논리입니다. AI를 만드는 사람이 AI를 쓰는 데도 능숙하니, 자연스럽게 이 영역에서만 생산성 향상이 관찰된다는 것입니다. 하지만 이 가설만으로는 설명이 안 됩니다. 만약 순수한 스킬 효과라면, 인기/비인기 AI 패키지 모두에서 비슷한 증가가 나타나야 합니다. 실제로는 인기 AI 패키지에만 효과가 집중되어 있습니다.
가설 2: 돈과 하이프. 엄청난 투자금과 관심이 AI 분야에 쏟아지면서, 더 많은 개발자가 AI 패키지를 만들고, 기존 AI 패키지는 더 많은 리소스를 받아 더 빠르게 반복하게 됐다는 설명입니다. 이를 뒷받침하는 데이터가 있습니다 — 2021년에는 상위 패키지 중 비AI:AI 비율이 6:1이었는데, 2024년에는 2:1 미만으로 줄었습니다. 새로 등장하는 인기 패키지 중 AI 비중이 급격히 높아진 것입니다.
저자들은 두 가설이 공존할 가능성이 높다고 보면서도, 핵심 메시지는 명확하게 남겼습니다.
"초인적인 개발자 생산성의 증거가 있다면, 집합적 데이터에서 그 효과는 측정할 수 없을 정도로 작습니다."
커뮤니티 반응 — "80%를 가속했지만, 80%가 병목이었던 적은 없다"
Hacker News에서 321 포인트, 291개의 댓글이 달린 이 글에 대한 커뮤니티 반응은 놀라울 정도로 풍부한 논쟁을 만들어냈습니다.
생산성 역설
가장 많은 공감을 받은 의견은 "마지막 단계 문제" 를 지적했습니다.
"AI는 프로토타입 개발을 극적으로 가속합니다. 하지만 프로덕션 품질까지 가는 마지막 단계가 전체 시간과 노력의 대부분을 차지합니다."
이것은 소프트웨어 공학의 고전적인 격언 "90-90 법칙" 의 AI 버전입니다. 첫 90%의 코드는 전체 시간의 90%를 차지하고, 나머지 10%의 코드가 또 다른 90%의 시간을 차지한다는 농담이 있습니다. AI가 가속하는 것은 원래 병목이 아니었던 80% 라는 것입니다. 보일러플레이트 코드 작성, 기본 CRUD 구현, API 연동 — 이런 작업은 경험 있는 개발자에게 원래도 병목이 아니었습니다.
측정의 한계
상당수의 댓글은 측정 기준 자체에 의문을 제기했습니다.
"제품은 돈을 벌기 위한 도구입니다. 반면 AI는 '제품 만들기'보다 '문제 해결하기'의 비용을 훨씬 더 많이 낮추고 있습니다."
개발자들이 AI로 만드는 것이 PyPI에 올리는 공개 패키지가 아니라, 개인용 도구, 사내 자동화, 일회성 스크립트일 수 있다는 반론입니다. 실제로 여러 개발자가 자신의 경험을 공유했습니다 — 식료품 앱을 20분 만에 만들었다, 가족 사진 디지털화 도구를 AI로 뚝딱 만들었다. 이런 "개인용 소프트웨어"는 PyPI 통계에 잡히지 않습니다.
반론 데이터: iOS 앱 제출 24% 증가
answer.ai의 분석에 대한 가장 강력한 반론은 iOS 앱 스토어 데이터에서 왔습니다.
"2025년 신규 iOS 앱 제출이 전년 대비 24% 증가했습니다. 2016년 이후 처음 있는 의미 있는 증가입니다."
이 데이터는 AI가 모바일 개발에서는 실제로 앱 생산을 늘리고 있을 수 있음을 시사합니다. PyPI와 App Store의 차이가 왜 발생하는지는 추가 연구가 필요하지만, 모바일 앱은 Python 패키지보다 진입장벽이 높았고, AI가 바로 그 진입장벽을 낮추고 있을 가능성이 있습니다.
"이해 부채(Comprehension Debt)"의 경고
가장 예리한 지적 중 하나는 이해 부채 개념이었습니다. AI가 생성한 코드베이스에 대한 이해 부족이 보안 취약점과 아키텍처 실수를 만들어내고, 이것이 규모가 커질 때에야 드러난다는 경고입니다.
"AI로 코드를 10배 빠르게 생성하면서 동시에 이해하지 못하는 코드의 양도 10배로 늘어나고 있습니다. 이 부채는 축적되고 있습니다."
"삽을 파는 것"과 "금을 캐는 것"
이 분석을 더 넓은 맥락에 놓으면, AI 산업의 현 단계가 어디인지가 보입니다.
AI 코딩 도구 시장은 폭발적으로 성장하고 있습니다. Cursor는 $900M 이상의 ARR, OpenAI는 $25B. 하지만 이 성장의 대부분은 "삽을 파는 것(selling shovels)" — 즉 AI 도구 자체를 만들고 파는 것에서 오고 있습니다. "금을 캐는 것(prospecting for gold)" — 즉 AI 도구를 사용해서 실제로 새로운 소프트웨어 가치를 창출하는 것은, 데이터에서 아직 보이지 않습니다.
이것은 1849년 골드러시와 놀랍도록 유사합니다. 골드러시에서 가장 확실하게 돈을 번 사람은 금을 캔 광부가 아니라, 삽과 청바지를 판 상인이었습니다. Levi Strauss가 대표적이죠. AI 시대에 가장 확실한 수혜자는 AI를 사용하는 개발자가 아니라, AI 도구를 파는 회사들입니다.
answer.ai의 데이터는 이 패턴을 수치로 확인시켜 줍니다. AI 패키지의 릴리스 빈도가 2배 이상 증가한 것은 "삽 만들기"가 활발하다는 증거입니다. 비AI 패키지의 릴리스 빈도가 변하지 않은 것은 "금 캐기"가 아직 본격화되지 않았다는 증거입니다.
전망 — 불편하지만 건강한 질문
이 분석에는 분명한 한계가 있습니다. PyPI는 Python 생태계만 반영하고, 상위 15,000개 패키지라는 표본 선택 편향이 있으며, 기업 내부 코드나 개인 프로젝트는 포착하지 못합니다. AI의 진정한 생산성 효과가 아직 측정 가능한 수준에 도달하지 않았을 수도 있고, 완전히 다른 형태(코드가 아닌 자동화, 노코드 등)로 나타나고 있을 수도 있습니다.
하지만 이 연구가 가치 있는 이유는 "주장에 데이터를 요구했기 때문" 입니다. AI 업계는 "10배 생산성"을 마케팅 구호처럼 외치지만, 그에 상응하는 집합적 증거를 제시하는 데는 관심이 없었습니다. answer.ai는 가용한 최대 규모의 공개 데이터로 이를 검증하려 시도했고, 결과는 겸손함을 요구합니다.
AI가 개별 개발자에게 생산성 향상을 제공하고 있다는 것은 부정하기 어렵습니다. 대부분의 개발자가 체감하고 있으니까요. 하지만 그 효과가 산업 전체의 소프트웨어 생산량 증가로 이어지고 있는가는 별개의 질문이며, 현재 데이터는 "아직은 아니다"에 가깝습니다.
이것은 AI 비관론이 아닙니다. 건강한 현실 점검입니다. 골드러시의 역사가 말해주듯, "삽을 파는 단계"가 반드시 "금을 캐는 단계"로 이어지지는 않습니다. AI 도구가 진정한 가치를 만들어내려면, "프로토타입을 빠르게 만드는 것"을 넘어 "프로덕션 품질의 소프트웨어를 효율적으로 만드는 것" 까지 나아가야 합니다. 그 전환이 일어나고 있는지, 아직은 데이터가 대답하지 못합니다.
80만 개의 패키지가 말하는 진실은 간단합니다 — AI는 아직 금을 캐지 못했습니다. 삽을 만들고 있을 뿐입니다.