Devlery
Blog/AI

개발자 84%가 AI를 쓰지만 46%는 믿지 않는다, 신뢰의 역설

Stack Overflow 49,000명 설문에서 AI 도구 채택률 84%와 불신률 46%가 동시에 사상 최고를 기록했습니다. METR과 Anthropic 연구가 밝힌 체감과 현실의 격차, 그리고 이 역설이 실무에 미치는 영향을 분석합니다.

개발자 10명 중 8명 이상이 AI 코딩 도구를 사용합니다. 그런데 거의 절반은 그 도구를 믿지 않습니다. 높은 신뢰를 보이는 개발자는 고작 3.1%입니다. Stack Overflow가 177개국 49,000명을 대상으로 실시한 2025 Developer Survey 결과입니다. 채택률과 불신률이 동시에 사상 최고를 기록한, 전례 없는 역설이 벌어지고 있습니다.

이 숫자가 단순한 설문 하나의 이야기였다면 그냥 넘어갈 수 있었을 것입니다. 하지만 JetBrains의 24,534명 설문이 거의 동일한 수치를 보여주고, METR의 무작위 대조 시험(RCT)이 "체감 20% 빠름, 실제 19% 느림"이라는 인식 격차를 입증했으며, Anthropic의 RCT는 AI에 의존한 개발자의 숙련도가 17% 하락한다는 결과를 내놓았습니다. 세 개의 독립적인 연구가 같은 방향을 가리키고 있습니다.

49,000명이 말하는 AI 도구의 현주소

Stack Overflow 2025 Developer Survey는 177개국 49,000명 이상의 응답을 수집한 업계 최대 규모 개발자 설문입니다. 올해 결과에서 가장 눈에 띄는 것은 채택률의 폭발적 성장신뢰도의 동시 붕괴 가 같은 데이터셋에서 나타났다는 점입니다.

84%
AI 도구 채택률
전년 76%에서 상승
↑ 8%p
46%
불신률
전년 31%, 사상 최고
↑ 15%p
3.1%
높은 신뢰 비율
10명 중 0.3명만 신뢰
최저
66%
"거의 맞지만 틀린" 경험
최대 좌절 요인
경고
23%
AI 에이전트 주간 사용
일상 업무 도입은 아직 초기
초기
0.4%
바이브 코딩 적극 사용
화제성과 현실의 괴리
극소수

이 설문의 규모 자체는 주목할 만하지만, 2016년 이후 최저 참여율이기도 합니다. Hacker News에서는 "AI 양극화로 Stack Overflow 플랫폼을 이탈한 개발자가 많다"는 분석이 나왔고, "Stack Overflow 방문자를 대상으로 설문하는 것은 담배 가게 고객에게 흡연 빈도를 묻는 것과 같다"는 표본 편향 지적도 있었습니다. 이 한계를 인식하면서도, JetBrains Developer Ecosystem 2025 설문(24,534명)이 거의 동일한 결과를 보여주었다는 사실이 데이터의 신뢰도를 보강합니다. JetBrains 설문에서도 AI 도구 정기 사용률은 85%, 정확도 불신률은 46%로 Stack Overflow와 놀라울 정도로 일치했습니다.

숫자로 본 역설의 구조

채택률과 신뢰도의 괴리를 구체적인 수치로 살펴보겠습니다.

채택률은 사상 최고입니다. 전체 응답자의 84%가 AI 도구를 사용 중이거나 사용 예정이라고 답했습니다. 2024년의 76%에서 8%p 상승한 수치입니다. 전문 개발자 중 일일 사용자는 51%에 달합니다. AI 코딩 도구는 더 이상 얼리어답터의 실험이 아니라 다수의 일상 이 되었습니다.

신뢰도는 사상 최저입니다. AI 결과물에 대한 순 불신률은 46%로, 전년(31%)에서 15%p 급등했습니다. 반대로 순 신뢰률은 40%에서 29%로 11%p 떨어졌습니다. 가장 충격적인 수치는 "높은 신뢰"가 3.1% 에 불과하다는 것입니다. 10명 중 8명이 쓰지만, 10명 중 3명도 제대로 신뢰하지 않는 도구. 이것이 2025년 AI 코딩 도구의 초상입니다.

경험 수준별 데이터는 더 흥미롭습니다. 10년 이상 경력의 시니어 개발자 중 높은 불신을 표시한 비율은 20.7%인 반면, 높은 신뢰는 2.5%에 그쳤습니다. 불신이 신뢰의 8배 입니다. 반대로 학습 중인 초보자의 높은 신뢰는 6.1%로 가장 높았지만, 그조차 한 자릿수입니다. 경험이 많을수록 AI를 더 불신하는 것입니다. 코드의 미묘한 결함을 감지할 수 있는 눈이 생길수록, AI 출력물의 한계가 더 선명하게 보이기 때문일까요?

"거의 맞지만 결국 틀린" 코드의 함정

AI 코딩 도구에 대한 최대 좌절 요인을 물었을 때, 66%의 개발자가 "거의 맞지만 결국 틀린 솔루션" 을 꼽았습니다. 이 수치도 JetBrains 설문에서 정확히 66%로 일치합니다.

이것이 왜 단순한 오류보다 더 위험한지 생각해보겠습니다. 완전히 틀린 코드는 컴파일 단계에서, 늦어도 기본 테스트에서 걸립니다. 하지만 95% 맞는 코드는 다릅니다. 코드 리뷰를 통과하고, 테스트를 통과하고, 스테이징 환경에서 정상 동작합니다. 그리고 프로덕션의 특정 엣지 케이스에서 조용히 장애를 일으킵니다.

AI 코딩 도구 좌절 요인 (개발자 응답 비율)
Stack Overflow & JetBrains 2025 설문 종합
"거의 맞지만 결국 틀린" 솔루션66%
AI 코드 디버깅이 더 오래 걸림45.2%
코드 동작 이해 어려움40.1%
복잡한 작업 품질 불일치36%
추가 검증 작업 필요30%
복잡한 작업 "매우 잘 처리": 4.4%복잡한 작업 "나쁨~매우 나쁨": 39.6%

설문에서 45.2%의 개발자는 AI 생성 코드를 디버깅하는 데 직접 작성했을 때보다 더 오래 걸린다 고 답했습니다. 20%는 자신의 문제 해결 능력에 대한 자신감을 잃었다고 했고, 16.3%는 코드가 어떻게 동작하는지 이해하기 어렵다고 했습니다. AI가 코드를 대신 써주었지만, 그 코드의 주인이 되지 못하는 상황입니다.

복잡한 작업에 대한 AI의 처리 능력 평가는 더 냉혹합니다. "매우 잘 처리한다"는 응답은 4.4%뿐이고, "나쁨에서 매우 나쁨"이 39.6%였습니다. 보일러플레이트 생성이나 간단한 유틸리티 함수에서는 유용하지만, 진짜 엔지니어링이 필요한 복잡한 문제에서 AI는 아직 부족하다는 것이 현장의 평가입니다.

체감과 현실의 격차, METR과 Anthropic이 밝힌 원인

Stack Overflow 설문의 52%가 AI가 생산성을 높였다고 자가 보고했습니다. 그런데 실제로 그런 것일까요? 두 개의 독립적인 무작위 대조 시험(RCT)이 이 질문에 정면으로 답합니다.

METR 연구: 20% 빨라졌다는 착각

2025년 7월 발표된 METR 연구는 16명의 숙련 오픈소스 개발자(평균 5년 경험, 1,500커밋)를 대상으로, 246개의 실제 이슈를 AI 사용 허용/금지 그룹으로 무작위 배정해 비교했습니다.

결과는 놀라웠습니다. AI를 사용한 그룹이 실제로는 19% 더 느렸습니다. 그런데 연구 참여자들에게 체감 속도를 물었더니, AI가 20% 빠르게 했다고 믿고 있었습니다. 사전 예측에서도 AI가 24% 빠르게 할 것이라 기대했습니다. 객관적 측정과 주관적 체감 사이에 39%p의 격차 가 존재한 것입니다.

METR RCT: 체감 vs 현실의 격차
숙련 오픈소스 개발자 16명 · 246개 실제 이슈 대상
사전 기대
+24%
AI가 빠르게 할 것이라 예측
주관적 체감
+20%
실제로 빨라졌다고 느낌
객관적 측정
-19%
실제로는 더 느렸음
체감과 현실 사이 격차: 39%p
Anthropic RCT: AI 의존과 숙련도 하락
주니어 엔지니어 52명 · 새로운 라이브러리(Trio) 학습 과제
AI 미사용 그룹
67%
퀴즈 평균 점수
AI 사용 그룹
50%
퀴즈 평균 점수
AI 코드 생성 위임 시 숙련도: -17% 하락

원인은 AI 생성 코드 정리에 소요되는 시간 이었습니다. AI가 코드를 빠르게 작성해주는 것은 사실이지만, 그 코드를 프로젝트의 컨벤션에 맞추고, 미묘한 버그를 수정하고, 불필요한 부분을 제거하는 데 절약한 시간 이상이 소요된 것입니다. 개발자들은 "코드 작성"이라는 가시적 단계에서 체감하는 속도 향상에 착각하고, "코드 정리"라는 보이지 않는 비용을 과소평가하고 있었습니다.

Anthropic RCT: AI 의존이 숙련도를 낮춘다

2026년 1월 발표된 Anthropic의 RCT 연구는 다른 각도에서 같은 문제를 조명합니다. 52명의 엔지니어(주로 주니어)를 대상으로 새로운 라이브러리(Trio) 학습 과제를 수행하게 했을 때, AI를 사용한 그룹의 퀴즈 점수는 50%로 미사용 그룹(67%)보다 17% 낮았습니다.

여기서 핵심적인 발견이 있습니다. AI 사용 방식에 따라 결과가 극명하게 갈렸습니다. 개념 이해를 위해 AI를 사용한 개발자는 65% 이상의 점수를 기록한 반면, 코드 생성을 위임한 개발자는 40% 미만에 머물렀습니다. 같은 도구를 쓰더라도, "왜?"를 물으며 탐구하는 사람과 "대신 써줘"라고 위임하는 사람의 학습 결과는 완전히 달라진 것입니다.

이 두 연구는 Stack Overflow 설문의 "체감 vs 현실" 격차를 과학적으로 설명합니다. 개발자들이 AI가 빠르다고 느끼는 것은 착각이 아니라 부분적 진실 입니다. 타이핑 속도는 실제로 빨라졌습니다. 문제는 소프트웨어 개발이 타이핑이 아니라는 것입니다.

그렇다면 왜 불신하면서도 쓰는가

Stack Overflow 블로그의 2026년 2월 분석("Mind the Gap")은 이 역설의 네 가지 구조적 원인을 제시합니다.

첫째, 결정론적 사고 vs 확률적 도구입니다. 개발자는 동일한 입력에 동일한 출력을 기대하도록 훈련받은 사람들입니다. 같은 프롬프트에 매번 다른 코드를 생성하는 AI는 엔지니어링의 기본 원칙과 근본적으로 충돌합니다. 신뢰의 전제 조건인 예측 가능성이 부재합니다.

둘째, 조직적 압력과 FOMO입니다. 84%가 쓰는 도구를 쓰지 않으면 뒤처진다는 압박이 존재합니다. Stack Overflow CEO Prashanth Chandrasekar는 이렇게 말했습니다.

"도구는 인간의 판단을 보조하는 것이지, 대체하는 것이 아닙니다."

하지만 현실에서는 AI 도구 미사용이 비효율로 인식되는 문화가 빠르게 형성되고 있습니다. 도구에 대한 신뢰와 무관하게, 사용하지 않을 경우의 사회적 비용이 사용할 경우의 기술적 비용보다 크다고 판단하는 것입니다.

셋째, 환각(Hallucination)의 교활함입니다. AI가 존재하지 않는 API를 호출하거나, 폐기된 메서드를 사용하거나, 미묘한 보안 취약점이 포함된 "그럴듯한 코드"를 생성합니다. 검증 부담이 수동 코딩 시간과 맞먹을 수 있지만, "일단 무언가 나온다"는 심리적 편안함이 사용을 지속시킵니다.

넷째, 역량의 비대칭입니다. 효과적인 프롬프팅과 AI 출력물 평가 능력을 갖추지 못한 개발자가 많습니다. 도구의 한계인지 사용자의 미숙인지 구분하기 어려운 상태에서, "다들 쓰니까 나도 쓴다"는 관성이 작동합니다.

AI 에이전트, 기대와 현실의 또 다른 전선

자동 완성 수준의 AI 어시스턴트를 넘어, 자율적으로 코드를 작성하고 수정하는 AI 에이전트 에 대한 데이터도 주목할 만합니다.

주간 이상 정기적으로 AI 에이전트를 사용하는 개발자는 약 23%입니다. 매일 사용자가 14.1%, 매주 사용자가 9.0%입니다. 37.9%는 도입 계획 자체가 없다고 답했습니다. 에이전트 시대가 열렸다는 업계의 낙관론과 달리, 현장의 실제 채택은 아직 초기 단계입니다.

에이전트를 사용하는 개발자들의 인식도 양면적입니다. 69%가 "특정 작업의 시간을 단축한다"고 답했지만, 동시에 87%가 정확도를 우려 하고, 81%가 보안과 프라이버시를 우려합니다. 코드 품질이 향상되었다고 답한 비율은 37.5%에 불과합니다. 에이전트가 빠르기는 하지만, 그 결과물을 신뢰할 수 있는가는 별개의 문제라는 것입니다.

한편, "바이브 코딩(Vibe Coding)"에 대한 데이터는 더 냉정합니다. 실무에서 바이브 코딩을 하지 않는다는 응답이 72.2%, 전문적 워크플로우에서 완전히 제외한다는 응답이 77%였습니다. 적극적으로 한다는 응답은 0.4%에 불과합니다. 소셜미디어에서의 화제성과 실무 현장의 온도 차이가 극명합니다.

주요 도구별 사용률을 보면, ChatGPT가 81.7%로 압도적이고, GitHub Copilot이 67.9%, Google Gemini가 47.4%, Claude Code가 40.8%로 뒤를 잇습니다. Cursor가 $2B ARR을 돌파하며 AI 코딩 IDE 시장을 선도하고 있지만, Stack Overflow 설문 기준 IDE 사용률은 18%입니다. 도구의 매출과 실제 개발자 침투율 사이에도 격차가 존재합니다.

지역과 경험이 만드는 인식의 지형

AI에 대한 태도는 지역에 따라 극적으로 다릅니다. 인도 개발자의 56% 가 AI에 긍정적 감정을 보인 반면, 독일은 22% 로 가장 낮았습니다. 영국(23%)도 독일과 비슷한 수준이고, 미국은 약 40%로 추정됩니다.

이 격차의 배경에는 여러 요인이 있습니다. 인도는 IT 아웃소싱 산업의 중심지로 AI가 경쟁력 강화의 도구로 인식되는 반면, 독일과 영국은 데이터 프라이버시에 대한 규제적 민감도가 높고, 엔지니어링 장인 정신의 전통이 AI 자동화에 대한 경계심으로 이어질 수 있습니다.

개발자들이 AI를 쓰지 않겠다고 선을 그은 영역도 의미심장합니다. 배포 및 모니터링(75.8%), 프로젝트 기획(69.2%), 코드 커밋/리뷰(58.7%)에서 AI 사용 계획이 없다는 응답이 압도적이었습니다. AI의 주요 사용처는 답변 검색(54.1%), 콘텐츠/합성 데이터 생성(35.8%), 새 개념 학습(33.1%), 코드 문서화(30.8%)에 집중됩니다. 개발자들은 AI를 생성 도구 로는 활용하되, 의사결정과 실행 의 영역에는 아직 진입을 허용하지 않고 있습니다.

실무에 미치는 영향, "디버깅 세금"의 현실

이 역설은 추상적인 논의가 아니라 실무의 구체적인 비용으로 나타나고 있습니다.

디버깅 세금입니다. 45.2%가 AI 코드 디버깅이 직접 작성보다 오래 걸린다고 답했습니다. AI가 생성한 코드는 종종 프로젝트의 컨텍스트를 완전히 이해하지 못한 채 "일반적으로 올바른" 패턴을 적용합니다. 이런 코드를 프로덕션 수준으로 끌어올리는 데 드는 시간, 이것이 디버깅 세금입니다.

품질 관리의 복잡성입니다. "거의 맞지만 틀린" 코드는 기존의 코드 리뷰 프로세스로는 잡기 어렵습니다. 리뷰어도 AI가 생성한 자연스러운 코드에서 미묘한 결함을 발견하기 위해 더 많은 집중력을 소모해야 합니다. AI Slopageddon이 오픈소스 메인테이너의 주의력을 고갈시키고 있다면, 동일한 현상이 기업 내부의 코드 리뷰에서도 벌어지고 있습니다.

주니어 성장의 저해입니다. Anthropic 연구가 보여주듯 AI에 코드 생성을 위임하는 방식은 숙련도를 17% 낮춥니다. 주니어 개발자의 커리어 래더가 AI에 의해 중간 단계가 사라지고 있는 상황에서, AI 의존적 학습 패턴은 이 문제를 가속화합니다. 75.3%의 개발자가 "AI 답변을 믿지 못할 때 사람에게 물어볼 것"이라고 답한 것은, AI가 아직 멘토의 역할을 대체하지 못하고 있다는 방증입니다.

AI 도구 채택률 vs 신뢰도 (2023–2025)
Stack Overflow Developer Survey 종합 · 채택 상승 / 신뢰 하락의 가위 패턴
2023
2024
2025
2023
채택률44%
신뢰도42%
2024
채택률76%
신뢰도39%
2025
채택률84%
신뢰도33%

채택률 +40%p 상승 · 신뢰도 -9%p 하락 (2023→2025)

커뮤니티 반응, "의무적 채택"에 대한 분노

Hacker News에서 이 설문 결과는 최소 5개 이상의 독립 스레드에서 논의되었습니다.

가장 뜨거운 논점은 "의무적 채택" 에 대한 비판이었습니다. 한 댓글은 이렇게 요약했습니다.

"GitHub Copilot과 Cline은 Stack Overflow보다 훨씬 덜 거만합니다. 같은 질문을 하루 종일 해도 AI는 기꺼이 도와줍니다."

이 댓글은 역설적이게도, 신뢰의 문제가 아니라 편의의 문제 로 AI가 채택되고 있음을 보여줍니다. 정확하지 않더라도, 친절하고 즉각적인 응답이 Stack Overflow의 엄격한 질의응답 문화보다 매력적이라는 것입니다.

반면, "코드는 전자레인지가 아니다"라는 재반론도 있었습니다. 한 HN 사용자는 "전자레인지도 완전히 이해하지 않고 쓴다"며 AI 불신을 과민 반응으로 치부했지만, 다른 사용자는 "전자레인지가 내 음식을 95% 정확하게 데우되 5%의 확률로 독을 넣는다면, 나는 매번 확인할 것"이라고 반박했습니다.

업계 분석가들의 반응도 비슷한 맥락입니다. ShiftMag은 이렇게 분석했습니다.

"허니문이 끝났습니다. 개발자들은 초기 호기심에서 실용적 일상 사용으로 전환하면서, 도구의 이점과 중대한 한계 모두에 대한 냉철한 이해를 갖게 되었습니다."

Tessl은 "개발자들이 AI를 더 많이 사용하면서 동시에 덜 믿게 되었다"는 역설이 기술 도입의 일반적 곡선과 반대라고 지적했습니다. 보통은 사용이 증가하면 익숙해지면서 신뢰도 올라갑니다. 하지만 AI 코딩 도구에서는 사용이 증가할수록 한계가 더 명확하게 드러나는, 역방향 학습 곡선이 작동하고 있습니다.

최근 GitHub Copilot이 PR에 광고를 삽입한 사건은 이 불신을 더욱 증폭시켰습니다. 기능적 정확성뿐 아니라 도구 제공자의 의도까지 의심해야 하는 상황이 된 것입니다.

전망, "검증 가능한 AI"가 다음 경쟁 축이 된다

이 데이터들이 가리키는 방향은 명확합니다. AI 코딩 도구 시장의 양적 성장기는 끝나가고 있고, 질적 신뢰 구축기가 시작되었습니다.

검증 가능한 AI의 부상입니다. 75.3%의 개발자가 AI를 불신할 때 사람에게 되돌아간다는 것은, 현재 AI 도구가 "생성"에는 뛰어나지만 "검증"에는 실패하고 있다는 의미입니다. 코드 정확도 보장, 출처 투명성, 검증 자동화를 갖춘 도구가 다음 시장의 승자가 될 가능성이 높습니다. 87%의 에이전트 사용자가 정확도를 우려하는 지금, 정확도가 속도를 넘어 핵심 경쟁 축으로 부상하고 있습니다.

AI 리터러시가 개발자 필수 역량이 됩니다. Anthropic 연구가 보여주듯, AI를 "개념 이해 도구"로 쓰는 개발자(65%+ 점수)와 "코드 생성 대행"으로 쓰는 개발자(40% 미만)의 역량 격차는 시간이 갈수록 벌어질 것입니다. 효과적인 프롬프팅, AI 출력물의 비판적 평가, AI와의 협업 방식이 코딩 능력만큼 중요한 역량이 됩니다.

생산성 측정의 재정의가 필요합니다. METR 연구가 드러낸 "체감 20% 빠름, 실제 19% 느림"의 격차는 기업의 AI 도구 ROI 계산에 근본적인 의문을 제기합니다. 자가 보고 기반의 생산성 측정은 신뢰할 수 없습니다. 코드 품질, 버그 발생률, 장기 유지보수 비용을 포함한 총소유비용(TCO) 관점의 평가로 전환해야 합니다.

조직의 AI 거버넌스가 필수화됩니다. 개인이 검증 없이 AI 도구를 사용하는 "Shadow AI"의 위험이 높아지고 있습니다. 81%의 에이전트 사용자가 보안/프라이버시를 우려하는 현실은 기업이 AI 코드 리뷰 프로세스, 책임 구조, 보안 검토 체계를 서둘러 갖춰야 함을 시사합니다.

AI 코딩 도구의 허니문은 분명히 끝났습니다. 하지만 이것이 반드시 나쁜 소식은 아닙니다. 맹목적 낙관에서 벗어나 현실을 직시하는 것, 그것이 더 나은 도구와 더 건강한 개발 문화를 만드는 출발점이 될 수 있습니다. 84%의 채택률은 AI 코딩 도구가 돌아갈 수 없는 강을 건넜음을 보여줍니다. 이제 문제는 "쓸 것인가 말 것인가"가 아니라, "어떻게 현명하게 쓸 것인가" 입니다.