Devlery
Blog/AI

Intercom이 GPT-5.4와 Claude를 이기는 AI를 직접 만들었다, 버티컬 모델의 시대

Intercom이 60명의 AI 팀으로 개발한 Fin Apex 1.0이 고객 서비스 해결률에서 GPT-5.4(71.1%)와 Claude Opus 4.5(71.1%)를 73.1%로 능가했습니다. ARR $100M, 주 200만 건 해결. 버티컬 AI 모델 시대가 열렸습니다.

고객 서비스 플랫폼 Intercom이 자체 AI 모델을 만들었습니다. 이름은 Fin Apex 1.0. 고객 문의를 인간 개입 없이 완전히 해결하는 비율(resolution rate)에서 GPT-5.4를 73.1% 대 71.1%로 능가 합니다. Claude Opus 4.5도 같은 71.1%에 머물렀습니다. 2% 포인트가 작아 보일 수 있지만, 이것은 프론티어 모델 세대 간 격차보다 큰 차이입니다. 더 빠르고(3.7초 vs GPT-5.4의 4.3초), 환각은 65% 적고, 비용은 12.5% 낮습니다.

60명의 AI 팀이 만든 도메인 특화 모델이, 수천 명의 연구자가 수십억 달러를 투입해 만든 범용 프론티어 모델을 자기 영역에서 이겼습니다. 이것이 버티컬 AI 모델 시대 의 시작을 알리는 이유를 살펴보겠습니다.

숫자가 말하는 것

Fin Apex 1.0의 벤치마크를 프론티어 모델과 비교하면 패턴이 명확합니다.

고객 서비스 벤치마크: Fin Apex vs 프론티어 모델

모델해결률TTFT환각
Fin Apex 1.073.1%3.7s기준
GPT-5.471.1%4.3s
Claude Opus 4.571.1%5.4s
Claude Sonnet 4.669.6%4.6sApex 대비 +65%

해결률: 인간 개입 없이 완전히 해결된 고객 문의 비율. TTFT: Time to First Token.

해결률 73.1%는 단순히 "조금 더 높은 숫자"가 아닙니다. 주 200만 건의 고객 이슈를 처리하는 Intercom 규모에서, 2% 포인트의 해결률 차이는 주당 약 40,000건의 추가 자동 해결 을 의미합니다. 에이전트 1명이 하루 40건을 처리한다고 가정하면, 약 200명의 인간 에이전트에 해당하는 작업량입니다.

속도도 무시할 수 없습니다. 첫 토큰까지의 시간(TTFT)이 3.7초로, Claude Opus 4.5의 5.4초보다 1.7초 빠릅니다. 고객 서비스에서 1.7초는 사용자가 "AI가 응답 중"이라는 인내심을 유지하는 것과 "느리다"고 판단하는 것의 차이입니다.

환각 감소는 가장 인상적인 수치입니다. Claude Sonnet 4.6 대비 65% 적은 환각 을 보였습니다. 고객 서비스에서 환각은 단순한 오류가 아니라 잘못된 정보 제공, 존재하지 않는 정책 인용, 거짓 약속이라는 비즈니스 리스크입니다.

60명이 OpenAI와 Anthropic을 이긴 방법

Apex 1.0을 만든 것은 Fergal Reid가 이끄는 60명의 AI Group입니다. OpenAI의 수천 명, Anthropic의 1,000명 이상과 비교하면 극히 소규모입니다. 이들이 어떻게 프론티어 모델을 이겼는지가 이 이야기의 핵심입니다.

Intercom은 오픈 웨이트 기반 모델을 사용했다고 밝히면서도, 어떤 모델인지는 공개하지 않았습니다. Llama일 수도 있고, Mistral일 수도 있습니다. 중요한 것은 기반 모델이 아니라 그 위에 쌓은 도메인 특화 후훈련(post-training)입니다.

Intercom에는 다른 AI 기업이 가지지 못한 것이 있습니다. 수십억 건의 실제 고객 서비스 상호작용 데이터 입니다. 고객이 어떤 질문을 하는지, 에이전트가 어떻게 응답하는지, 어떤 답변이 문제를 해결했고 어떤 답변이 실패했는지 — 이 모든 데이터가 구조화되어 있습니다.

GPT-5.4는 인터넷 전체의 지식을 알고 있지만, "반품 정책이 14일인지 30일인지 어떻게 확인하고 고객에게 정확히 전달하는가"의 미묘한 패턴은 학습하지 못합니다. Apex는 이 패턴만 집중적으로 학습했습니다. 범용 모델의 "넓은 지식"보다 도메인 특화 모델의 "깊은 패턴 인식"이 특정 작업에서 더 효과적이라는 것을 증명한 것입니다.

CEO Eoghan McCabe는 이를 "지능의 종 분화(speciation in intelligences)" 라고 표현합니다. 범용 지능이 아닌, 특정 도메인에 최적화된 전문 지능이 등장하는 것입니다.

$100M ARR, 검증된 사업 모델

Apex의 의미를 이해하려면 Fin의 비즈니스 규모를 봐야 합니다.

Fin은 출시 이후 ARR(연간 반복 매출) $100M에 접근 하고 있으며, 3.5배 성장률을 기록하고 있습니다. Intercom 전체 $400M ARR에서 가장 빠르게 성장하는 세그먼트입니다. 가격 모델은 $0.99/해결된 이슈 — 결과 기반 과금입니다.

이 가격 모델의 의미를 생각해 보겠습니다. 해결되지 않은 이슈에는 비용이 발생하지 않습니다. 고객은 "AI가 성공적으로 처리한 만큼만" 지불합니다. 해결률이 73.1%이므로, 100건의 이슈 중 약 73건만 과금됩니다. 인간 에이전트의 시간당 비용과 비교하면, 이 가격은 압도적으로 저렴합니다.

주 200만 건 해결이라는 규모도 주목해야 합니다. 이것은 이론적 성능이 아니라 프로덕션에서 실제로 동작하는 숫자 입니다. 영어 기반 채팅과 이메일의 거의 100%가 Apex 위에서 운영되고 있습니다.

"풀 스택 AI 회사가 되거나, 도태되거나"

McCabe의 선언이 논쟁적인 이유는 그 범위 때문입니다.

"높은 TAM($2,500억~$1조) 카테고리의 승자는 풀 스택 AI 회사가 되어야 하고, 될 것입니다."

이것은 "범용 AI 모델을 API로 호출하는 것만으로는 카테고리 리더가 될 수 없다"는 주장입니다. Cursor가 코딩 에이전트 분야에서 자체 모델을 개발하기 시작한 것을 같은 트렌드의 예시로 인용하며, Intercom은 경쟁사보다 "최소 1년의 선발 우위" 를 가지고 있다고 주장합니다.

버티컬 AI 모델 접근법
  • 도메인 데이터로 후훈련된 전문 모델
  • 특정 작업에서 프론티어 모델 능가
  • 데이터 플라이휠: 사용할수록 개선
  • 예: Intercom Apex, Cursor 모델
  • 필요: 대규모 도메인 데이터 + AI 팀
범용 모델 API 접근법
  • GPT/Claude API 위에 프롬프트 엔지니어링
  • 빠른 시장 진입, 낮은 초기 비용
  • 모델 제공자의 업그레이드에 의존
  • 예: 대부분의 AI SaaS 제품
  • 리스크: 모델 변경 시 프롬프트 전체 재작업

이 주장에는 근거가 있습니다. Zendesk, Freshdesk, ServiceNow 같은 경쟁사 대부분은 GPT나 Claude를 API로 호출하여 AI 기능을 구축합니다. 이 접근법은 빠르게 시장에 진입할 수 있지만, 차별화가 어렵습니다. 모든 경쟁자가 같은 모델을 사용하면, AI 기능은 commodity가 됩니다. 반면 Intercom은 자체 모델을 보유함으로써, 경쟁자가 API 호출로는 달성할 수 없는 성능 우위를 확보했습니다.

주의해야 할 것들

이 이야기에는 중요한 단서가 있습니다.

첫째, 벤치마크는 Intercom의 자체 평가입니다. 독립적 제3자 검증은 없습니다. 73.1%의 해결률이 어떤 데이터셋에서, 어떤 조건에서 측정되었는지에 대한 세부 방법론이 공개되지 않았습니다. 아키텍처 세부 사항도, 어떤 오픈 웨이트 모델을 기반으로 했는지도 비공개입니다.

둘째, "해결률"의 정의가 핵심입니다. 고객이 더 이상 메시지를 보내지 않으면 "해결"로 간주하는지, 고객이 명시적으로 "해결됨"을 확인해야 하는지에 따라 수치가 크게 달라질 수 있습니다. 고객이 포기하고 전화를 거는 경우도 "해결"로 카운트될 가능성을 배제할 수 없습니다.

셋째, "Apex가 GPT-5.4를 이겼다"는 표현은 정확하지만 맥락이 필요합니다. Apex는 고객 서비스라는 특정 도메인에서만 이겼습니다. 코딩, 추론, 창작, 분석 등 범용 능력에서는 비교 대상이 아닙니다. 이것은 한계가 아니라 버티컬 모델의 본질입니다 — 특정 도메인에서 최적화되는 대신, 범용성을 포기합니다.

커뮤니티 반응, "데이터가 새로운 해자다"

개발자 커뮤니티의 반응은 크게 세 갈래입니다.

"데이터 플라이휠"에 주목하는 반응 이 가장 강합니다. Intercom이 주 200만 건의 해결 데이터를 축적하면서, 이 데이터로 모델을 지속적으로 개선하는 선순환 구조를 구축했다는 점입니다. 이것은 후발 주자가 따라잡기 어려운 구조적 우위입니다. 경쟁사가 같은 오픈 웨이트 모델을 가져와도, Intercom의 수십억 건의 상호작용 데이터는 복제할 수 없기 때문입니다.

"범용 모델의 개선이 격차를 좁힐 것"이라는 반론 도 있습니다. GPT-6나 Claude 5가 나오면 고객 서비스에서도 Apex를 따라잡거나 앞서지 않겠느냐는 것입니다. 하지만 현재까지의 패턴은 이를 지지하지 않습니다. 범용 모델이 세대마다 전반적으로 개선되어도, 도메인 특화 후훈련의 우위는 유지되는 경향이 있습니다. Intercom도 범용 모델이 업그레이드될 때 같은 모델을 기반으로 새 Apex를 훈련할 수 있기 때문입니다.

"모든 기업이 자체 모델을 만들어야 하는가"에 대한 실용적 논의 도 활발합니다. McCabe의 "풀 스택 AI 회사" 테제에 대해, 대부분의 스타트업은 60명 AI 팀과 수십억 건의 데이터를 가지고 있지 않다는 현실적 반론이 있습니다. 버티컬 모델은 Intercom, Cursor 같은 대규모 데이터를 보유한 카테고리 리더에게만 가능한 전략이라는 것입니다.

전망, AI 산업의 "지능 분화"가 시작되었다

Fin Apex 1.0이 시사하는 가장 큰 변화는, AI 산업이 "하나의 모델이 모든 것을 한다"에서 "각 도메인에 최적화된 모델 생태계" 로 이동하고 있다는 것입니다.

2024-2025년의 AI 산업은 GPT, Claude, Gemini 같은 범용 프론티어 모델이 모든 용도를 커버하는 구조였습니다. 기업들은 이 모델을 API로 호출하고, 프롬프트 엔지니어링으로 맞춤화했습니다. Apex는 이 구조의 한계를 보여줍니다. 범용 모델은 "모든 것을 잘" 하지만, "특정 것을 최고로" 하지는 못합니다.

단기적으로 예상되는 변화는, 각 산업 카테고리의 리더가 자체 버티컬 모델 개발에 투자하는 것입니다. 고객 서비스(Intercom), 코딩(Cursor), 법률(Harvey), 의료 진단 등 각 분야에서 도메인 데이터를 가진 기업이 오픈 웨이트 모델을 기반으로 전문 모델을 훈련하는 패턴이 확산될 것입니다.

장기적으로 이것은 AI 산업의 가치 사슬을 재편합니다. OpenAI와 Anthropic이 제공하는 범용 모델은 "베이스 레이어"가 되고, 실제 비즈니스 가치는 그 위에 쌓이는 도메인 특화 레이어 에서 창출됩니다. McCabe의 "지능의 종 분화"라는 표현이 적절한 이유입니다. 하나의 범용 지능이 아니라, 각 환경에 적응한 전문 지능들이 공존하는 생태계가 형성되고 있습니다.

Fin Apex 1.0은 이 생태계의 첫 번째 성공적 사례입니다. $100M ARR과 주 200만 건의 프로덕션 검증을 가진, "이론이 아닌 실증"입니다.