DAU 다음은 DAA, Baidu가 에이전트 지표를 꺼낸 이유

Baidu가 Daily Active Agents를 AI 시대 핵심 지표로 제안했습니다. 토큰 비용이 아니라 결과를 내는 에이전트 수를 보자는 주장입니다.

AI 요약

무슨 일: Baidu가 Create 2026에서 DAA, 즉 Daily Active Agents를 AI 시대 핵심 지표로 제안했습니다.
- Robin Li는 토큰 소비량은 비용과 투입을 재는 값이고, 플랫폼의 건강성은 실제로 일하는 에이전트 수로 봐야 한다고 말했습니다.
제품 맥락: DuMate, Miaoda, Famou Agent 2.0, Baidu AI Cloud, ERNIE 5.1이 하나의 에이전트 스택으로 묶였습니다.
의미: AI 서비스의 성장 지표가 사람의 로그인에서 에이전트의 실행, 결과, 운영 비용으로 이동하고 있습니다.
주의점: DAA는 아직 표준이 아닙니다. 실패한 작업, 중복 실행, 짧은 자동화, 사람 개입 비율을 어떻게 셀지가 핵심입니다.

Baidu가 AI 에이전트 경쟁에서 흥미로운 프레임을 꺼냈습니다. 새 모델 하나, 새 챗봇 하나를 발표한 것이 아니라 AI 시대의 성장 지표 자체를 바꾸자고 말했습니다. 2026년 5월 13일 Baidu Create 2026에서 Robin Li는 Daily Active Agents, 줄여서 DAA를 AI 플랫폼과 생태계의 핵심 지표로 제안했습니다. 모바일 인터넷의 대표 지표가 DAU, 즉 Daily Active Users였다면 에이전트 시대에는 매일 실제로 일하는 에이전트 수를 봐야 한다는 주장입니다.

이 주장이 단순한 말장난으로 끝나지 않는 이유는 Baidu가 동시에 제품군과 인프라를 함께 공개했기 때문입니다. Baidu 공식 발표에 따르면 회사는 범용 에이전트 DuMate, 코딩 에이전트 Miaoda의 앱 및 엔터프라이즈 에디션, 디지털 휴먼 플랫폼 Baidu Yijing, 자기 검증과 폐루프 실행을 강조한 Famou Agent 2.0, 그리고 대규모 에이전트 애플리케이션을 위한 full-stack AI Cloud를 한꺼번에 발표했습니다. DAA는 이 묶음을 설명하기 위한 구호가 아니라, Baidu가 앞으로 어떤 숫자로 자신을 평가받고 싶은지를 보여주는 신호에 가깝습니다.

핵심 문장은 분명합니다. Robin Li는 토큰이 비용이지 가치가 아니며, 입력을 재는 값이지 산출을 재는 값이 아니라고 봤습니다. 현재 AI 산업은 모델 API 사용량, 토큰 소모, 벤치마크 점수, 월간 사용자 수 같은 숫자에 익숙합니다. 하지만 에이전트가 사용자를 대신해 일을 처리하는 구조에서는 사용자가 앱을 열었는지보다, 에이전트가 실제로 몇 개의 작업을 수행했고 어떤 결과를 냈는지가 더 중요해집니다. 그래서 Baidu는 “얼마나 많은 에이전트가 사람을 위해 일하고 결과를 전달하는가”를 플랫폼 번영의 지표로 삼자는 쪽으로 방향을 잡았습니다.

이 관점은 개발자에게도 꽤 실무적입니다. AI 제품을 운영하는 팀은 이미 DAU와 토큰 사용량만으로는 설명되지 않는 상황을 마주하고 있습니다. 사용자는 하루에 한 번만 로그인하지만 백그라운드 에이전트가 이메일을 분류하고, 리포트를 만들고, PR을 열고, 장애 로그를 요약할 수 있습니다. 반대로 토큰은 많이 썼지만 사용자가 승인할 만한 결과를 하나도 내지 못한 에이전트도 있을 수 있습니다. DAA는 이 두 경우를 구분하려는 시도입니다.

Baidu가 말한 DAA는 무엇인가

Baidu의 DAA 정의는 아직 회계 기준처럼 정밀하지 않습니다. 공식 발표에서 확인되는 정의는 “활발하게 일하고 결과를 전달하는 에이전트 수”에 가깝습니다. 중요한 점은 사용자가 아니라 에이전트가 측정 단위가 된다는 데 있습니다. 한 명의 사용자가 여러 에이전트를 둘 수 있고, 한 기업이 수백 또는 수천 개의 에이전트를 운영할 수 있다면 DAA 총량은 인간 사용자 수보다 훨씬 커질 수 있습니다. Robin Li가 장기적으로 글로벌 DAA가 100억을 넘을 수 있다고 말한 배경도 여기에 있습니다.

DAU는 인간의 방문과 체류를 중심으로 만들어진 지표입니다. 광고, 구독, 커머스, 소셜 그래프가 사람의 눈과 손가락을 기준으로 돌아가던 시대에는 합리적인 숫자였습니다. 그러나 에이전트는 사람이 화면을 보지 않는 시간에도 실행됩니다. 예약된 리서치 에이전트는 새벽에 웹을 돌고, 코딩 에이전트는 CI 실패를 읽고, 재무 에이전트는 거래 내역을 분류하고, 보안 에이전트는 권한 변경을 감시합니다. 이때 사람의 로그인 수만 보면 제품의 실제 부하와 가치를 과소평가하게 됩니다.

반대로 토큰 사용량만 보면 정반대의 문제가 생깁니다. 토큰은 매우 좋은 비용 지표입니다. 추론 인프라, 캐시 효율, 컨텍스트 정책, 모델 라우팅을 관리하는 팀에는 필수 숫자입니다. 하지만 토큰은 결과의 품질을 보장하지 않습니다. 같은 업무를 100만 토큰으로 실패한 에이전트와 5만 토큰으로 끝낸 에이전트가 있다면 비용 지표는 전자를 더 크게 표시합니다. 가치 지표는 후자를 더 높게 봐야 합니다. Baidu의 DAA 제안은 바로 이 간극을 찌릅니다.

지표	무엇을 재는가	에이전트 시대의 한계
DAU	하루 동안 제품을 사용한 사람	백그라운드 실행과 대리 작업을 놓치기 쉽습니다.
토큰 사용량	모델 입력과 출력의 비용 규모	실패한 작업도 크게 잡히며 결과 가치를 직접 설명하지 못합니다.
DAA	하루 동안 실제로 일한 에이전트	활성, 성공, 중복, 사람 승인 기준을 표준화해야 합니다.

제품 발표보다 중요한 것은 묶음의 구조

이번 Baidu 발표는 여러 제품 이름이 한꺼번에 등장하기 때문에 표면적으로는 복잡해 보입니다. 그러나 구조는 비교적 명확합니다. DuMate는 일반 사용자의 화면과 파일과 업무 시스템을 다루는 범용 에이전트입니다. Baidu는 DuMate가 화면을 읽고, 소프트웨어를 조작하고, 파일을 처리하고, 비즈니스 시스템을 끝에서 끝까지 연결할 수 있다고 설명했습니다. 사용자가 “검색”, “코딩”, “심층 리서치”, “데이터 분석”, “앱 생성”을 하나의 게이트웨이에서 처리하도록 만드는 방향입니다.

Miaoda는 코딩 에이전트입니다. Baidu는 코딩 지식이 없는 사용자가 앱을 만들 수 있게 하는 제품으로 설명하면서, 새 Miaoda 앱 코드의 90%가 Miaoda 자체로 생성됐다고 밝혔습니다. 이 숫자는 검증 가능한 외부 감사 지표라기보다 제품 메시지에 가깝지만, Baidu가 어느 시장을 노리는지는 분명합니다. 코딩 에이전트를 전문 개발자 생산성 도구로만 두지 않고, 모바일 앱과 엔터프라이즈 에디션으로 확장해 “일회성 소프트웨어” 시장을 만들겠다는 구상입니다.

Famou Agent 2.0은 더 산업적입니다. Baidu는 생산 일정, 프로세스 최적화, 물류 계획을 고가치 사용 사례로 제시했습니다. 특히 한 자동화 항만 사례에서 berth scheduling, 장비 배치, 화물 우선순위 최적화 위에 10.21% 성능 개선을 냈다고 발표했습니다. 이 지점에서 DAA는 단순히 챗봇 몇 개가 켜졌는지를 세는 숫자가 아니라, 운영 시스템 안에서 실제로 의사결정을 수행하는 에이전트의 단위가 됩니다.

디지털 휴먼 플랫폼 Baidu Yijing도 같은 흐름에 놓입니다. Robin Li는 디지털 휴먼을 “볼 수 있는 에이전트”로 설명했습니다. 라이브 커머스와 영상 제작, 실시간 상호작용을 위한 얼굴과 음성, 제스처가 붙으면 에이전트의 출력은 텍스트 응답을 넘어 사람처럼 보이는 인터페이스가 됩니다. 이 경우에도 중요한 것은 모델 호출 횟수가 아니라, 실제로 몇 시간 동안 방송을 운영하고 얼마나 많은 업무를 대체했는지입니다.

ERNIE 5.1은 DAA 주장의 인프라 근거다

DAA가 설득력을 얻으려면 에이전트를 대량으로 굴릴 수 있는 모델과 인프라가 필요합니다. Baidu는 이 역할을 ERNIE 5.1과 Baidu AI Cloud에 맡기고 있습니다. ERNIE 5.1 공식 블로그는 2026년 5월 9일 ERNIE 5.1을 공개하며, ERNIE 5.0의 사전학습 기반을 이어받되 전체 파라미터를 약 3분의 1로, 활성 파라미터를 약 절반으로 줄였다고 설명했습니다. 동급 모델 대비 사전학습 비용은 약 6%라는 주장도 함께 제시했습니다.

이 비용 주장은 DAA와 직접 연결됩니다. 에이전트 수가 사람 수보다 커지는 세계를 상상한다면, 추론 비용과 훈련 효율은 단순한 엔지니어링 최적화가 아니라 사업 모델의 전제 조건이 됩니다. 사용자가 한 명의 챗봇에게 하루 몇 번 묻는 구조와, 한 기업이 수천 개의 에이전트를 상시 운영하는 구조는 비용 곡선이 다릅니다. 후자에서는 모델이 조금 비싸거나 지연 시간이 길어도 전체 운영비가 빠르게 폭발합니다.

ERNIE 5.1 블로그에서 흥미로운 부분은 Baidu가 agentic post-training과 분리형 완전 비동기 강화학습 인프라를 전면에 내세웠다는 점입니다. Baidu는 훈련, 추론, 보상, 에이전트 루프의 제어면을 분리하고, 각 하위 시스템을 독립 배포·확장할 수 있게 만들었다고 설명합니다. 장기 작업을 수행하는 에이전트는 한 번의 답변 생성보다 훨씬 복잡합니다. 환경과 상호작용하고, 도구를 호출하고, 보상을 평가하고, 실패한 경로를 되돌아봐야 합니다. Baidu가 ERNIE 5.1의 기술 설명에서 이 부분을 강조한 것은 DAA 시대의 병목이 모델 크기만이 아니라 훈련 루프와 실행 인프라에 있다는 인식과 맞닿아 있습니다.

ERNIE 5.1 벤치마크 비교 이미지

물론 벤치마크 숫자는 조심해서 읽어야 합니다. Baidu는 ERNIE 5.1이 Arena Search leaderboard에서 1,223점으로 글로벌 4위, 중국 모델 1위를 기록했다고 밝혔습니다. 또한 AIME26 with tools에서 99.6점을 기록해 Gemini 3.1 Pro 다음 수준이라고 설명했습니다. 이런 수치는 모델의 기술적 경쟁력을 보여주는 근거이지만, 실제 DAA가 늘어날지는 별개의 문제입니다. 에이전트의 성공은 모델 점수, 도구 권한, 데이터 접근, 워크플로 통합, 사람 승인 UX, 오류 복구가 모두 맞아야 만들어집니다.

개발팀은 DAA를 그대로 받아들이면 안 된다

DAA는 유용한 질문을 던지지만, 그대로 KPI로 쓰기에는 아직 빈칸이 많습니다. 가장 먼저 정해야 할 것은 “활성 에이전트”의 기준입니다. 하루에 한 번 스케줄러가 깨웠지만 아무 결과도 만들지 못한 에이전트는 DAA에 포함될까요. 사용자가 취소한 작업은 어떻게 볼까요. 하나의 업무를 처리하기 위해 12개의 하위 에이전트가 잠깐씩 실행됐다면 12로 세야 할까요, 1개의 업무 단위로 세야 할까요.

두 번째 문제는 성공 기준입니다. Baidu의 표현처럼 “결과를 전달하는” 에이전트를 세려면 결과의 품질과 완료 여부를 구분해야 합니다. 코딩 에이전트라면 테스트 통과, 리뷰 승인, 배포 여부를 볼 수 있습니다. 고객지원 에이전트라면 해결률, 재문의율, 사람 상담원 전환율을 볼 수 있습니다. 리서치 에이전트라면 출처 신뢰도와 정정률이 필요합니다. 단순 실행 횟수만 DAA로 잡으면 과거의 페이지뷰 부풀리기와 비슷한 문제가 생깁니다.

세 번째 문제는 비용입니다. 토큰이 가치 지표로 부족하다는 Baidu의 비판은 타당하지만, 비용 지표로서 토큰은 여전히 중요합니다. 좋은 DAA는 토큰 지표를 대체하기보다 함께 읽혀야 합니다. 예를 들어 성공한 에이전트 작업당 토큰, 사람 승인 1건당 에이전트 실행 수, 자동 완료 1건당 추론 비용, 실패 복구에 소모된 토큰 비율 같은 파생 지표가 필요합니다. DAA만 올라가고 비용도 같이 폭증한다면 플랫폼은 성장하는 것이 아니라 더 비싼 자동화를 많이 돌리는 것일 수 있습니다.

네 번째 문제는 보안과 권한입니다. 에이전트 수가 늘어나면 권한 객체도 늘어납니다. 각 에이전트는 어떤 API를 호출할 수 있는지, 어느 파일을 읽을 수 있는지, 결제를 승인할 수 있는지, 사람의 확인 없이 외부 메시지를 보낼 수 있는지를 가져야 합니다. 그래서 DAA는 제품 성장 지표이면서 동시에 보안 노출면의 지표가 됩니다. 하루에 활성화된 에이전트가 100개에서 1만 개로 늘었다면, 보안팀은 이를 단순 성장으로만 볼 수 없습니다. 감사 로그, 권한 만료, 비밀 관리, 작업별 격리도 함께 커져야 합니다.

왜 지금 Baidu인가

Baidu는 검색, 광고, 클라우드, 자율주행, AI 모델을 모두 가진 회사입니다. 이런 회사가 DAA를 말한다는 것은 에이전트가 단일 앱 기능이 아니라 플랫폼 전반의 연결 계층이 될 수 있다는 주장입니다. 검색 API와 코딩 에이전트, 업무 시스템 조작, 디지털 휴먼, 물류 최적화가 모두 에이전트라는 이름 아래 묶이면, Baidu 입장에서는 “얼마나 많은 사람이 Baidu 앱을 열었는가”보다 “얼마나 많은 에이전트가 Baidu 스택 위에서 일했는가”가 더 큰 이야기가 됩니다.

중국 AI 기업들의 경쟁 구도도 배경입니다. DeepSeek, Alibaba Qwen, Zhipu, Moonshot, Baidu ERNIE 계열은 모델 성능과 비용을 두고 빠르게 경쟁해 왔습니다. Baidu의 DAA 제안은 이 경쟁을 모델 점수표에서 애플리케이션과 클라우드 운영 지표로 옮기려는 시도입니다. ERNIE 5.1의 비용 효율과 agentic RL 인프라를 전면에 내세운 것도 같은 맥락입니다. 모델만 좋다고 말하는 대신, 많은 에이전트를 싸고 안정적으로 운영할 수 있다는 메시지를 만들고 있습니다.

이는 미국 빅테크의 움직임과도 맞물립니다. Microsoft는 Agent 365와 Copilot 생태계에서 에이전트 관리면을 강조하고, Google은 Workspace와 Gemini를 업무 흐름에 심고, OpenAI와 Anthropic은 코딩·업무 에이전트와 엔터프라이즈 배포 채널을 키우고 있습니다. 모두가 “사용자가 채팅창에 들어와 질문하는” 구조를 넘어, AI가 업무 시스템 안에서 직접 일을 수행하는 쪽으로 이동하고 있습니다. Baidu의 차이는 그 변화를 측정하는 이름을 먼저 던졌다는 데 있습니다.

DAA가 표준이 되려면 필요한 것

DAA가 실제 산업 지표가 되려면 최소한 네 가지가 필요합니다. 첫째, 에이전트 정체성입니다. 같은 사용자가 만든 여러 에이전트, 같은 조직이 복제한 에이전트, 일시적으로 생성된 하위 에이전트를 어떻게 식별할지 정해야 합니다. 둘째, 활성 기준입니다. 단순 실행, 의미 있는 도구 호출, 완료된 작업, 사용자 승인 결과 중 무엇을 활성으로 볼지 필요합니다.

셋째, 성공과 실패의 분리입니다. DAA가 많다는 것만으로 플랫폼이 건강하다고 볼 수 없습니다. 실패한 에이전트가 재시도를 반복해 DAA를 부풀릴 수 있기 때문입니다. 넷째, 비용과 위험 보정입니다. 같은 1DAA라도 읽기 전용 요약 에이전트와 결제·배포·계정 변경 권한을 가진 에이전트의 위험은 다릅니다. 좋은 지표라면 에이전트의 권한 수준과 업무 중요도도 함께 봐야 합니다.

그래서 실무 팀이 바로 가져갈 수 있는 형태는 단일 DAA보다 분해된 운영 대시보드입니다. 활성 에이전트 수, 성공 작업 수, 사람 승인 대기 수, 자동 완료율, 작업당 비용, 권한 높은 에이전트 비율, 실패 후 복구율을 함께 봐야 합니다. Baidu가 던진 이름은 DAA지만, 실제 운영에서는 DAA가 여러 보조 지표를 끌고 들어오는 출발점이 됩니다.

결론: 에이전트 시대의 숫자는 아직 정해지지 않았다

Baidu의 DAA 제안은 완성된 표준이라기보다 방향을 잘 포착한 문제 제기입니다. AI 제품의 가치는 점점 더 “사람이 얼마나 오래 머물렀는가”가 아니라 “AI가 사람 대신 어떤 일을 끝냈는가”로 이동하고 있습니다. 이 변화가 현실이 되면 DAU, MAU, 토큰 사용량, API 호출량만으로는 제품의 성장을 설명하기 어렵습니다.

다만 DAA가 새 허영 지표가 되지 않으려면 세는 방법이 중요합니다. 에이전트가 실제 결과를 냈는지, 사용자가 승인했는지, 비용은 얼마나 들었는지, 권한과 위험은 어느 수준이었는지까지 함께 봐야 합니다. Baidu가 이번에 꺼낸 숫자는 그래서 흥미롭습니다. 정답이라서가 아니라, AI 플랫폼이 이제 어떤 질문을 받아야 하는지 보여주기 때문입니다.

개발자와 AI 제품팀에게 더 중요한 결론은 따로 있습니다. 앞으로 에이전트를 만든다는 것은 모델을 붙이는 일이 아니라, 측정 가능한 업무 단위를 설계하는 일에 가까워집니다. 에이전트가 하루에 몇 개 켜졌는지가 아니라, 어떤 권한으로 어떤 비용을 쓰고 어떤 결과를 남겼는지가 제품의 진짜 운영 언어가 됩니다. Baidu의 DAA는 그 언어가 아직 만들어지는 중이라는 신호입니다.