Devlery
Blog/AI

Honeycomb Agent Timeline, 에이전트 장애의 블랙박스

Honeycomb Agent Observability는 에이전트 실행을 모델 호출이 아니라 추적 가능한 운영 타임라인으로 다루려는 신호입니다.

Honeycomb Agent Timeline, 에이전트 장애의 블랙박스
AI 요약
  • 무슨 일: Honeycomb이 Agent Timeline, Canvas Agent, Skills, MCP를 묶은 Agent Observability 기능을 공개했습니다.
    • 공식 발표일은 2026년 5월 12일이며, AWS Bedrock AgentCore 연동과 OpenTelemetry 기반 계측도 함께 강조했습니다.
  • 의미: AI 에이전트 운영의 초점이 "좋은 응답"에서 "실패 경로를 재현할 수 있는 증거"로 이동합니다.
  • 실무 영향: 도구 호출, 모델 호출, 검색, 비용, 재시도, 승인 흐름을 하나의 타임라인으로 묶는 관측성 계층이 중요해집니다.
    • 다만 OpenTelemetry GenAI 시맨틱 컨벤션은 아직 Development 상태라 계측 계약의 안정성은 계속 확인해야 합니다.

Honeycomb이 2026년 5월 12일 공개한 Agent Observability 발표는 겉으로 보면 관측성 제품의 기능 업데이트입니다. 하지만 이 발표가 흥미로운 이유는 기능 이름보다 문제 설정에 있습니다. Honeycomb은 AI 에이전트를 단순한 LLM 호출의 묶음으로 보지 않습니다. 모델 호출, 도구 호출, 검색, 외부 API 실행, 사람 승인, 재시도, 실패 복구가 이어지는 운영 워크플로로 봅니다. 그래서 핵심 기능의 이름도 대시보드나 리포트가 아니라 Agent Timeline입니다.

이 차이는 작지 않습니다. 챗봇이 틀린 답을 했을 때는 프롬프트와 응답을 다시 보면 어느 정도 원인을 추정할 수 있습니다. 그러나 에이전트가 실제 시스템을 만지기 시작하면 이야기가 달라집니다. 고객 지원 티켓을 수정하고, 클라우드 리소스를 조회하고, 배포 파이프라인을 건드리고, 데이터베이스에서 행을 읽고, incident 조사 중에 여러 도구를 부르는 흐름에서는 "마지막 답변이 틀렸다"보다 "어느 단계의 판단이 잘못됐는가"가 중요합니다. 이때 필요한 것은 모델 점수표가 아니라 실행 경로의 블랙박스입니다.

Honeycomb의 발표는 바로 그 지점에 꽂혀 있습니다. 회사는 공식 블로그에서 Agent Timeline, Canvas Agent, Skills, MCP, AWS Bedrock AgentCore integration을 함께 소개했습니다. 제품 페이지는 Agent Timeline을 "agent workflows and operations"에 대한 visibility로 설명합니다. Honeycomb MCP 문서는 AI agent가 Honeycomb의 traces, triggers, SLOs를 조회하고, 단일 trace와 raw data rows를 가져오며, 자연어로 성능 이상이나 계측 개선을 조사할 수 있다고 말합니다. 이 모든 조각을 합치면 메시지는 분명합니다. AI 에이전트가 운영 환경으로 들어가려면, 에이전트 자신도 운영 대상이 되어야 합니다.

Honeycomb Agent Timeline 제품 화면

에이전트 관측성은 왜 따로 필요한가

기존 observability는 이미 강력합니다. 요청이 어느 서비스에서 느려졌는지, 어떤 배포 이후 에러율이 올랐는지, 특정 고객군에서 latency가 튀는지, trace와 metric과 log를 통해 추적할 수 있습니다. 그런데 AI 에이전트는 이 위에 또 하나의 결정을 얹습니다. 같은 HTTP 500이라도, 사람이 작성한 코드의 버그인지, 에이전트가 잘못된 도구를 골랐는지, 모델이 낡은 컨텍스트를 믿었는지, 검색 단계에서 누락된 문서가 있었는지, 권한 정책 때문에 fallback이 일어났는지에 따라 포스트모템의 결론이 달라집니다.

LLM 앱 초기에 많은 팀은 프롬프트 로그와 응답 로그만 남겨도 충분하다고 느꼈습니다. 하지만 에이전트는 더 복잡한 실패 모드를 만듭니다. 예를 들어 incident 조사 에이전트가 "최근 배포가 원인"이라고 결론 내렸다고 해보겠습니다. 그 결론을 믿으려면 다음 질문에 답할 수 있어야 합니다. 에이전트가 어떤 time window를 조회했습니까. 어느 서비스의 trace를 봤습니까. 어떤 query를 만들었고, 어떤 raw row를 근거로 삼았습니까. 모델은 몇 번 호출됐고, 어느 호출에서 도구 호출을 선택했습니까. 재시도는 있었습니까. 사람 승인이나 정책 차단은 있었습니까. 최종 결론이 틀렸다면 어느 단계부터 잘못됐습니까.

이 질문들은 단순한 LLM 비용 모니터링이나 토큰 집계로는 답하기 어렵습니다. 반대로 전통적인 trace만으로도 부족합니다. trace는 시스템 실행 경로를 보여주지만, 에이전트의 reasoning step, tool selection, prompt context, model response, user conversation 같은 의미 단위는 일반 서비스 호출과 다른 구조를 갖습니다. 그래서 에이전트 관측성은 LLMOps와 APM 사이의 접점이 됩니다. Honeycomb이 타임라인을 전면에 세운 이유도 여기에 있습니다. 에이전트 실행은 결국 시간 순서가 있는 운영 사건입니다.

Honeycomb이 묶은 네 가지 조각

이번 발표에서 눈에 띄는 조각은 네 가지입니다. 첫째는 Agent Timeline입니다. 제품 페이지의 설명처럼 에이전트 워크플로와 operation visibility를 제공하는 계층입니다. 개발자에게 중요한 점은 "어떤 모델을 썼는가"보다 "에이전트가 어떤 순서로 무엇을 했는가"를 보는 방식입니다. 모델 호출, 도구 호출, 오류, 지연 시간, 비용, 외부 시스템 호출이 한 작업 안에서 연결되어야 포스트모템이 가능합니다.

둘째는 Canvas Agent입니다. Honeycomb은 관측성 데이터를 사람이 탐색하는 작업 자체를 에이전트와 연결하려 합니다. 여기서 중요한 것은 에이전트가 대시보드를 대신 그려준다는 표현보다, 에이전트가 운영 데이터에 접근할 때 어떤 권한과 근거를 남기느냐입니다. 관측성 제품 안의 에이전트는 데이터가 풍부한 대신 위험도 큽니다. 잘못된 query나 과한 권한은 incident 대응을 오히려 흐릴 수 있습니다.

셋째는 Skills입니다. 최근 코딩 에이전트와 업무 에이전트 경쟁에서 반복 가능한 절차를 skill로 묶는 흐름이 커지고 있습니다. Honeycomb이 Skills를 말하는 것도 비슷한 방향입니다. 관측성 작업은 매번 완전히 새롭지 않습니다. "최근 배포 이후 특정 엔드포인트 지연이 올랐는지 확인", "상위 cardinality 속성 찾기", "특정 고객군의 오류 trace 확인", "SLO burn rate와 관련 이벤트 비교" 같은 반복 가능한 조사 패턴이 있습니다. 에이전트에게 이런 패턴을 skill로 주면 속도는 빨라질 수 있지만, 동시에 skill 실행 흔적과 결과 검증이 중요해집니다.

넷째는 MCP입니다. Honeycomb MCP 문서는 AI agents가 Honeycomb observability data와 metadata에 접근해 traces, metrics, logs를 query하고, BubbleUp으로 이상 행동을 조사하고, triggers와 SLO 상태를 확인할 수 있다고 설명합니다. 또한 public API wrapper 이상으로, single traces와 raw data rows를 가져오는 agent-oriented tools를 제공한다고 말합니다. 이는 에이전트 관측성이 단순히 "에이전트를 보는 도구"에 그치지 않고, "에이전트가 관측성 시스템을 쓰는 경로"까지 포함한다는 뜻입니다.

관측 대상기존 서비스 관측성에이전트 관측성
핵심 단위요청, span, 서비스, 배포agent invocation, workflow, tool execution, conversation
실패 질문어느 서비스가 느리거나 실패했는가에이전트가 왜 이 도구와 근거를 선택했는가
표준화 신호OpenTelemetry trace, metric, logOpenTelemetry GenAI agent spans와 MCP conventions
민감한 데이터사용자 ID, 요청 속성, 로그 본문프롬프트, system instruction, tool arguments, 출력 메시지

OpenTelemetry가 중요한 이유

Honeycomb 발표에서 OpenTelemetry가 반복해서 등장하는 점도 중요합니다. 관측성 시장에서 "에이전트용 대시보드"는 제품마다 만들 수 있습니다. 그러나 실제 운영팀이 원하는 것은 특정 벤더 SDK에 갇히지 않는 telemetry 계약입니다. AI 에이전트가 여러 모델, 여러 프레임워크, 여러 클라우드 런타임, 여러 도구 서버를 오가면 계측 표준이 없을 때 데이터는 금방 찢어집니다.

OpenTelemetry의 GenAI 시맨틱 컨벤션은 이 문제를 겨냥합니다. 1.41.0 문서 기준 GenAI conventions는 아직 Development 상태이지만, 범위는 꽤 구체적입니다. model spans, agent spans, workflow spans, tool execution, GenAI events, exceptions, metrics, MCP, Anthropic, AWS Bedrock, OpenAI 같은 항목이 나뉘어 있습니다. Agent spans 문서는 create_agent, invoke_agent, invoke_workflow, execute_tool 같은 operation name을 정의합니다. 또한 gen_ai.agent.name, gen_ai.conversation.id, gen_ai.tool.definitions, gen_ai.input.messages, gen_ai.output.messages, gen_ai.system_instructions 같은 속성도 다룹니다.

다만 여기서 주의할 부분도 있습니다. 문서는 기존 1.36.0 이하 GenAI instrumentation이 기본 emitted convention을 바꾸지 말고, 필요하면 OTEL_SEMCONV_STABILITY_OPT_IN=gen_ai_latest_experimental 같은 opt-in을 쓰라고 안내합니다. 이 문구는 표준이 아직 움직이고 있음을 뜻합니다. 즉, 오늘 에이전트 관측성을 도입하는 팀은 "OpenTelemetry 기반"이라는 문구만 보고 안심하기보다, 어떤 버전의 시맨틱 컨벤션을 쓰는지, 업그레이드 때 속성명이 바뀌는지, 기존 trace와 호환되는지 확인해야 합니다.

이 점에서 Honeycomb의 선택은 흥미롭습니다. Honeycomb은 원래 high-cardinality event와 trace 탐색에 강점을 둔 회사입니다. 에이전트 실행은 high-cardinality 데이터가 많이 나옵니다. agent name, conversation id, tool name, model, provider, retry count, customer segment, workflow id, prompt template version, policy result 같은 속성이 모두 분석 축이 될 수 있습니다. 기존 모니터링 제품이 낮은 cardinality metric 중심으로 설계됐을 때 불편했던 영역이, 에이전트 시대에는 더 커집니다.

AWS Bedrock AgentCore와 MCP가 만드는 운영 경로

Honeycomb 사이트의 Innovation Week 관련 카드에는 Amazon Bedrock AgentCore와의 production integration도 언급됩니다. 설명은 agent telemetry를 Agent Timeline에 노출하고, OpenTelemetry 기반이라고 되어 있습니다. 이 대목은 단순한 파트너십 문구 이상으로 볼 필요가 있습니다. 클라우드 에이전트 런타임은 에이전트 실행을 managed service로 끌어가려 하고, 관측성 제품은 그 실행 흔적을 표준 trace로 받아 운영 화면에 놓으려 합니다.

개발팀 입장에서는 이 구조가 익숙하면서도 낯섭니다. Kubernetes와 serverless가 확산될 때도 비슷한 일이 있었습니다. 런타임은 추상화되고, 운영팀은 추상화 아래에서 실제로 무슨 일이 일어났는지 보고 싶어 했습니다. 에이전트 런타임도 마찬가지입니다. Bedrock AgentCore, Vertex AI Agent Engine, Azure AI Foundry Agent Service, OpenAI나 Anthropic의 agent platform, 자체 LangGraph/LlamaIndex 기반 런타임이 섞이면, 팀은 특정 플랫폼 콘솔만으로 전체 실행 경로를 보기 어렵습니다.

MCP는 또 다른 방향에서 같은 문제를 만집니다. Honeycomb MCP는 에이전트가 관측성 데이터를 직접 조회하는 경로입니다. 이는 강력하지만 위험합니다. 에이전트가 incident 중에 trace를 가져오고, raw row를 보고, SLO 상태를 확인하고, instrumentation 개선을 제안할 수 있다면 운영 속도는 빨라질 수 있습니다. 반대로 잘못된 query를 만들거나, 민감한 로그 본문을 과도하게 끌어오거나, 근거 없는 결론을 보드에 남기면 혼란도 커집니다. 그래서 에이전트가 관측성 데이터를 쓰는 순간, 그 에이전트의 행동 자체도 관측되어야 합니다.

이 순환 구조가 이번 발표의 핵심입니다. 에이전트가 시스템을 관측합니다. 관측성 시스템은 에이전트를 관측합니다. 운영팀은 두 타임라인을 함께 봐야 합니다. 어느 서비스가 느려졌는지와, 에이전트가 그 지연을 어떻게 해석했는지가 한 화면에서 연결되어야 합니다.

개발팀에게 생기는 새 체크리스트

실무적으로는 몇 가지 질문을 지금부터 정리해야 합니다. 첫째, 에이전트 실행의 trace boundary를 어디로 잡을지입니다. 사용자 요청 하나가 agent invocation 하나인지, 여러 sub-agent나 workflow step을 하나의 trace에 묶을지, tool execution을 child span으로 둘지 정해야 합니다. 이 설계를 대충 넘기면 나중에 timeline은 길지만 원인 분석에는 쓸 수 없는 데이터가 됩니다.

둘째, 프롬프트와 메시지 본문을 어디까지 남길지입니다. OpenTelemetry GenAI 문서는 gen_ai.input.messages, gen_ai.output.messages, gen_ai.system_instructions, gen_ai.tool.definitions 같은 속성을 opt-in으로 다룹니다. 이유는 분명합니다. 이 데이터는 디버깅에는 매우 유용하지만 개인정보, 영업 비밀, 보안 정책, 고객 데이터가 섞일 수 있습니다. "관측 가능해야 한다"와 "모든 내용을 저장해야 한다"는 같은 말이 아닙니다. redaction, sampling, retention, access control이 함께 설계되어야 합니다.

셋째, 비용과 품질 지표를 trace와 연결해야 합니다. 에이전트 장애는 항상 에러로 나타나지 않습니다. 성공했지만 너무 오래 걸렸거나, 토큰을 과도하게 썼거나, 같은 도구를 반복 호출했거나, 잘못된 근거로 맞는 결론을 냈을 수도 있습니다. 이런 문제는 단순 status code로 잡히지 않습니다. gen_ai.usage.input_tokens, gen_ai.usage.output_tokens, model, provider, finish reason, retry pattern 같은 데이터를 workflow context와 함께 봐야 합니다.

넷째, 사람 승인과 정책 결정을 기록해야 합니다. 많은 에이전트 시스템은 위험한 액션 앞에서 human-in-the-loop나 policy gate를 둡니다. 그런데 승인 이벤트가 trace 밖에 있으면 포스트모템은 반쪽짜리가 됩니다. 누가 승인했는지, 어떤 근거가 보였는지, 에이전트가 어떤 대안을 제시했는지, 정책 엔진이 어떤 이유로 막았는지까지 남아야 운영 감사가 가능합니다.

경쟁은 LLMOps와 APM의 경계에서 벌어진다

Honeycomb의 움직임은 혼자 나온 것이 아닙니다. LangSmith, Arize Phoenix, Datadog LLM Observability, New Relic AI Monitoring 같은 도구들은 이미 LLM 앱과 agent trace를 각자의 방식으로 다루고 있습니다. 차이는 출발점입니다. LLMOps 도구는 prompt, evaluation, dataset, model behavior에서 출발하는 경우가 많습니다. APM/observability 회사들은 production trace, incident response, SLO, service ownership에서 출발합니다. 에이전트가 운영 시스템을 만질수록 두 시장은 겹칩니다.

Honeycomb은 이 겹치는 영역에서 "production observability layer"라는 포지션을 잡으려 합니다. 이는 개발자에게 현실적인 메시지입니다. 에이전트 품질은 오프라인 평가만으로 끝나지 않습니다. 실제 사용자의 요청, 실제 도구의 지연, 실제 권한 정책, 실제 장애 상황에서 에이전트가 어떻게 행동하는지 봐야 합니다. 반대로 관측성 제품도 더 이상 사람이 query를 작성하고 그래프를 보는 화면에 머물기 어렵습니다. 운영 데이터 자체가 에이전트의 입력이 되기 때문입니다.

다만 경쟁 구도는 아직 정리되지 않았습니다. 표준은 Development 상태이고, 각 벤더는 agent trace의 화면, 데이터 모델, 프롬프트 저장 정책, evaluation 연결 방식, MCP 지원 범위를 다르게 설계하고 있습니다. 지금 팀이 특정 도구를 고른다면, 기능 목록보다 데이터 이동성을 봐야 합니다. OpenTelemetry export가 가능한지, raw trace를 가져갈 수 있는지, prompt와 tool argument를 redaction할 수 있는지, 비용 데이터와 service trace를 연결할 수 있는지, self-hosted나 private environment 요구사항을 맞출 수 있는지가 더 중요합니다.

아직 확인해야 할 위험

이번 발표를 긍정적으로만 읽기는 어렵습니다. 에이전트 관측성은 필요한 영역이지만, 잘못 구현하면 또 하나의 민감 데이터 저장소가 됩니다. 프롬프트에는 고객 정보가 들어갈 수 있고, tool arguments에는 내부 시스템 ID나 query가 들어갈 수 있으며, output messages에는 모델이 생성한 부정확한 정보가 남을 수 있습니다. 운영팀은 이 데이터를 오래 보관하고 싶어 하지만, 보안팀과 법무팀은 최소화와 삭제 가능성을 원할 수 있습니다.

또 하나의 위험은 관측성 과신입니다. 타임라인이 있다고 해서 에이전트의 의도를 완전히 이해할 수 있는 것은 아닙니다. trace는 어떤 호출이 있었는지 보여줄 수 있지만, 모델 내부의 판단 과정을 그대로 설명하지는 않습니다. 따라서 Agent Timeline 같은 도구는 "진실의 완전한 재현"이라기보다 "운영 가능한 증거 묶음"에 가깝습니다. 이 차이를 놓치면, 팀은 화면에 나온 reasoning-looking artifact를 실제 원인으로 착각할 수 있습니다.

마지막으로 표준화 속도입니다. OpenTelemetry GenAI conventions가 안정화되기 전에는 계측 라이브러리와 벤더 구현이 빠르게 바뀔 수 있습니다. 특히 MCP, agent spans, workflow spans, provider-specific attributes는 에이전트 플랫폼의 변화와 함께 계속 움직일 가능성이 큽니다. 지금 필요한 것은 완벽한 표준을 기다리는 태도가 아니라, 변경 가능한 계측 레이어를 설계하는 태도입니다. 이벤트 이름과 속성명을 코드 곳곳에 흩뿌리지 않고, instrumentation wrapper와 schema mapping을 분리해야 합니다.

에이전트 시대의 포스트모템

Honeycomb Agent Observability 발표의 핵심은 "AI 에이전트를 더 잘 보자" 정도로 요약하면 약합니다. 더 정확히는, 에이전트가 운영 환경에서 사고를 만들 수 있는 주체가 되었기 때문에 에이전트에게도 포스트모템 가능한 실행 기록이 필요해졌다는 신호입니다. 모델 성능이 좋아질수록 오히려 이 요구는 커집니다. 에이전트가 더 많은 일을 맡을수록, 실패했을 때 "모델이 그랬다"는 설명은 받아들여지지 않습니다.

개발팀은 이제 두 종류의 reliability를 함께 봐야 합니다. 하나는 시스템 reliability입니다. 서비스가 정상적으로 응답하고, SLO를 지키고, 배포가 안정적인지 보는 영역입니다. 다른 하나는 agent reliability입니다. 에이전트가 올바른 도구를 선택하고, 충분한 근거를 모으고, 비용과 시간을 과도하게 쓰지 않고, 정책을 지키며, 실패했을 때 조사 가능한 흔적을 남기는지 보는 영역입니다. 이 둘이 분리되어 있으면 운영 사고는 점점 더 설명하기 어려워집니다.

Honeycomb의 베팅은 이 두 reliability를 하나의 관측성 계층에서 만나게 하려는 것입니다. Agent Timeline은 그 상징적인 인터페이스입니다. OpenTelemetry GenAI conventions는 그 데이터 계약의 후보입니다. MCP는 에이전트가 운영 데이터에 접근하는 경로입니다. AWS Bedrock AgentCore 연동은 managed agent runtime과 production observability가 만나는 사례입니다.

아직 승자는 정해지지 않았습니다. 하지만 방향은 분명해 보입니다. 에이전트 개발의 다음 병목은 "모델이 답을 할 수 있는가"보다 "에이전트가 왜 그렇게 행동했는지 운영팀이 설명할 수 있는가"에 가까워지고 있습니다. Honeycomb의 새 발표가 흥미로운 이유도 여기에 있습니다. AI 에이전트의 신뢰성은 더 이상 데모 영상의 문제가 아니라, 장애 회고에 남길 수 있는 타임라인의 문제입니다.

출처