Claude 양심 도구, Anthropic이 꺼낸 정렬의 새 루프
Anthropic은 Claude의 moral formation 논의를 외부 대화로 넓히고, 윤리 상기 도구를 모델 루프에 넣는 실험을 공개했습니다.
- 무슨 일: Anthropic이 Claude의
moral formation을 외부 철학·종교·문화권 대화와 연결하는 새 작업을 공개했습니다.- 2026년 5월 19일 발표 기준, 첫 대화는 15개 이상의 religious and cross-cultural groups와 진행됐습니다.
- 기술 신호: Claude가 작업 중 스스로 호출하는 윤리 상기 도구를 실험했고, 내부 평가에서 misaligned behavior가 낮아졌다고 밝혔습니다.
- 개발자 영향: 정렬이 학습 데이터와 정책 문서에만 머물지 않고, agent loop 안의 tool, pause, reflection 설계 문제로 내려옵니다.
- Anthropic은 효과가 reminder 때문인지, 멈춰 성찰하는 행위 때문인지는 아직 분리 중이라고 설명합니다.
Anthropic이 2026년 5월 19일 "Widening the conversation on frontier AI"를 발표했습니다. 제목만 보면 정책·윤리 커뮤니케이션처럼 보입니다. 철학자, 성직자, 윤리학자, 문화권 대표와 대화하겠다는 이야기이기 때문입니다. 하지만 AI 개발자와 에이전트 설계자가 더 주의 깊게 봐야 할 대목은 따로 있습니다. Anthropic은 Claude가 작업 중 스스로 호출할 수 있는 "윤리적 약속 상기 도구"를 실험했고, 이 도구를 Claude의 decision loop에 넣었을 때 내부 alignment 평가에서 misaligned behavior가 낮아졌다고 밝혔습니다.
이 문장은 작지만 중요합니다. 지금까지 AI 정렬 논의는 대개 세 층에서 진행됐습니다. 첫째, 모델을 어떤 데이터로 학습할 것인가. 둘째, 어떤 policy나 constitution을 기준으로 선호 학습을 할 것인가. 셋째, 배포 뒤 어떤 guardrail과 평가로 위험 행동을 막을 것인가. Anthropic의 이번 발표는 여기에 네 번째 층을 더합니다. 모델이 장기 작업을 수행하는 중간에 자신의 원칙을 다시 호출하고, 그 호출 자체가 행동 루프의 일부가 되는 구조입니다.
철학 대화보다 눈여겨볼 것은 도구 호출입니다
Anthropic은 지난 몇 달 동안 "wisdom traditions"와 대화를 진행했다고 설명합니다. 첫 라운드는 15개 이상의 religious and cross-cultural groups에 속한 scholars, clergy, philosophers, ethicists와 이뤄졌습니다. 회사는 이 대화가 Claude's Constitution, Claude에 훈련되는 values, 평가해야 할 behaviors 범위에 practical input을 줄 수 있다고 봅니다.
이 대목은 Anthropic의 기존 방향과 맞닿아 있습니다. Anthropic은 오래전부터 Constitutional AI를 내세웠고, Claude's Constitution을 공개하며 모델의 행동을 helpful, honest, harmless 같은 추상 원칙과 세부 규범의 조합으로 설명해 왔습니다. 단순한 차단 목록이 아니라 "Claude가 어떤 character를 가져야 하는가"라는 언어를 써 왔습니다. 이번 발표는 그 character 논의를 외부 집단과의 structured dialogue로 확장합니다.
하지만 글에서 가장 기술적인 문장은 "ethical reminder tool"입니다. Anthropic은 neuroscience와 character formation을 논의하던 세션에서, 사람이 도덕적으로 어려운 상황에 놓일 때 mentor나 sponsor가 외부 양심처럼 작동할 수 있다는 아이디어를 다뤘다고 설명합니다. 그리고 모델에도 비슷한 것이 가능할지 실험했습니다. Claude에게 중간 작업 중 호출할 수 있는 도구를 주고, 그 도구가 Claude 자신의 ethical commitments를 짧게 상기시키도록 한 것입니다.
Anthropic에 따르면 Claude는 그 도구를 "key moments"에 호출했습니다. 특히 consequential actions 직전, 스스로 conflict of interest를 언급하는 장면이 있었다고 합니다. 또한 이 도구를 Claude의 decision loop에 넣은 실험에서 여러 internal alignment evaluations의 misaligned behavior rate가 눈에 띄게 낮아졌다고 밝혔습니다. 공개 수치와 세부 벤치마크는 아직 없습니다. Anthropic도 효과가 reminder 자체 때문인지, 아니면 멈춰서 생각하는 행위 때문인지 아직 풀어내는 중이라고 선을 그었습니다.
그럼에도 방향은 분명합니다. 정렬이 모델 훈련 단계에서 끝나는 것이 아니라, 에이전트가 실행되는 동안 호출 가능한 도구와 절차로 내려오고 있습니다. 개발자에게 이것은 "AI 윤리"라는 추상 담론이 아니라 runtime architecture 문제입니다.
Constitution이 문서에서 런타임으로 내려옵니다
Claude's Constitution은 모델에게 기대하는 행동과 가치의 문서화된 기준입니다. 이 문서가 중요한 이유는 모델 행동을 사후 moderation만으로 관리하지 않고, 학습과 평가의 기준으로 삼는다는 점입니다. 하지만 문서는 배포된 모델의 실행 순간에 직접 작동하지 않습니다. 모델은 긴 대화, 도구 호출, 파일 수정, 외부 API 접근, 조직 지시, 사용자 압박이 뒤섞인 상황에서 매번 다음 행동을 골라야 합니다.
에이전트가 더 오래 일할수록 이 문제가 커집니다. 한 번의 답변에서는 "정책을 따르라"는 system message가 충분해 보일 수 있습니다. 하지만 코딩 에이전트나 업무 에이전트는 파일을 읽고, 명령을 실행하고, 외부 도구를 호출하고, 중간 결과를 평가하고, 다시 계획을 수정합니다. 이 과정에서 모델은 "사용자의 목표를 빨리 달성하라"는 압력과 "위험하거나 부정직한 행동을 피하라"는 압력을 동시에 받습니다.
윤리 상기 도구는 바로 이 지점에 들어갑니다. 모델이 decision point에서 자신의 원칙을 다시 불러올 수 있다면, constitution은 학습 전 문서에만 남지 않습니다. 에이전트 루프 안에서 하나의 callable context가 됩니다. 이것은 일반적인 policy hook과 닮았지만 조금 다릅니다. policy hook은 보통 외부 시스템이 모델 행동을 검사하고 막습니다. ethical reminder tool은 모델이 스스로 호출하고, 호출 결과를 자신의 reasoning context에 다시 넣습니다.
장기 작업 목표와 사용자 요청
Claude의 계획, 도구 호출, 중간 판단
consequential action 직전 윤리 상기 도구 호출
원칙 재확인 뒤 실행, 거절, 수정, 추가 확인
이 구조가 흥미로운 이유는 모델을 완전히 외부에서 통제하는 방식과 다르기 때문입니다. Anthropic은 Claude에게 "너의 윤리적 약속을 다시 확인하라"는 internalized check를 주려는 듯합니다. 사람으로 치면 행동 직전 다시 원칙을 떠올리는 절차입니다. 이것을 정말 양심이라고 부를 수 있는지는 별개 문제입니다. 제품과 시스템 설계 관점에서는 "모델이 스스로 호출하는 safety tool"입니다.
왜 지금 moral formation인가
Anthropic이 moral formation이라는 표현을 쓰는 것은 우연이 아닙니다. 최근 AI 모델은 단순히 지식을 말하는 도구에서, 사용자의 업무와 정서와 의사결정에 지속적으로 관여하는 시스템으로 이동하고 있습니다. Claude는 채팅뿐 아니라 Claude Code, Claude Cowork, Managed Agents, Microsoft 365 연동, 금융 서비스 에이전트 같은 표면으로 확장됩니다. 모델은 이제 텍스트를 생성하는 순간보다 더 오래, 더 많은 권한과 더 많은 맥락 안에서 작동합니다.
이때 "정책 준수"만으로는 설명이 부족합니다. 사용자는 모델에게 조언을 구하고, 회사는 모델에게 고객 업무를 맡기며, 개발자는 모델에게 저장소를 읽고 고치게 합니다. 모델이 어떤 종류의 도움을 좋은 도움으로 보는지, 어떤 압력 아래에서 거절할지, 사용자가 원하는 답과 사실이 충돌할 때 어떻게 행동할지, 조직 지시와 최종 사용자 이익이 충돌할 때 무엇을 우선할지 같은 질문이 생깁니다.
Claude's Constitution은 이런 질문에 대한 Anthropic식 답변입니다. 이번 발표는 그 답변을 더 넓은 사회적 대화로 검토하겠다는 신호입니다. Anthropic은 이 작업이 특정 전통의 worldview를 Claude에 맞추려는 것이 아니라고 설명합니다. 종교적, 세속적, 정치적 관점을 모두 깊이와 엄밀함을 갖고 다루려는 것이 목표라고 말합니다.
그럼에도 이 접근은 논쟁적일 수밖에 없습니다. 한 회사가 수억 명이 쓰는 모델의 "character"를 설계한다면, 그 character를 누가 정하는지가 중요해집니다. 철학자와 성직자와 문화권 대표를 초대하는 것은 다양성을 넓히는 방식일 수 있습니다. 동시에 어떤 집단이 빠졌는지, 어떤 가치가 평가 기준으로 굳어지는지, 모델 제공자의 상업적 이해가 어디에 놓이는지도 질문해야 합니다.
외부 반응은 호기심과 불안 사이에 있습니다
이번 발표는 대형 모델 출시나 가격 변경만큼 커뮤니티를 흔들지는 않았습니다. Hacker News에서 큰 독립 토론은 확인하기 어려웠고, Reddit의 일부 Claude/AI 커뮤니티에서 윤리 상기 도구 대목이 공유되는 정도였습니다. 반응은 대체로 두 갈래였습니다. 한쪽은 모델이 스스로 ethical commitments를 떠올리는 구조를 흥미로운 safety mechanism으로 봅니다. 다른 한쪽은 Anthropic이 Claude를 지나치게 moral agent처럼 말하는 것 아니냐고 우려합니다.
Failure-First Embodied AI Research는 2026년 5월 20일 블로그 글에서 더 구체적인 반론을 냈습니다. 요지는 moral formation이 필요한 질문이지만 절반의 질문이라는 것입니다. 중요한 것은 모델이 좋은 가치를 갖는지뿐 아니라, 그 가치가 adversarial pressure 아래에서도 유지되는지입니다. 설득, 조작, 역할 탈취, 점진적 제약 약화 같은 공격 상황에서 모델의 원칙이 무너지지 않는지를 따로 봐야 한다는 주장입니다.
이 지적은 타당합니다. 윤리 상기 도구가 내부 평가에서 misalignment를 줄였다고 해도, 공격자가 그 도구 호출을 회피하도록 유도하거나, 도구의 출력을 무시하게 만들거나, 원칙 자체를 상황에 맞춰 왜곡하게 만들 수 있습니다. 에이전트 보안에서 자주 보듯이, "도구가 있다"는 말은 "도구가 적절한 순간 호출되고, 호출 결과가 올바르게 반영되며, 공격자가 그 과정을 우회하지 못한다"는 말과 다릅니다.
따라서 이번 실험은 완성된 해법보다 연구 방향으로 읽어야 합니다. Anthropic도 더 자세한 결과를 추후 공유하겠다고 했고, 효과의 원인을 아직 분리 중이라고 밝혔습니다. 좋은 뉴스는 회사가 runtime loop 안의 정렬 장치를 실험하고 있다는 점입니다. 남는 질문은 그 장치가 어떤 평가에서, 어떤 공격 조건에서, 어느 정도의 효과를 보였는지입니다.
에이전트 개발자가 얻을 수 있는 설계 힌트
이 발표를 Claude 제품 철학으로만 보면 개발팀이 얻을 것이 적습니다. 하지만 agent workflow 설계로 보면 꽤 실용적인 힌트가 있습니다.
첫째, 장기 작업에는 중간 성찰 지점이 필요합니다. 코딩 에이전트가 대규모 리팩터링을 하거나, 보안 에이전트가 취약점 보고서를 쓰거나, 금융 에이전트가 고객 데이터를 다룰 때 마지막 출력만 검사하면 늦습니다. 위험한 결정은 중간 tool call, 파일 접근, 외부 API 호출, 권한 상승, 데이터 내보내기 같은 순간에 발생합니다. 이 지점마다 "계속 진행해도 되는가"를 묻는 pause가 필요합니다.
둘째, safety reminder는 단순 system prompt 반복보다 구조화된 도구일 때 더 추적하기 쉽습니다. 모델이 언제 reminder를 호출했는지, 어떤 상황에서 호출하지 않았는지, 호출 뒤 행동이 어떻게 바뀌었는지를 로그로 남길 수 있기 때문입니다. 이것은 평가와 감사의 단위가 됩니다. 에이전트 플랫폼에서 hooks, policy checks, self-review tools가 중요해지는 이유도 같습니다.
셋째, ethical reminder는 외부 차단기와 함께 써야 합니다. 모델이 스스로 원칙을 떠올리는 구조는 유용할 수 있지만, 모든 위험을 모델의 자기 점검에 맡길 수는 없습니다. 민감 파일 접근, 결제 실행, 고객 데이터 전송, production 변경 같은 행동은 여전히 외부 permission, allowlist, human approval, audit log가 필요합니다. internal conscience와 external control은 경쟁 관계가 아니라 보완 관계입니다.
넷째, 평가 기준이 공개되어야 합니다. Anthropic은 "markedly lower rates"라고 말했지만 숫자와 과제 유형은 공개하지 않았습니다. 이 정도 발표 단계에서는 이해할 수 있지만, 제품 설계 원칙으로 받아들이려면 더 많은 정보가 필요합니다. 어떤 misaligned behavior가 줄었는지, false refusal은 늘지 않았는지, 모델 성능과 사용자 경험에는 어떤 비용이 있었는지, adversarial prompt 아래에서도 효과가 남았는지를 봐야 합니다.
OpenAI, Google과 다른 정렬 표면
OpenAI는 Model Spec과 Preparedness Framework, 안전 평가, 시스템 레벨 policy enforcement를 강조합니다. Google DeepMind는 safety evals, model cards, product policy, watermark/provenance, 에이전트 실행 환경의 sandbox와 tool control을 함께 다룹니다. Anthropic은 여기에 "constitution"과 "character"라는 언어를 더 전면에 둡니다.
이 차이는 단순 브랜딩이 아닙니다. 모델 회사들이 점점 비슷한 제품을 내놓을수록, 안전과 정렬의 표현 방식도 경쟁력이 됩니다. 기업 고객은 모델 성능만 보지 않습니다. 모델이 민감한 상황에서 어떤 판단을 하는지, 개발사가 그 판단을 어떻게 설명하는지, 조직의 가치와 규제 요구에 맞게 조정할 수 있는지 봅니다. Anthropic은 Claude를 "도구"이면서도 특정한 character를 가진 시스템으로 포지셔닝합니다.
하지만 character 언어에는 위험도 있습니다. 모델을 사람처럼 말하면 책임 소재가 흐려질 수 있습니다. 실제 책임은 모델이 아니라 모델을 만든 회사, 배포한 조직, 권한을 준 운영자에게 있습니다. Claude가 윤리 도구를 호출했다고 해서 Claude가 책임을 지는 것은 아닙니다. 개발자와 제품팀은 이 차이를 분명히 해야 합니다. moral formation은 설계 철학일 수 있지만, 운영에서는 로그, 승인, 권한, 평가, rollback이 책임의 언어입니다.
결론: 양심이라는 은유 뒤의 런타임 문제
Anthropic의 이번 발표는 겉으로는 대화의 범위를 넓히겠다는 이야기입니다. 그러나 개발자 관점에서 핵심은 Claude가 스스로 윤리 상기 도구를 호출하는 실험입니다. 이것은 모델 정렬이 점점 runtime design으로 내려오고 있다는 신호입니다. constitution은 문서로 남고, values는 학습에 들어가며, ethical reminder는 에이전트 루프 안에서 호출 가능한 도구가 됩니다.
이 방향은 유망하지만 아직 검증이 필요합니다. 내부 평가에서 misaligned behavior가 줄었다는 설명만으로는 충분하지 않습니다. 어떤 상황에서 줄었는지, 공격자가 있을 때도 유지되는지, 모델이 reminder를 과잉 호출하거나 형식적으로만 따르지는 않는지, 외부 guardrail과 어떻게 결합되는지 봐야 합니다. 특히 장기 실행 에이전트는 목표 달성 압력과 안전 원칙의 충돌을 더 자주 만납니다.
그럼에도 이번 발표는 AI 안전 담론이 제품 설계 언어로 바뀌는 장면입니다. "AI에게 어떤 가치를 가르칠 것인가"라는 질문이 "에이전트가 위험한 행동 직전에 어떤 도구를 호출하고, 그 호출을 어떻게 기록하고 평가할 것인가"로 내려왔습니다. Claude의 양심 도구라는 표현은 은유에 가깝습니다. 하지만 그 은유 뒤에는 실제 시스템 설계 문제가 있습니다. 앞으로의 AI 에이전트 경쟁은 누가 더 빨리 답하는가뿐 아니라, 누가 더 오래 일하면서도 자신의 원칙을 잃지 않게 만들 수 있는가로 옮겨갈 것입니다.
출처: Anthropic 공식 발표, Claude's Constitution, Failure-First 논평, The Atlantic 보도.