Copilot CLI 보안 리뷰, 커밋 전 diff 검사 표준

GitHub Copilot CLI가 /security-review를 공개했습니다. PR 이후가 아니라 로컬 diff 단계에서 AI 보안 검사를 붙이는 변화입니다.

AI 요약

무슨 일: GitHub가 Copilot CLI에 /security-review 명령을 public preview로 추가했습니다.
- 로컬 변경분을 검사해 severity, confidence, 수정 제안을 터미널 안에서 보여주는 보안 전용 리뷰입니다.
의미: AI 코딩의 검토 지점이 PR 이후에서 커밋 전 diff 단계로 내려옵니다.
주의점: GitHub는 이 기능이 CodeQL, Dependabot, secret scanning을 대체하지 않는 보완 도구라고 설명합니다.
- experimental mode가 필요하고, false positive와 비용은 여전히 팀별 운영 기준으로 관리해야 합니다.

GitHub가 2026년 6월 10일 Copilot CLI 전용 보안 리뷰 명령을 공개했습니다. 새 명령은 /security-review입니다. GitHub는 이 기능을 experimental public preview로 부르며, 개발자가 커밋하기 전 로컬 코드 변경분을 터미널에서 바로 검사하도록 설계했다고 설명했습니다.

이번 발표는 커 보이는 모델 출시가 아닙니다. 하지만 AI 코딩 도구를 실제 팀 워크플로에 넣어본 개발자에게는 더 실무적인 변화입니다. 코딩 에이전트가 만든 diff를 사람이 PR에서 처음 마주하는 구조는 느립니다. CI의 SAST, secret scanning, dependency scan이 뒤에서 돌더라도, 개발자가 이미 PR 설명과 리뷰 요청까지 끝낸 뒤 보안 결함을 발견하면 왕복 비용이 커집니다. GitHub가 /security-review를 Copilot CLI 안에 넣은 이유는 이 검사 시점을 더 앞당기려는 것입니다.

GitHub 발표문은 기능 범위를 비교적 좁게 잡았습니다. /security-review는 로컬 변경분을 분석해 high-confidence security findings를 반환하고, 각 finding에 severity와 confidence를 붙이며, 터미널을 벗어나지 않고 적용할 수 있는 제안을 제공합니다. GitHub가 예시로 든 취약점 클래스는 injection flaws, cross-site scripting, insecure data handling, path traversal, weak cryptography입니다. 즉 “코드 스타일이 마음에 들지 않는다”는 리뷰가 아니라, 보안 영향이 큰 결함을 좁혀 찾는 명령입니다.

이 기능은 Copilot CLI의 기존 /review와도 다릅니다. GitHub Docs는 /review를 일반 변경 검토 명령으로 설명합니다. 이 명령은 코드 변경을 분석하고, 커밋 전 피드백을 주는 표면입니다. 반면 /security-review는 보안 취약점 탐지에 초점을 둔 별도 표면입니다. 개발자가 “전체 코드를 훑어봐”라고 말하는 대신, 도구가 보안 리뷰라는 목적과 출력 형식을 미리 좁혀 둔 셈입니다.

같은 날 GitHub는 Copilot Chat이 agent session logs를 읽는 기능도 공개했습니다. Copilot Chat은 cloud agent가 PR에서 수행한 작업 로그를 가져와 무엇이 바뀌었는지, 무엇을 검증했는지, 왜 그렇게 했는지 대화 안에서 설명할 수 있습니다. 또 session search로 과거 agent session을 주제, 제목, 최근성 기준으로 찾아 요약할 수 있습니다. /security-review와 session logs 기능은 서로 다른 발표지만, 둘 다 AI 에이전트 작업을 “생성”에서 “검토 가능한 작업 기록”으로 옮긴다는 점에서 같은 방향을 가리킵니다.

6월 첫째 주의 GitHub 발표를 시간순으로 놓으면 이 방향이 더 뚜렷합니다. 6월 2일 GitHub는 Copilot cloud agent automations를 공개했습니다. 에이전트가 일정에 맞춰 nightly failing tests를 고치거나, 새 이슈를 분류하거나, 주간 release notes PR을 만들 수 있게 한 기능입니다. 6월 4일에는 Agent tasks REST API가 public preview로 열렸습니다. 개인 Pro, Pro+, Max 사용자가 Copilot cloud agent 작업을 프로그램으로 시작하고 진행 상태를 추적할 수 있게 된 것입니다.

표면	검사 시점	주요 역할	한계
`/security-review`	커밋 전 로컬 diff	보안 취약점 중심의 high-confidence finding	experimental preview, 기존 보안 도구 대체 아님
`/review`	커밋 전 또는 PR 전	일반 코드 품질과 변경 검토	보안 전용 탐지 기준은 아님
Code scanning	PR, branch, CI	규칙 기반 정적 분석과 SARIF 워크플로	로컬 작성 중 피드백은 별도 설정 필요
Secret scanning	push, PR, 저장소 이벤트	토큰과 credential 노출 탐지	비밀값 외 설계 취약점은 다루지 않음

GitHub가 강조한 문장 중 실무적으로 중요한 부분은 “doesn’t rely on GitHub code scanning, Dependabot, or GitHub secret scanning”입니다. /security-review는 이 셋을 대체하지 않습니다. GitHub는 오히려 보완 관계라고 설명합니다. Code scanning은 정적 분석 규칙, Dependabot은 취약한 dependency와 버전 업데이트, secret scanning은 credential 유출에 강합니다. /security-review는 개발자가 현재 작성한 diff를 AI가 문맥적으로 읽고, 흔한 고위험 취약점 패턴을 더 일찍 묻는 역할에 가깝습니다.

이 차이는 보안팀과 개발팀의 기대치를 나누는 데 중요합니다. 보안팀이 /security-review를 CI gate처럼 취급하면 곤란합니다. public preview 명령 하나가 조직의 SAST, SCA, secret scanning, threat modeling, manual review를 대신할 수는 없습니다. 반대로 개발팀이 “어차피 CI에서 잡겠지”라고 생각해 로컬 검사를 생략하면, AI 코딩이 만든 취약한 diff가 PR 대화와 CI 대기열을 계속 오염시킵니다. 이 명령의 적절한 위치는 차단 게이트가 아니라 빠른 사전 질문입니다.

GitHub Docs의 custom agent 문서를 보면 이 변화가 갑자기 나온 것은 아닙니다. 문서는 사용자가 .agent.md 파일로 custom agent를 만들 수 있고, 예시로 security expert agent를 제시합니다. 그 agent는 secret exposure, XSS, SQL injection, vulnerable dependencies, authentication bypass 같은 문제를 찾도록 설명됩니다. /security-review는 이런 사용자 정의 프롬프트 관행을 더 짧은 명령과 제품 기본값으로 옮긴 사례입니다.

개발자 관점에서 장점은 명확합니다. 첫째, 리뷰 요청의 마찰이 낮습니다. “보안 전문가처럼 이 diff를 봐줘”라는 프롬프트를 매번 작성하지 않아도 됩니다. 둘째, 변경분 중심으로 좁혀 실행할 수 있습니다. 전체 저장소를 스캔하는 긴 작업보다 현재 branch에서 실제로 바꾼 파일에 집중하는 편이 비용과 소음 면에서 낫습니다. 셋째, 수정 제안이 터미널 안에 있습니다. IDE, GitHub UI, 보안 대시보드, 문서 탭 사이를 오가며 맥락을 잃을 가능성이 줄어듭니다.

하지만 이 장점은 곧 한계이기도 합니다. 로컬 diff만 보는 도구는 시스템 전체의 권한 모델, 운영 환경, 배포 토폴로지, 데이터 분류 정책을 전부 알 수 없습니다. 예를 들어 path traversal 후보가 실제로 위험한지는 파일 저장 위치, reverse proxy, object storage policy, runtime user 권한에 따라 달라집니다. 약한 암호화처럼 보이는 코드도 legacy protocol 호환성 때문에 임시로 남아 있을 수 있습니다. 그래서 severity와 confidence가 붙는다는 점은 중요하지만, 그것이 곧 자동 승인이나 자동 거절 기준은 아닙니다.

커뮤니티 반응도 이 지점과 맞닿아 있습니다. /security-review 발표 자체는 아직 Hacker News에서 큰 단독 토론을 만들지 못했습니다. 대신 최근 AI agent permission fatigue 토론은 에이전트 실행 경계를 길게 다뤘습니다. 쟁점은 로컬 checkout, GitHub token, dev backend, VPN 근처에서 움직이는 에이전트에 어떤 sandbox와 final review가 필요한지였습니다. 한 사용자는 에이전트가 쓰는 checkout과 사람이 쓰는 checkout을 분리하고, 최종 diff를 사람이 선택적으로 stage해야 한다고 설명했습니다. 다른 사용자는 자동 실행 스크립트가 sandbox 밖에서 나중에 실행될 위험을 지적했습니다.

Copilot의 과금 전환을 다룬 HN 토론에서는 다른 우려가 나왔습니다. 한 댓글은 과거에 Copilot에게 포괄적인 보안 리뷰를 맡겼더니 거의 한 시간 동안 돌고 90%가 false positive였다고 적었습니다. 이 경험담은 공식 발표의 high-confidence 강조와 연결됩니다. AI 보안 리뷰가 유용하려면 “많이 지적하는” 것보다 “개발자가 실제로 확인할 만한 것을 적게 지적하는” 쪽이 더 중요합니다. 보안 리뷰가 소음이 되면 개발자는 명령을 꺼 버립니다.

이번 기능은 Arm Metis 같은 AI 보안 리뷰 도구와도 비교됩니다. Arm은 최근 오픈소스 보안 리뷰 에이전트 Metis를 공개하며 RAG와 SARIF triage를 강조했습니다. Claude Code Security류 제품은 codebase를 보안 연구자처럼 읽고 patch suggestion을 내는 방향입니다. GitHub의 /security-review는 이 경쟁에서 더 좁은 위치를 잡습니다. GitHub 저장소와 Copilot CLI를 이미 쓰는 개발자에게, 커밋 전 한 번 더 확인하는 명령을 제공합니다. 깊이는 전문 보안 도구가 가져가고, GitHub는 접근성과 워크플로 위치를 가져가는 식입니다.

기업에서는 이 기능을 바로 정책으로 묶고 싶을 수 있습니다. 예를 들어 “모든 PR 전에 /security-review 실행”을 체크리스트에 넣거나, Copilot CLI custom instructions로 특정 파일군을 더 엄격히 보게 만들 수 있습니다. 그러나 첫 단계는 강제보다 측정입니다. 어떤 취약점 클래스에서 실제 finding이 나오는지, false positive 비율이 어느 정도인지, 리뷰 시간이 얼마나 줄어드는지, 기존 CodeQL/secret scanning과 중복되는 항목이 얼마나 되는지 기록해야 합니다. 수치 없이 의무화하면 개발자는 명령 결과를 붙여넣는 의식만 만들 가능성이 큽니다.

개인 개발자에게도 실용적인 사용법은 있습니다. 인증, 파일 업로드, URL redirect, template rendering, shell command, SQL query, path 조합, encryption helper를 만졌다면 /security-review를 커밋 전에 돌리는 습관이 맞습니다. 반대로 CSS spacing이나 문구 수정처럼 보안 영향이 거의 없는 diff까지 매번 긴 리뷰를 돌리면 비용과 피로가 쌓입니다. AI 도구는 아직 “언제 질문하지 않을지”를 사람만큼 잘 판단하지 못합니다. 개발자가 위험한 변경 유형을 알고 명령을 선택해야 합니다.

GitHub의 6월 발표 묶음에서 더 큰 변화는 Copilot이 생성 도구에서 운영 도구로 이동한다는 점입니다. Cloud agent automations는 에이전트가 밤마다 작업을 시작하게 만들고, Agent tasks REST API는 그 작업을 사내 포털이나 스크립트에 연결하게 만듭니다. Copilot Chat의 session logs 기능은 완료된 작업을 다시 물어볼 수 있게 합니다. /security-review는 그 사이에 들어가는 검문소입니다. 에이전트가 코드를 만들고, 자동화가 반복 실행하고, 로그가 남고, 보안 검토가 diff 단계로 내려오는 구조입니다.

이 구조에서 개발자의 책임은 사라지지 않습니다. 오히려 더 구체화됩니다. 사람이 모든 줄을 처음부터 쓰지 않아도, 어떤 변경이 위험한지 알아야 하고, 어떤 보안 도구를 어느 시점에 실행할지 정해야 하며, AI finding을 그대로 믿을지 반박할지 판단해야 합니다. /security-review의 가치는 “보안 리뷰를 대신한다”가 아니라 “보안 질문을 더 이른 시점에 강제로 꺼낸다”에 있습니다. AI 코딩이 빨라질수록 이 작은 강제성이 팀의 실제 사고율을 가를 수 있습니다.

그래서 이번 뉴스의 체크포인트는 기능 사용 여부 하나가 아닙니다. Copilot CLI를 쓰는 팀이라면 커밋 전 리뷰, PR 리뷰, CI 보안 스캔, dependency 업데이트, secret scanning의 역할을 다시 그려야 합니다. /security-review는 그 그림에서 가장 앞쪽에 놓이는 가벼운 검사입니다. 이 앞단 검사가 효과를 내려면 뒤쪽 게이트와 연결되어야 합니다. finding이 반복되면 custom agent나 repository instructions에 반영하고, 놓친 취약점은 CodeQL query나 테스트로 옮기고, false positive는 팀 규칙에 기록해야 합니다.

GitHub은 이번 기능을 실험적이라고 명시했습니다. 그 표현은 제한이 아니라 사용법에 대한 힌트입니다. 지금은 “믿고 맡기는 보안 자동화”보다 “팀의 커밋 전 보안 질문을 어떤 형태로 제품에 심을 것인가”를 시험할 단계입니다. Copilot CLI 보안 리뷰가 성공하려면 더 많은 취약점명을 외치는 명령이 아니라, 개발자가 멈춰야 할 정확한 diff를 짚는 명령이어야 합니다. AI 코딩의 다음 병목은 코드 생성 속도가 아니라, 생성된 코드를 언제 어떤 기준으로 멈춰 세울지입니다.

Copilot Chat이 cloud agent session logs를 읽어 답하는 공식 스크린샷