미국인 4명 중 1명이 AI 음성 사기를 당했다, 3초면 복제되는 목소리

Hiya의 12,000명 설문 결과 미국인 25%가 딥페이크 음성 사기를 경험했고, 24%는 진짜와 가짜를 구별하지 못합니다. 3초 음성 복제 시대, 음성 신뢰의 종말이 시작됐습니다.

미국인 4명 중 1명이 지난 12개월간 AI 딥페이크 음성 통화를 받았습니다. 추가로 24%는 통화 상대가 진짜 사람인지 AI인지 구별할 수 없다 고 답했습니다. 합산하면 미국 인구의 49%, 사실상 절반이 AI 음성 사기의 영향권에 놓인 셈입니다.

이 수치는 Hiya가 2026년 3월 1일 발표한 "State of the Call 2026" 보고서에서 나왔습니다. 6개국 12,000명을 대상으로 한 대규모 설문조사의 결과입니다. 보고서에서 가장 충격적인 대목은 소비자 인식입니다. 응답자의 32%가 "사기꾼이 통신사를 2대 1로 이기고 있다"고 답했습니다. 방어하는 쪽이 지고 있다는 것을 당사자들이 체감하고 있는 것입니다.

3초면 충분하다, 음성 복제 기술의 대중화

이 사태의 배경에는 음성 합성 기술의 급격한 민주화가 있습니다.

McAfee의 연구에 따르면 단 3초의 음성 샘플 만으로 85% 일치율의 음성 복제가 가능합니다. 소셜 미디어에 올린 짧은 영상, 전화 통화 녹음, 음성 메시지 하나면 공격자에게 충분한 재료가 됩니다. 2025년 12월 Fortune은 "2026년은 딥페이크에 속는 해가 될 것"이라는 전문가 예측을 보도하며, 음성 클로닝이 "구별 불가능 임계점(indistinguishable threshold)" 을 넘었다고 경고했습니다.

기술적 문턱이 사라진 배경을 구체적으로 살펴보겠습니다.

도구 / 행위자	필요 샘플	유사도	유형	특징
McAfee 연구 기준	3초	85%	연구	소셜미디어 클립 1개면 충분
ElevenLabs	10~30초	고품질	상용	1~2분 시 최적화, 악용 방지 정책 존재
Qwen3-TTS (Alibaba)	3초	ElevenLabs급	오픈소스	2026년 1월 공개, 안전장치 없음
일반 공격자	3~15초	다양	범죄	소셜미디어·음성메시지에서 추출

상용 서비스인 ElevenLabs는 10~~30초의 음성 샘플로 고품질 복제를 제공하며, 1~~2분이면 최적의 결과를 냅니다. 하지만 더 심각한 변화는 오픈소스 진영 에서 벌어졌습니다. 2026년 1월 Alibaba가 공개한 Qwen3-TTS 는 3초 샘플로 ElevenLabs 수준의 음성 합성을 구현하는 오픈소스 모델입니다. 누구나 다운로드해서 실행할 수 있습니다. 상용 서비스의 안전장치(악용 방지 정책, 사용자 인증 등)를 우회할 수 있는 도구가 공개된 셈입니다.

여기에 AI 에이전트의 자동화 역량이 결합되면서, 대량 자동 발신과 딥페이크 음성의 결합 이 현실화되었습니다. 공격의 규모와 정밀도가 동시에 올라가는 구조입니다. AI 기반 사기는 2025년 한 해 동안 1,210% 급증 했으며, Vyntra의 2026 Fraud Report에 따르면 글로벌 AI 사기 손실은 4,420억 달러 에 달합니다.

Hiya 보고서가 드러낸 숫자들

12,000명 규모의 설문이 보여주는 현실은 냉혹합니다. 핵심 수치를 하나씩 짚어보겠습니다.

📊

Hiya State of the Call 2026 — 핵심 수치

25%

딥페이크 음성 통화 경험

24%

진짜/가짜 구별 불가

49%

AI 사기 영향권 (합산)

86%

미확인 전화 무응답

9.9건

주당 불필요 통화 (미국)

48%

스팸 악화 체감

$1,298

시니어(55+) 평균 피해액

72%

정부 규제 강화 지지

2:1사기꾼이 통신사를 앞서고 있다고 느끼는 비율

38%AI 사기 보호 없으면 통신사 이탈 의향

출처: Hiya State of the Call 2026, 6개국 12,000명 설문

미국 수치부터 보겠습니다. 딥페이크 음성 통화를 경험한 비율이 25%, 진짜와 가짜를 구별할 수 없다고 답한 비율이 24%입니다. 미국인이 주당 받는 불필요 통화는 평균 9.9건 으로, 연간 500건 이상입니다. 미확인 전화에 대한 무응답 비율은 86% 에 달합니다. 거의 아무도 모르는 번호의 전화를 받지 않는다는 뜻입니다. 스팸이 악화되었다고 느끼는 비율은 48%입니다.

글로벌 수치는 더 심각합니다. 6개국 기준 딥페이크 통화 경험 비율은 31% 로 미국보다 높습니다. 주간 불필요 통화는 글로벌 평균 7.4건이며, 불필요 통화는 2023년 이후 연간 16%씩 성장 하고 있습니다.

소비자의 분노는 통신사를 향하고 있습니다. "사기꾼이 통신사를 2대 1로 이기고 있다"고 답한 비율이 글로벌 기준 32%(사기꾼 우세) 대 15%(통신사 우세)입니다. AI 사기 보호가 제공되지 않으면 통신사를 바꾸겠다는 이탈 의향이 38% 입니다. 미국 응답자의 67%는 네트워크에서 발생한 사기 손실에 대해 통신사가 책임 져야 한다고 답했으며, 55%는 신용카드와 동일한 제로 라이어빌리티(zero liability) 보호 를 요구했습니다.

가장 아픈 숫자는 취약 계층 피해입니다. 55세 이상 시니어의 평균 피해 금액은 $1,298 로, 젊은 층의 약 3배에 달합니다. 디지털 리터러시 격차가 곧 금전적 피해 격차로 직결되는 현실입니다.

실제 피해 사례, 사기의 진화하는 수법들

숫자 뒤에는 실제 피해자들의 이야기가 있습니다. Hiya 보고서에 직접 인용된 사례 하나가 이 사태의 본질을 드러냅니다.

"90세 어머니가 손자의 딥페이크 음성으로 돈을 요구하는 사기 전화를 받았다."

가족 긴급 사기, "할머니 저 지금 감옥이에요"

가족 긴급 사기(Grandparent Scam) 는 AI 음성 복제가 가장 치명적으로 악용되는 유형입니다. 손자나 손녀의 목소리를 AI로 복제해 고령 가족에게 전화를 겁니다. "할머니, 나 지금 감옥에 있어요. 돈을 보내주세요." FBI는 이 수법에 대해 경고를 발령했으며, 가짜 납치 시나리오로 $2,500에서 $15,000 의 몸값을 요구하는 사례가 보고되고 있습니다.

이 사기가 특히 효과적인 이유는 감정적 긴박감입니다. 가족의 목소리를 듣는 순간 논리적 판단이 마비됩니다. 그리고 이제 그 목소리가 진짜인지 가짜인지 구별하는 것이 사실상 불가능해졌습니다.

기업을 노린 딥페이크, Arup의 $25.6M 교훈

개인만 표적이 아닙니다. 2024년 영국 엔지니어링 기업 Arup 에서 발생한 사건은 기업 대상 딥페이크 사기의 위험성을 세계에 각인시켰습니다.

홍콩 지사의 한 직원이 화상회의에 참석했습니다. 화면에는 CFO를 비롯한 여러 동료가 보였습니다. CFO가 긴급 자금 이체를 지시했고, 직원은 15건의 거래를 통해 총 $25.6M(약 350억 원) 을 이체했습니다. 문제는 화상회의 참가자 전원이, 피해 직원을 제외하고, 전부 AI가 생성한 딥페이크 였다는 것입니다. 실제 본사에 확인한 후에야 사기라는 것이 밝혀졌습니다. FBI IC3 기준으로 2024년 BEC(Business Email Compromise) 사기 피해는 총 $27.7억 (21,442건)에 달합니다.

2026년 신규 수법, 배심원 의무 워런트 사기

사기 수법도 계속 진화하고 있습니다. 2026년에 새로 등장한 배심원 의무 워런트 사기(Jury Duty Warrant Scam) 가 대표적입니다. Lancaster County 보안관 사무소가 최초로 AI 생성 음성 사용을 확인한 이 수법은, 연방 배심원 의무 불출석을 명목으로 체포 영장이 발부되었다고 협박합니다. 벌금을 즉시 암호화폐나 선불카드로 납부하라고 요구하며, 미국 법원 시스템(uscourts.gov)이 공식 경고문을 게시할 정도로 확산되었습니다.

권위를 사칭하는 전통적 수법에 AI 음성이 결합되면서, 경찰이나 국세청(IRS) 직원의 공식적이고 권위적인 목소리를 그대로 재현하는 것이 가능해졌습니다. 즉각적인 행동(송금, 개인정보 제공)을 압박하는 구조와 맞물리면 피해자가 판단할 시간적 여유가 사라집니다.

한국 보이스피싱에 AI가 결합되면

한국 독자에게 이 이야기는 먼 나라의 일이 아닙니다. 한국은 이미 세계적으로 보이스피싱 피해가 심각한 국가입니다. 여기에 AI 음성 합성 기술이 결합되면 어떤 일이 벌어질까요?

숭실대학교 정수환 교수는 이 문제를 직접적으로 경고합니다.

"AI를 활용한 보이스피싱 위험이 많이 증가했지만, 변조 음성 탐지 기술은 거의 없는 상황이다. 한국어 딥페이크 음성 탐지 연구가 필요하다."

한국 통신사들은 이미 대응에 나서고 있습니다. KT 는 AI 보이스피싱 탐지 정확도를 2025년 1분기 90.3%에서 4분기 97.2% 까지 끌어올렸습니다. LG유플러스 는 2025년 6월 세계 최초로 '안티딥보이스' 서비스를 상용화했습니다. 'ixi-O' 앱을 통해 AI 위변조 음성 판별과 범죄자 목소리 탐지를 동시에 제공합니다.

통신사	서비스	탐지 정확도	주요 기능
KT	AI 보이스피싱 탐지	97.2%(2025 Q4)	2025 Q1 90.3% → Q4 97.2%로 지속 개선
LG유플러스	안티딥보이스 (ixi-O 앱)	세계 최초 상용화	AI 위변조 음성 판별 + 범죄자 목소리 탐지 동시 제공 (2025년 6월)

정부 차원에서도 움직임이 있습니다. 'AI 기반 보이스피싱 통신서비스 공동 대응 플랫폼' 구축 사업이 2026~2027년 추진됩니다. 경찰청, 한국인터넷진흥원 등이 참여하여 실시간 데이터 공유 체계를 구축하는 것이 목표입니다.

하지만 문제는 속도입니다. 공격 기술의 발전 속도가 방어 체계 구축 속도를 앞서고 있습니다. 오픈소스 음성 합성 모델이 공개되고, 한국어 데이터셋이 확보되는 순간, 한국 보이스피싱은 질적으로 완전히 다른 단계에 진입하게 됩니다. 기존에는 콜센터 조직원이 직접 목소리를 연기했지만, AI가 그 역할을 대체하면 한 명의 공격자가 수천 건의 맞춤형 사기 전화 를 동시에 돌릴 수 있습니다.

AI로 공격하고, AI로 방어하는 군비경쟁

공격과 방어 양쪽 모두 AI를 무기로 사용하는 군비경쟁이 본격화되었습니다. 현재 가장 주목받는 탐지 솔루션들을 살펴보겠습니다.

Pindrop Pulse 는 현재 가장 높은 정확도를 자랑합니다. 단 2초의 오디오로 실시간 합성 음성 탐지가 가능하며, 정확도 99.2% 를 달성했습니다. 콜센터 특화 솔루션으로 시작했으며, 2026년에는 헬스케어 분야로 확장을 발표했습니다.

McAfee Deepfake Detector 는 개인용 시장에서 독특한 포지션을 잡고 있습니다. 온디바이스 로컬 처리 방식으로 프라이버시를 보호하면서 96% 정확도를 제공합니다. 3초 내에 판별이 완료됩니다.

Hiya 자체도 딥페이크 탐지 서비스를 운영합니다. 브라우저 확장 프로그램과 모바일 가드를 통해 인증 점수를 부여하는 방식이며, 연간 1,000억 건 의 통화를 분석하는 네트워크 레벨 차단 역량을 보유하고 있습니다.

솔루션	정확도	탐지 방식	주요 대상	특징
Pindrop Pulse	99.2%	음향 지문 분석 (2초)	B2B 콜센터	2026년 헬스케어 확장 발표
McAfee Deepfake Detector	96%	온디바이스 로컬 처리 (3초)	개인 소비자	프라이버시 보호, 서버 전송 없음
Hiya	네트워크 레벨	1,000억 건/년 통화 분석	통신사·개인	브라우저 확장 + 모바일 가드, 인증 점수 부여
Truecaller	제한적	커뮤니티 기반 신고	개인 소비자	5.7억 전화번호 DB, 딥페이크 탐지는 제한적

하지만 99.2%라는 숫자가 안심할 수준일까요? 미국에서 연간 발생하는 불필요 통화가 1인당 500건 이상이라는 점을 생각하면, 0.8%의 오탐율도 상당한 수의 사기 전화가 필터를 통과할 수 있음을 의미합니다. 그리고 공격 측의 기술도 계속 진화합니다. 음향 지문(acoustic fingerprinting) 분석을 우회하는 새로운 합성 기법이 등장하면, 탐지 모델도 업데이트해야 합니다. 이것이 바로 "AI vs AI 군비경쟁"의 본질입니다.

규제의 바퀴가 돌아가기 시작했다

소비자의 72%가 정부의 딥페이크 규제 강화를 지지합니다. 그리고 실제로 법제도가 움직이기 시작했습니다.

미국, DEFIANCE Act

2026년 1월 미국 상원에서 DEFIANCE Act 가 만장일치로 통과되었습니다. 이 법안은 딥페이크 피해자가 최소 $150,000 의 손해배상을 청구할 수 있는 근거를 마련합니다. 초점은 성적 딥페이크에 맞춰져 있지만, 전반적인 딥페이크 규제 논의의 물꼬를 튼 것으로 평가됩니다. Grok이 생성한 딥페이크 스캔들이 입법을 촉진하는 직접적 계기가 되었으며, 현재 하원 통과를 대기 중입니다.

영국과 EU, 피해자 환급 의무화

영국과 EU는 인가된 푸시 결제(APP) 사기 규제에서 선도적 위치에 있습니다. 핵심은 은행에 딥페이크를 포함한 사칭 사기 피해자에 대한 환급 의무 를 부과한다는 점입니다. 책임을 피해자가 아닌 금융기관에 돌리는 이 접근법은 미국에서도 참고 대상이 되고 있습니다.

한국, 공동 대응 플랫폼 구축

한국은 2026~2027년에 걸쳐 AI 기반 보이스피싱 공동 대응 플랫폼을 구축하는 사업을 추진 중입니다. 통신사별 AI 탐지 서비스 상용화와 함께, 정부-통신사-보안기관 간 실시간 데이터 공유 체계를 만드는 것이 골자입니다.

규제의 방향은 명확합니다. 책임의 무게추가 피해자에서 서비스 제공자(통신사, 금융기관)로 이동 하고 있습니다. Hiya 보고서에서 미국 응답자의 67%가 통신사의 손실 책임을 요구하고, 55%가 제로 라이어빌리티 보호를 원한다는 것은 이 방향이 소비자의 기대와도 일치한다는 뜻입니다.

커뮤니티가 말하는 진짜 우려

이 이슈에 대한 기술 커뮤니티의 반응은 크게 네 가지로 수렴합니다.

첫째, "음성 인증의 종말" 입니다. 은행과 고객센터에서 사용하는 음성 기반 본인 인증 시스템의 신뢰성에 대한 근본적 의문이 제기되고 있습니다. "목소리로 본인 확인"이라는 가정 자체가 더 이상 성립하지 않는다는 것입니다.

둘째, 오픈소스 TTS의 양날의 검 에 대한 논쟁입니다. Qwen3-TTS 같은 고성능 오픈소스 음성 합성 모델의 공개가 기술 발전에 기여하는 동시에 범죄 악용의 문을 활짝 열었습니다. 기술의 공개성과 안전성 사이의 긴장이 그 어느 때보다 심화되고 있습니다.

셋째, 통신사 책임론 의 대두입니다. 67%가 통신사의 손실 책임을 인정해야 한다고 답한 것은 단순한 여론 이상의 의미를 가집니다. 신용카드 사기에서 카드사가 책임을 지듯, 전화 사기에서도 통신사가 유사한 수준의 보호를 제공해야 한다는 논리입니다.

넷째, "86% 무응답"의 역설 입니다. 사기 방지를 위해 모르는 번호의 전화를 받지 않는 것이 정상화되면서, 음성 통신 자체의 유용성이 훼손되는 악순환이 발생하고 있습니다. 병원의 검사 결과 통보, 배달 기사의 연락, 긴급 연락 등 정당한 전화까지 무시되는 상황입니다. 사기꾼이 전화라는 통신 채널 자체를 오염시키고 있는 것입니다.

"목소리 = 신뢰"의 시대가 끝나고 있다

이 보고서가 가리키는 방향은 분명합니다.

음성 인증 체계의 전면 재편이 불가피합니다. "목소리 = 본인"이라는 가정이 무너지면서, 다중 인증(MFA), 생체 다중 모달, 행동 기반 인증으로의 전환이 가속화될 것입니다. 가족 간에도 사전에 약속한 "안전 단어(safe word)"를 설정하라는 FBI의 권고가 이미 나온 상태입니다.

통신사에게 AI 사기 방어는 더 이상 부가서비스가 아닙니다. 38%의 이탈 의향은 이것이 핵심 경쟁력의 문제임을 보여줍니다. KT와 LG유플러스가 선제적으로 움직이는 이유이기도 합니다.

규제 강화는 피할 수 없는 흐름입니다. DEFIANCE Act를 시작으로 음성 딥페이크 전반에 대한 규제가 확대될 것입니다. 영국과 EU의 피해자 환급 의무화 모델이 다른 국가에도 확산될 가능성이 높습니다.

그리고 가장 중요한 전망은 AI vs AI 군비경쟁의 격화 입니다. 공격(3초 음성 클로닝)과 방어(Pindrop 99.2% 탐지) 모두 AI 기반으로 발전하고 있습니다. 이 경쟁에서 방어 측이 한발이라도 뒤처지면, Hiya 보고서가 보여준 25%라는 수치는 시작에 불과할 수 있습니다.

한국의 상황은 더 긴박합니다. 이미 세계적으로 심각한 보이스피싱에 AI 음성 합성이 본격 결합되면, 피해 규모와 정교함이 급증할 수 있습니다. 2026~2027년 정부 플랫폼 구축이 제때 완료되는 것이 결정적으로 중요한 시점입니다.

Hiya State of the Call 2026 보고서 랜딩페이지

우리는 전화벨이 울릴 때 "누구지?"가 아니라 "사람인가, AI인가?" 를 먼저 떠올리는 시대에 진입하고 있습니다. Hiya의 보고서가 제시하는 숫자들은 이것이 먼 미래가 아니라 이미 현재라는 사실을 증명합니다.