arXiv 1년 차단, AI 인용 환각의 신뢰 비용
arXiv의 AI 생성 논문 단속은 LLM 사용 금지가 아니라, 환각 인용이 연구 인프라의 신뢰와 검증 비용을 흔드는 사건입니다.
- 무슨 일: arXiv가
AI 생성 원고와 환각 인용 문제를 더 강하게 다루는 흐름이 보도됐습니다.- 공식 정책은 기만적·자동 생성 제출을 문제 삼고, 집행 문서는 경고·제출 제한·계정 정지 같은 조치를 설명합니다.
- 핵심 쟁점: 금지 대상은 LLM 사용 자체보다 검증되지 않은 허위 참고문헌이 연구 기록에 들어가는 문제입니다.
- 왜 중요: 논문 인용은 링크 장식이 아니라 학술 검색, 리뷰, 후속 연구의 신뢰 인프라입니다.
- 실무 교훈: AI 제품팀도 생성물보다
출처 검증, 로그, 책임 경계를 먼저 설계해야 합니다.
arXiv가 AI 생성 논문과 환각 인용 문제를 더 강하게 다루기 시작했다는 보도가 나왔습니다. TechCrunch와 Ars Technica는 arXiv가 존재하지 않는 논문, 틀린 저자명, 꾸며낸 참고문헌이 들어간 AI 생성 원고를 제출하는 작성자에게 최대 1년의 제출 제한을 적용할 수 있다고 전했습니다. 이 뉴스는 얼핏 "arXiv가 AI 논문을 막는다"는 이야기처럼 보일 수 있습니다. 하지만 개발자와 AI 제품팀이 봐야 할 핵심은 조금 다릅니다. 문제는 AI 사용 여부가 아니라, 검증되지 않은 생성물이 연구 인프라 안으로 들어갈 때 생기는 신뢰 비용입니다.
논문에서 참고문헌은 장식이 아닙니다. 어떤 주장 위에 서 있는지, 기존 연구와 무엇이 다른지, 독자가 어디서 검증을 시작해야 하는지를 알려주는 주소 체계입니다. LLM이 그럴듯한 제목과 저자와 학회명을 만들어내면, 읽는 사람은 첫눈에 오류를 알아차리기 어렵습니다. 특히 분야가 넓거나 신생 주제라면 더 그렇습니다. 잘못된 인용 하나는 단순한 오타로 끝나지 않습니다. 리뷰어가 존재하지 않는 논문을 찾느라 시간을 쓰고, 연구자가 잘못된 계보를 따라가며, 검색 엔진과 인용 데이터베이스가 노이즈를 흡수합니다.
그래서 이번 arXiv 논쟁은 AI 시대의 콘텐츠 품질 문제가 학술 인프라에서 어떻게 나타나는지를 보여주는 사례입니다. 블로그나 소셜 미디어에서 환각 링크가 하나 생기는 것과, 프리프린트 서버의 참고문헌에 환각 논문이 들어가는 것은 무게가 다릅니다. 후자는 다른 논문, 리뷰, 검색, 자동 요약, 연구 보조 도구의 입력이 됩니다. AI가 만든 오류가 다시 AI의 학습·검색·요약 재료로 들어가면, 오류는 단발성 실수가 아니라 지식 공급망의 오염으로 바뀝니다.
arXiv가 실제로 문제 삼는 것
arXiv의 공식 행동강령은 연구자 커뮤니티를 위한 기본 규칙을 설명합니다. 여기에는 허위 신원, 기만적 행위, 부정확하거나 오해를 일으키는 콘텐츠, 자동화된 악용성 제출 같은 문제가 포함됩니다. 행동강령 집행 문서는 위반 상황에 따라 경고, 제출 제한, 계정 정지 같은 조치를 적용할 수 있다고 설명합니다. 즉 arXiv의 출발점은 "LLM을 썼는가"가 아니라 "최종 제출물이 커뮤니티의 신뢰 기준을 지키는가"입니다.
이 구분은 중요합니다. 현실적으로 연구자는 이미 LLM을 다양하게 씁니다. 문장을 다듬고, 초록을 줄이고, 코드 실험을 보조하고, 관련 논문 후보를 훑고, 리뷰 답변 초안을 만드는 일은 흔해졌습니다. 이 모든 사용을 일괄 금지하는 것은 실무와 맞지 않습니다. 반대로 "AI가 만들었으니 어쩔 수 없다"는 태도도 성립하지 않습니다. 제출자는 최종 원고의 저자이고, 인용과 주장과 데이터의 책임은 도구가 아니라 저자에게 남습니다.
문제가 되는 지점은 검증 책임이 흐려지는 순간입니다. LLM이 제안한 참고문헌을 그대로 붙여 넣고, DOI와 저자명을 확인하지 않고, 존재 여부를 Crossref나 arXiv 검색으로 검증하지 않은 채 제출한다면, 그 원고는 사람 손을 거쳤더라도 자동 생성물의 위험을 그대로 품습니다. arXiv가 단속하는 것은 AI라는 도구보다 이 책임 회피에 가깝습니다.
1억 참고문헌 감사가 던진 불편한 질문
이번 논쟁이 커진 배경에는 2026년 5월 8일 arXiv에 올라온 논문 LLM hallucinations in the wild: Large-scale evidence from non-existent citations가 있습니다. 연구팀은 arXiv, bioRxiv, SSRN, PubMed Central에 올라온 250만 편 논문과 1억 1,100만 개 참고문헌을 분석했습니다. 그리고 LLM이 널리 쓰이기 시작한 뒤 존재하지 않는 참고문헌이 뚜렷하게 늘었으며, 2025년에만 보수적으로 146,932건의 환각 인용이 있었다고 추정했습니다. 이 논문은 단순히 몇몇 엉성한 원고를 모은 일화가 아닙니다. 더 중요한 질문은 연구 워크플로에서 LLM이 어떤 종류의 검증 비용을 새로 만들었느냐입니다.
LLM은 유창한 연구 문장을 빠르게 냅니다. 관련 연구, 방법론, 선행 연구 요약, 참고문헌 목록처럼 보이는 출력도 만들 수 있습니다. 문제는 이 유창함이 correctness를 보장하지 않는다는 점입니다. 실제로 존재하는 논문인지, 제목과 저자와 연도가 맞는지, 인용한 주장이 원문에 있는지는 별도 검증이 필요합니다. LLM 출력이 좋을수록 검증자는 더 조심해야 합니다. 허술한 문장은 쉽게 의심하지만, 잘 쓴 문장은 검증 비용을 뒤로 밀어놓기 때문입니다.
이것은 AI 연구 보조 도구의 역설입니다. LLM은 초안 작성 시간을 줄일 수 있지만, 그 초안이 외부 신뢰 시스템으로 들어가려면 검증 시간이 필요합니다. 참고문헌이 틀리면 문장 품질은 의미가 없습니다. 선행 연구가 틀리면 novelty 주장도 무너집니다. 결국 AI가 줄인 작성 비용이 다른 곳에서 검증 비용으로 되돌아오는 구조입니다.
환각 인용은 왜 일반 오류보다 위험한가
환각 인용은 보통의 사실 오류보다 더 까다롭습니다. 첫째, 겉모양이 그럴듯합니다. 제목 형식, 저자명, 학회명, 연도, DOI 패턴을 흉내 낼 수 있습니다. 둘째, 발견 비용이 높습니다. 존재하지 않는 논문을 확인하려면 검색을 여러 번 해야 하고, 비슷한 제목이나 같은 저자의 실제 논문과 혼동될 수 있습니다. 셋째, 자동화된 도구가 오류를 증폭할 수 있습니다. 문헌 검색 도구, 요약 봇, 리뷰 보조 에이전트가 잘못된 인용을 다시 읽고 요약하면 오류는 더 자연스러워집니다.
개발자 관점에서는 이것이 데이터 검증 문제와 닮아 있습니다. 타입 체크가 되었다고 데이터가 참인 것은 아닙니다. JSON 스키마에 맞는다고 출처가 존재하는 것도 아닙니다. LLM이 만든 참고문헌은 형식적으로는 BibTeX처럼 보일 수 있지만, 의미적으로는 검증되지 않은 외부 키입니다. 소프트웨어에서 외부 키를 검증하지 않으면 깨진 참조가 생기듯, 연구 원고에서 인용을 검증하지 않으면 깨진 지식 그래프가 생깁니다.
더 큰 문제는 책임 경계입니다. 사람이 직접 쓴 논문에서도 인용 오류는 있을 수 있습니다. 그러나 LLM은 오류를 대량으로, 빠르게, 자신감 있는 문체로 만들 수 있습니다. 한 편의 논문에 몇 개의 환각 인용이 들어가는 것을 넘어, 자동 생성된 원고가 여러 편 제출되면 플랫폼 전체의 심사 비용이 올라갑니다. arXiv 같은 프리프린트 서버는 저널 심사보다 빠른 게시를 전제로 움직입니다. 그 장점은 제출자의 기본 신뢰와 커뮤니티 검증이 작동할 때 유지됩니다.
"AI 금지"가 아니라 "무검증 금지"에 가깝다
이번 사건을 AI 도구 금지로 읽으면 중요한 지점을 놓칩니다. arXiv가 실제로 지켜야 하는 것은 연구자가 어떤 편집기를 썼는지가 아니라, 서버에 올라온 결과물이 연구 기록으로 신뢰될 수 있는지입니다. LLM으로 문장을 다듬었더라도 인용과 데이터와 주장을 검증했다면 문제의 성격은 다릅니다. 반대로 사람이 직접 타이핑했더라도 존재하지 않는 논문을 인용하면 문제입니다.
이 구분은 기업 AI 제품에도 그대로 적용됩니다. 고객지원 에이전트가 답변을 생성했는지 사람이 작성했는지는 내부 사정일 수 있습니다. 하지만 존재하지 않는 정책을 인용하거나, 틀린 환불 규정을 말하거나, 실제로 없는 법 조항을 안내하면 책임은 서비스 제공자에게 옵니다. AI 사용 여부는 면책 사유가 아니라 운영 설계의 일부입니다.
| 구분 | 허용 가능한 AI 보조 | 위험한 제출 패턴 |
|---|---|---|
| 문장 | 저자가 의미와 근거를 확인한 문체 개선 | 출처 없는 단정과 과장된 novelty 주장 |
| 인용 | DOI, arXiv ID, 저자명, 제목을 별도 검증 | LLM이 만든 참고문헌을 그대로 붙여 넣기 |
| 책임 | 최종 원고 책임을 저자와 제출자가 보유 | "AI가 만든 것"이라는 이유로 검증 생략 |
따라서 더 정확한 표현은 "AI 금지"가 아니라 "무검증 금지"입니다. 물론 플랫폼은 AI 생성물의 패턴을 탐지하고 제출 제한을 걸 수 있습니다. 하지만 장기적으로 필요한 것은 AI 탐지기 하나가 아닙니다. 제출 워크플로가 DOI와 arXiv ID를 자동 확인하고, 참고문헌의 존재 여부를 표시하고, 반복 위반 제출자를 추적하고, 수정 이력을 남기는 구조가 필요합니다. 연구자 개인의 주의만으로 감당하기에는 생성 속도가 너무 빠릅니다.
학술 인프라는 AI 제품의 미래를 미리 보여준다
arXiv의 고민은 학술계만의 문제가 아닙니다. AI 제품이 외부 지식과 연결될수록 같은 문제가 반복됩니다. 법률 AI는 판례와 조항을, 의료 AI는 논문과 가이드라인을, 금융 AI는 규정과 계약서를, 개발자 도구는 API 문서와 이슈 링크를 인용합니다. 이때 인용이 틀리면 답변 품질 문제가 아니라 운영 리스크가 됩니다.
개발팀이 여기서 얻을 수 있는 첫 번째 교훈은 출처를 데이터 모델의 1급 객체로 다뤄야 한다는 점입니다. "답변 문자열"만 저장하지 말고, 어떤 문서 ID와 어떤 버전과 어떤 검색 결과에서 나왔는지를 함께 저장해야 합니다. 두 번째는 생성 단계와 검증 단계를 분리해야 한다는 점입니다. 같은 모델이 만든 인용을 같은 모델이 "맞다"고 확인하는 방식은 충분하지 않습니다. 가능하면 원본 데이터베이스, DOI API, 문서 저장소, 코드 저장소 같은 구조화된 근거와 대조해야 합니다.
세 번째는 실패를 사용자 경험 안에 넣는 것입니다. 모델이 확실하지 않으면 출처를 꾸며내는 대신 "확인하지 못했다"고 말해야 합니다. 이는 제품적으로 매력 없어 보일 수 있지만, 신뢰가 중요한 분야에서는 필수입니다. 연구자에게 존재하지 않는 논문을 자신 있게 보여주는 시스템보다, 찾지 못한 사실을 명확히 말하는 시스템이 더 유용합니다.
커뮤니티의 반응은 단순하지 않다
커뮤니티 반응은 대체로 arXiv의 단속 필요성을 인정하면서도, 경계선을 어떻게 그을지에 집중합니다. 환각 인용을 반복적으로 제출하는 행위는 명확히 문제라는 데 큰 이견이 없습니다. 특히 리뷰어와 분야 전문가의 시간을 낭비시키고, 신뢰 기반 프리프린트 시스템의 비용을 높인다는 비판이 강합니다.
반면 AI 사용을 숨기거나 금지하는 방식만으로 해결되지 않는다는 지적도 많습니다. 이미 연구 워크플로는 검색 엔진, 문법 교정기, 코드 생성기, 요약 도구, 참고문헌 관리 도구가 뒤섞여 있습니다. 어디까지가 AI 보조이고 어디서부터 자동 생성 원고인지 선명하게 나누기 어렵습니다. 따라서 실제 운영에서는 결과물 검증, 반복 위반 패턴, 제출자의 수정 대응, 인용 정확성 같은 행동 기반 기준이 더 중요해질 가능성이 큽니다.
이 논쟁은 개발자 커뮤니티의 AI 코드 리뷰 논쟁과도 닮았습니다. AI가 코드를 썼다는 사실만으로 코드를 거부할 수는 없습니다. 그러나 테스트가 없고, 의존성을 이해하지 못하고, 존재하지 않는 API를 호출하고, 보안 경계를 깨뜨리는 코드는 거부해야 합니다. 논문도 마찬가지입니다. AI가 문장을 도왔다는 사실보다, 검증되지 않은 주장과 환각 인용이 들어갔는지가 핵심입니다.
앞으로 필요한 것은 인용 CI다
소프트웨어 개발에서는 빌드, 테스트, 린트, 타입 체크, 보안 스캔을 CI에 넣습니다. 논문 작성과 제출도 비슷한 방향으로 갈 가능성이 큽니다. 참고문헌에 arXiv ID가 있으면 실제 존재하는지 확인하고, DOI가 있으면 Crossref와 대조하고, 제목과 저자명이 메타데이터와 맞는지 검사하고, 인용된 논문이 철회되었는지 표시하는 식입니다. 사람 리뷰어가 학문적 판단에 집중하려면 기계적으로 검증할 수 있는 깨진 참조는 제출 전에 걸러야 합니다.
AI 연구 보조 도구도 이 방향으로 진화해야 합니다. 좋은 연구 보조 LLM은 더 많은 문단을 쓰는 도구가 아니라, "이 인용은 확인됨", "이 논문은 제목이 비슷하지만 다른 저자", "이 주장은 원문에서 찾지 못함"처럼 검증 상태를 드러내는 도구가 되어야 합니다. 생성형 인터페이스의 다음 경쟁력은 글을 예쁘게 만드는 능력이 아니라, 출처와 책임을 추적하는 능력일 수 있습니다.
arXiv의 단속 강화는 그래서 작은 운영 정책 변경이 아닙니다. AI가 지식 생산의 앞단에 들어왔을 때, 신뢰 인프라가 어떤 압력을 받는지 보여주는 신호입니다. 모델은 더 빠르게 글을 만들고, 더 자연스럽게 인용을 흉내 내고, 더 많은 연구 아이디어를 제안할 것입니다. 하지만 연구 커뮤니티가 실제로 필요로 하는 것은 더 많은 그럴듯함이 아니라 더 검증 가능한 지식입니다.
마지막으로 이 사건은 AI 제품팀에게도 명확한 질문을 던집니다. 여러분의 시스템은 존재하지 않는 출처를 만들 수 있습니까. 만들었다면 누가, 어디서, 언제 잡아냅니까. 사용자가 그 답변을 신뢰 시스템 안으로 가져가기 전에 어떤 경고와 검증 경로가 있습니까. arXiv가 지금 치르는 비용은 다른 모든 지식형 AI 서비스가 곧 마주할 비용입니다. AI가 글을 쓰는 시대의 병목은 생성이 아니라, 그 생성물을 믿어도 되는지 증명하는 일입니다.