GPTZero, NeurIPS 2025 채택 논문에서 100건의 hallucinated citation 발견
GPTZero finds 100 new hallucinations in NeurIPS 2025 accepted papers
TL;DR Highlight
AI 탐지 도구 GPTZero가 NeurIPS 2025 채택 4841편의 논문 중 53편에서 100건 이상의 hallucinated citation을 적발해 LLM 시대 학술 피어리뷰 시스템의 한계와 학술 무결성 위기를 드러냈다.
Who Should Read
학술 논문을 쓰거나 리뷰하는 ML/AI 연구자, 또는 LLM을 문서 작성에 활용하면서 인용 정확성이 중요한 개발자나 테크니컬 라이터.
Core Mechanics
- GPTZero가 NeurIPS 2025에 채택된 4841편을 자동 스캔한 결과, 53편의 논문에서 총 100건 이상의 hallucinated citation(존재하지 않는 논문을 인용하거나, 저자명·제목·DOI가 완전히 조작된 인용)을 발견했다.
- 일부 논문에는 'John Doe', 'Jane Smith' 같은 명백히 가짜인 저자명이 들어간 인용이 있었는데, 3명 이상의 리뷰어가 검토했음에도 걸러지지 않았다. arXiv ID가 전혀 다른 논문을 가리키거나, DOI와 URL 자체가 존재하지 않는 경우도 있었다.
- NeurIPS 2025의 채택률은 24.52%로, 이 논문들은 약 15,000편의 경쟁 논문을 이기고 채택된 것이다. NeurIPS 정책상 hallucinated citation은 논문 거절 또는 철회 사유에 해당한다.
- 2020년부터 2025년 사이 NeurIPS 제출 건수가 9,467건에서 21,575건으로 220% 이상 급증했다. 생성형 AI, 논문 공장(paper mill), 출판 압박이 리뷰 파이프라인에 과부하를 걸고 있다.
- GPTZero는 이전에 ICLR 2026 리뷰 중인 논문에서도 50건의 hallucinated citation을 발견한 바 있어, 이 문제가 특정 학회에 국한되지 않는 구조적 문제임을 시사한다.
- NeurIPS 운영진은 Fortune 인터뷰에서 '잘못된 참고문헌이 1.1%의 논문에 있더라도 논문 내용 자체가 무효화되는 것은 아니다'라며, 저자가 LLM에 부분적 설명을 주고 BibTeX를 생성하게 한 경우일 수 있다고 해명했다.
- GPTZero의 스캔은 hallucinated citation 외에도 AI 생성 텍스트 여부를 함께 판별했으며, 일부 논문은 'AI와 인간 텍스트 혼합(*)', 일부는 'AI 생성 가능성 높음(**)'으로 분류됐다.
Evidence
- Google 소속 동료의 논문을 직접 확인해본 HN 유저에 따르면, 해당 논문의 '문제'는 인용에서 저자 2명이 빠지고 1명이 잘못 추가된 것 + 학회명이 틀린 정도였다. 논문의 핵심 타당성과는 무관한 사소한 오류였고, DOI 체커만 돌렸어도 바로 잡힐 수준이었다. 이런 '단일 오류' 수준 논문까지 포함해 숫자를 부풀린 것은 GPTZero의 제품 홍보 목적이 아닌가라는 의견이 있었다.
- GPTZero의 접근을 '비윤리적 공개 망신주기'로 보는 강한 반론도 있었다. 사전 통보 없이 저자와 논문을 공개하는 것은 학술 교정 절차가 아니며, 단순한 BibTeX 오류를 'AI 조작'으로 라벨링하는 것은 명예훼손에 가깝고, '우리 도구를 안 쓰면 다음엔 당신이 명단에 오를 수 있다'는 보호금 갈취 느낌이라는 비판이었다.
- 숫자 자체의 비율적 의미를 지적하는 의견도 많았다. 전체 인용 대비 0.07% 수준의 문제를 '100건 hallucination'이라고 헤드라인을 뽑는 것은 미디어의 수치 문맹을 이용한 것이며, 사전 LLM 시대 baseline과의 비교 없이는 의미 있는 주장이 되기 어렵다는 분석이었다.
- WACV 2024에 논문을 낸 연구자가 리뷰 자체가 AI로 생성된 경험을 공유했다. 한 리뷰어가 요약/강점/약점/종합 각 텍스트박스에 서로 다른 완전한 리뷰 4개를 붙여넣었고, '합성 데이터의 혁신적 활용'을 강점으로, '합성 데이터 의존'을 약점으로 동시에 적으면서 weak reject을 줬다고 한다.
- PhD 학생에게 NeurIPS 1저자 논문의 경제적 가치가 최소 수만 달러에 달한다는 분석이 있었다. 빅테크 인턴 채용의 사실상 필수 조건이고, 인턴십 보상이 PhD 연봉의 2~3배이므로 부정행위의 인센티브가 매우 크다는 것이다. 부정행위가 커리어 종료급 처벌로 이어져야 한다는 의견도 함께 나왔다.
How to Apply
- 논문이나 기술 문서 작성 시 LLM으로 BibTeX를 생성했다면, 반드시 DOI/URL을 실제로 클릭해서 저자명·제목·학회명이 맞는지 수동 검증하라. Semantic Scholar API나 CrossRef API로 자동화할 수도 있다.
- LLM에게 '이 주제와 관련된 논문 5개를 찾아줘'라고 요청하면 실존 논문 1개 + 날조 4개를 돌려주는 경우가 흔하다. 인용 생성에는 LLM을 쓰지 말고, Google Scholar나 Semantic Scholar에서 직접 검색 후 BibTeX를 export하는 워크플로를 유지하라.
- 사내 기술 블로그나 문서에서 외부 소스를 인용할 때도 같은 문제가 발생할 수 있다. CI/CD에 링크 체커(예: lychee, markdown-link-check)를 추가해 참조 URL의 존재 여부를 자동 검증하는 것이 좋다.
- 학회 논문 리뷰에 참여한다면, 참고문헌 섹션에서 무작위로 3~5개 인용을 골라 실제 존재 여부를 확인하는 습관을 들이면 hallucinated citation을 빠르게 잡아낼 수 있다.
Code Example
# Semantic Scholar API로 논문 존재 여부 검증 예시
import requests
def verify_citation(title: str) -> bool:
url = "https://api.semanticscholar.org/graph/v1/paper/search"
resp = requests.get(url, params={"query": title, "limit": 1})
data = resp.json()
return data.get("total", 0) > 0
# 사용
print(verify_citation("Attention Is All You Need")) # True
print(verify_citation("Fake Paper by John Doe 2024")) # FalseTerminology
관련 논문
MemTrace: LLM Memory System의 오류를 추적하고 원인을 찾아내는 프레임워크
RAG, Mem0 같은 LLM 메모리 시스템이 왜 틀린 답을 내는지 자동으로 찾아주는 디버깅 프레임워크
DeepSWE: 오염 없는 장기 코딩 에이전트 벤치마크
기존 SWE-bench의 데이터 오염 및 검증 오류 문제를 해결하기 위해 처음부터 새로 만든 코딩 에이전트 벤치마크로, GPT-5.5가 70%로 1위를 차지하고 모델 간 성능 격차가 훨씬 뚜렷하게 드러난다.
Constraint Decay: LLM 에이전트가 백엔드 코드 생성에서 구조적 제약을 못 따라가는 이유
LLM 코딩 에이전트는 구조적 제약(아키텍처 패턴, ORM, DB 설계)이 쌓일수록 성능이 급격히 떨어지는 'constraint decay' 현상을 보인다는 연구 결과로, AI 코딩 도구를 프로덕션에 쓰려는 개발자라면 반드시 알아야 할 한계다.
AMEL: 대화 히스토리가 LLM 판단에 미치는 누적 편향 효과
LLM을 자동 평가자로 쓸 때 이전 대화 기록의 긍정/부정 분위기가 이후 판단을 오염시킨다는 걸 75,898개 API 호출로 증명한 연구.
Language Model의 Backdoor Trigger는 숨겨진 Latent 경로를 통해 전파된다
8B LLM에 심어진 백도어 트리거가 중간 레이어에서 언어 탐지기를 완전히 속이는 직교 부분공간(orthogonal subspace)으로 숨어 이동한다는 걸 회로 분석으로 밝혀냈다.
Formal Methods와 LLM의 만남: AI 시스템 규정 준수를 위한 감사, 모니터링, 개입
LLM이 규칙을 잘 지키고 있는지 감시하려면 LLM에게 맡기지 말고 LTL(시간 논리 공식) 기반 모니터를 쓰세요.
Bun의 Rust 재작성: "safe Rust에서 UB(Undefined Behavior)를 허용하는 코드베이스"