Claude Opus 4.6, BridgeBench 환각(Hallucination) 테스트에서 정확도 83% → 68%로 하락

Claude Opus 4.6이 BridgeBench 환각 벤치마크에서 정확도를 15%p 하락시키면서 실제 성능 저하인지 노이즈인지를 놓고 커뮤니티 논쟁을 촉발했다.

Anthropic Claude API를 프로덕션에 사용 중이고 모델 품질 변화에 민감한 백엔드/AI 개발자, 또는 LLM 벤치마크 신뢰성에 관심 있는 개발자.

BridgeBench는 LLM의 환각(모델이 사실이 아닌 내용을 사실처럼 생성하는 현상) 수준을 측정하는 벤치마크로, Claude Opus 4.6를 대상으로 테스트한 결과 정확도가 83%에서 68%로 약 15%p 하락했다고 보고됐다.
이 결과를 발표한 것은 BridgeMind AI 팀(@bridgemindai)으로, X(구 Twitter)에 공개했지만 원문 트윗 자체는 JavaScript 없이 접근이 불가해 세부 내용 확인이 어렵다.
15%p라는 수치 자체는 단순 노이즈로 보기엔 꽤 큰 차이다. 벤치마크 설계상 여러 반복(iteration)에 걸쳐 테스트하도록 만들어졌다면, 이 정도 격차는 무시하기 어렵다는 시각이 있다.
반면 몇 가지 방법론적 의문도 제기됐다. 공개된 정보에 샘플 사이즈나 반복 실행 횟수가 명시되지 않아, 단 1회 실행 결과일 가능성이 있다는 지적이 나왔다.
LLM은 기본적으로 비결정론적(같은 입력에도 매번 다른 출력이 나올 수 있음)이기 때문에, 단일 실행 결과만으로는 모델 성능이 실제로 저하됐다고 단정하기 어렵다는 반론도 있다.

샘플 사이즈와 실행 횟수가 공개되지 않았다는 점을 지적하는 댓글이 있었다. '아마 전체 테스트 스위트를 1회만 실행한 것 같다'며, 비결정론적 모델 특성상 실행마다 결과가 달라질 수 있으므로 이것이 실제 성능 저하의 증거라고 보기 어렵다는 의견이었다.
반대 입장의 댓글에서는 '15%는 엄청난 격차'라고 반박했다. 벤치마크가 여러 반복에 걸쳐 철저히 테스트하도록 설계됐다면 이 정도 차이는 유의미하다는 주장이며, Anthropic이 최상위 모델 접근을 제한하고 있다는 불만도 함께 표출됐다.
일부 유저는 'Anthropic이 사용하는 실제 최고 모델에 제한 없이 접근하고 싶다, 비용이 더 들더라도'라는 감정적 불만을 토로했다. 이는 모델 성능 저하에 대한 커뮤니티의 오랜 불신을 반영한다.
논의와 무관하게 '계산 기호론(Computational Semiotics)이 실증적으로 증명됐다'며 자신의 Substack 글을 홍보하는 스팸성 댓글도 달렸다.

Claude API를 프로덕션에서 사용 중이라면, 모델 업데이트 전후로 자체 테스트셋을 구축해 정기적으로 회귀 테스트를 돌리는 것이 좋다. 외부 벤치마크 결과에만 의존하면 실제 서비스에 맞는 성능 변화를 놓칠 수 있다.
벤치마크 결과를 해석할 때는 샘플 사이즈, 반복 실행 횟수, temperature 설정 등 방법론적 세부사항을 반드시 확인하라. 이번 사례처럼 메타데이터가 불명확하면 결과의 신뢰성 자체를 판단하기 어렵다.
LLM의 비결정성을 고려해 중요한 평가는 최소 수십~수백 회 반복 실행 후 평균값을 사용하라. 단일 실행 결과로 모델 간 혹은 버전 간 성능을 비교하면 잘못된 결론을 내릴 수 있다.

HallucinationLLM이 사실이 아닌 내용을 마치 사실인 것처럼 자신 있게 생성하는 현상. 예를 들어 존재하지 않는 논문 제목을 지어내는 경우.

BridgeBenchLLM의 환각 수준을 측정하기 위해 설계된 벤치마크 테스트 스위트. BridgeMind AI가 운영한다.

비결정론적(Nondeterministic)같은 입력을 줘도 매번 다른 출력이 나올 수 있는 특성. LLM은 temperature 파라미터 등으로 인해 기본적으로 비결정론적이다.

Benchmark모델 성능을 표준화된 방식으로 측정하고 비교하기 위한 테스트 집합. 시험 문제지 같은 역할을 한다.

Regression Test소프트웨어나 모델 업데이트 후 기존에 잘 동작하던 기능이 여전히 잘 동작하는지 확인하는 테스트.