Model evaluation contamination

Model evaluation contamination은 AI 모델이 평가 문제를 “처음 보는 시험”으로 푸는 것이 아니라, 학습 과정에서 이미 비슷한 문제나 해설을 본 상태로 시험을 보는 위험을 말한다. 겉으로는 벤치마크 점수가 올라간 것처럼 보이지만, 실제 새로운 문제 해결 능력이 올라간 것인지 구분하기 어려워진다.

Claude Opus 4.5 시스템 카드에서 Anthropic이 substring removal, fuzzy decontamination, canary string filtering 같은 절차를 설명한 이유가 여기에 있다. Frontier model을 읽을 때는 점수표만 보지 말고, 그 점수가 얼마나 깨끗한 평가 환경에서 나온 것인지 함께 봐야 한다.

한 줄로 말하면

Model evaluation contamination은 평가에 쓰인 문제·정답·해설이 학습 데이터에 섞여 모델 점수가 실제 일반화 능력보다 좋아 보이는 현상이다.

비유로 이해하기

학생이 기말고사를 본다고 생각해보자. 시험장에서 처음 보는 문제를 풀었다면 점수는 실력에 가까울 수 있다. 그런데 시험 문제와 해설지가 이미 과외 자료에 들어 있었고, 학생이 그것을 반복해서 봤다면 높은 점수의 의미가 달라진다.

AI 모델 평가도 비슷하다. 벤치마크는 모델이 새로운 문제를 풀 수 있는지 확인하기 위한 시험지다. 하지만 인터넷에 공개된 문제, GitHub 예제, 논문 부록, 풀이 블로그, 이전 평가 코드가 학습 데이터에 들어가면 모델은 “새로운 문제를 푸는 능력”이 아니라 “어딘가에서 본 패턴을 다시 꺼내는 능력”으로 점수를 받을 수 있다.

비유의 한계도 있다. 사람은 문제를 외웠는지 대화로 어느 정도 확인할 수 있지만, LLM은 수조 개 token의 통계적 패턴을 학습한다. 그래서 오염 여부는 단순히 “정답을 외웠나”보다 더 복잡하다. 비슷한 문장, 변형 문제, 해설 조각, 코드 스니펫까지 영향을 줄 수 있다.

정확한 정의

Model evaluation contamination은 모델 학습 데이터나 후처리 데이터 안에 평가 benchmark와 겹치는 정보가 포함되어, 평가 결과가 모델의 실제 generalization 능력을 과대평가할 수 있는 상태다.

오염은 여러 형태로 나타난다.

형태	설명	왜 문제인가
Exact leakage	평가 문제·정답이 그대로 학습 데이터에 포함됨	점수가 사실상 암기 효과를 반영할 수 있음
Near-duplicate leakage	문장만 조금 바뀐 유사 문제가 포함됨	새로운 문제 해결인지 패턴 재현인지 구분이 어려움
Solution leakage	문제는 없지만 해설·풀이·코드가 포함됨	reasoning 능력보다 풀이 노출 효과가 커질 수 있음
Benchmark overfitting	모델 개발 과정에서 특정 benchmark에 계속 맞춰 조정됨	실제 업무 품질보다 leaderboard 최적화가 앞설 수 있음
Prompt / setting leakage	평가 조건이 제품 사용 조건과 다르게 최적화됨	실제 사용자 경험과 점수가 멀어질 수 있음

완전히 깨끗한 평가를 만드는 것은 어렵다. 그래서 중요한 것은 “오염이 전혀 없다”고 주장하는 것이 아니라, 어떤 제거 절차를 썼고, 어떤 한계가 남았고, 독립 평가에서 같은 결과가 반복되는지 확인하는 것이다.

왜 중요한가

1. Frontier model 점수 경쟁을 더 조심스럽게 읽게 한다

SWE-bench, GPQA, MMLU, AIME, OSWorld 같은 숫자는 모델 발표에서 강력한 신호처럼 보인다. 하지만 benchmark가 공개되어 오래 쓰일수록 학습 데이터와 평가 데이터의 경계는 흐려질 수 있다.

따라서 높은 점수는 시작점일 뿐이다. 독자는 평가 세팅, trial 수, context 길이, thinking budget, tool 사용 여부, decontamination 절차, 독립 재현 결과를 함께 봐야 한다. 같은 점수라도 “얼마나 깨끗한 시험인가”에 따라 의미가 달라진다.

2. Test-time compute와도 얽힌다

Test-time compute를 많이 쓰면 모델이 더 깊게 생각해서 성능이 오를 수 있다. 하지만 평가 문제가 오염되어 있으면, 더 많은 compute가 실제 추론을 돕는 것인지, 이미 본 풀이 패턴을 더 잘 끌어내는 것인지 구분하기 어려워진다.

그래서 reasoning model을 볼 때는 “얼마나 오래 생각했는가”와 “무엇으로 평가했는가”를 함께 봐야 한다.

3. 모델 안전성과 배포 판단에도 영향을 준다

평가 오염은 단순한 점수 논쟁이 아니다. Frontier model 배포에서는 코딩 능력, 컴퓨터 사용, 사이버 오용 가능성, 자율 연구 능력 같은 평가가 안전 판단과 연결된다. 만약 평가가 오염되어 있거나 실제 업무를 잘 대표하지 못하면, 모델을 얼마나 제한해서 배포해야 하는지 판단도 흔들릴 수 있다.

이 지점에서 model evaluation contamination은 frontier model release gates와 연결된다. 출시 문턱은 평가 결과 위에 세워지기 때문에, 평가가 약하면 문턱도 약해진다.

실제 예시

Claude Opus 4.5 시스템 카드에서 Anthropic은 benchmark contamination을 줄이기 위한 절차를 설명한다. 공개 benchmark와 training corpus 사이의 겹침을 찾고 제거하려는 절차가 있었지만, 일부 AIME 문제와 해설이 남아 있었고 모델이 reasoning trace는 이상하게 쓰면서 정답만 맞히는 사례도 언급된다.

이 사례의 의미는 “Claude 점수를 믿을 수 없다”가 아니다. 오히려 frontier model 회사가 점수를 발표할 때 이제 평가 오염을 공개적으로 설명해야 할 만큼, benchmark reading이 성숙해지고 있다는 신호다.

다른 모델 발표도 마찬가지다. 새 모델이 특정 benchmark에서 크게 좋아졌다면, 독자는 먼저 세 가지를 물어야 한다.

해당 benchmark가 공개된 지 얼마나 되었는가.
학습 데이터에서 문제·정답·해설을 제거하려는 절차가 있었는가.
독립 평가나 실제 업무 사례에서도 같은 개선이 보이는가.

헷갈리지 말아야 할 점

평가 오염이 가능하다는 말이 모든 benchmark가 무의미하다는 뜻은 아니다. Benchmark는 여전히 비교의 출발점이다.
Decontamination 절차가 있다고 해서 오염 위험이 완전히 사라지는 것도 아니다. 유사 문제와 해설 조각까지 완벽히 제거하기는 어렵다.
높은 점수가 반드시 암기라는 뜻도 아니다. 실제 능력 향상과 일부 오염 효과가 함께 섞일 수 있다.
공개 benchmark 하나보다, 여러 독립 평가·실제 사용자 업무·장기 agent 성과를 함께 보는 편이 안전하다.

🥚

Explorer

Recent Notes

AI macro exposure

Frontier model release gates