Model evaluation contamination์€ AI ๋ชจ๋ธ์ด ํ‰๊ฐ€ ๋ฌธ์ œ๋ฅผ โ€œ์ฒ˜์Œ ๋ณด๋Š” ์‹œํ—˜โ€์œผ๋กœ ํ‘ธ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ํ•™์Šต ๊ณผ์ •์—์„œ ์ด๋ฏธ ๋น„์Šทํ•œ ๋ฌธ์ œ๋‚˜ ํ•ด์„ค์„ ๋ณธ ์ƒํƒœ๋กœ ์‹œํ—˜์„ ๋ณด๋Š” ์œ„ํ—˜์„ ๋งํ•œ๋‹ค. ๊ฒ‰์œผ๋กœ๋Š” ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๊ฐ€ ์˜ฌ๋ผ๊ฐ„ ๊ฒƒ์ฒ˜๋Ÿผ ๋ณด์ด์ง€๋งŒ, ์‹ค์ œ ์ƒˆ๋กœ์šด ๋ฌธ์ œ ํ•ด๊ฒฐ ๋Šฅ๋ ฅ์ด ์˜ฌ๋ผ๊ฐ„ ๊ฒƒ์ธ์ง€ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์–ด๋ ค์›Œ์ง„๋‹ค.

Claude Opus 4.5 ์‹œ์Šคํ…œ ์นด๋“œ์—์„œ Anthropic์ด substring removal, fuzzy decontamination, canary string filtering ๊ฐ™์€ ์ ˆ์ฐจ๋ฅผ ์„ค๋ช…ํ•œ ์ด์œ ๊ฐ€ ์—ฌ๊ธฐ์— ์žˆ๋‹ค. Frontier model์„ ์ฝ์„ ๋•Œ๋Š” ์ ์ˆ˜ํ‘œ๋งŒ ๋ณด์ง€ ๋ง๊ณ , ๊ทธ ์ ์ˆ˜๊ฐ€ ์–ผ๋งˆ๋‚˜ ๊นจ๋—ํ•œ ํ‰๊ฐ€ ํ™˜๊ฒฝ์—์„œ ๋‚˜์˜จ ๊ฒƒ์ธ์ง€ ํ•จ๊ป˜ ๋ด์•ผ ํ•œ๋‹ค.

ํ•œ ์ค„๋กœ ๋งํ•˜๋ฉด

Model evaluation contamination์€ ํ‰๊ฐ€์— ์“ฐ์ธ ๋ฌธ์ œยท์ •๋‹ตยทํ•ด์„ค์ด ํ•™์Šต ๋ฐ์ดํ„ฐ์— ์„ž์—ฌ ๋ชจ๋ธ ์ ์ˆ˜๊ฐ€ ์‹ค์ œ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ๋ณด๋‹ค ์ข‹์•„ ๋ณด์ด๋Š” ํ˜„์ƒ์ด๋‹ค.

๋น„์œ ๋กœ ์ดํ•ดํ•˜๊ธฐ

ํ•™์ƒ์ด ๊ธฐ๋ง๊ณ ์‚ฌ๋ฅผ ๋ณธ๋‹ค๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. ์‹œํ—˜์žฅ์—์„œ ์ฒ˜์Œ ๋ณด๋Š” ๋ฌธ์ œ๋ฅผ ํ’€์—ˆ๋‹ค๋ฉด ์ ์ˆ˜๋Š” ์‹ค๋ ฅ์— ๊ฐ€๊นŒ์šธ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์‹œํ—˜ ๋ฌธ์ œ์™€ ํ•ด์„ค์ง€๊ฐ€ ์ด๋ฏธ ๊ณผ์™ธ ์ž๋ฃŒ์— ๋“ค์–ด ์žˆ์—ˆ๊ณ , ํ•™์ƒ์ด ๊ทธ๊ฒƒ์„ ๋ฐ˜๋ณตํ•ด์„œ ๋ดค๋‹ค๋ฉด ๋†’์€ ์ ์ˆ˜์˜ ์˜๋ฏธ๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค.

AI ๋ชจ๋ธ ํ‰๊ฐ€๋„ ๋น„์Šทํ•˜๋‹ค. ๋ฒค์น˜๋งˆํฌ๋Š” ๋ชจ๋ธ์ด ์ƒˆ๋กœ์šด ๋ฌธ์ œ๋ฅผ ํ’€ ์ˆ˜ ์žˆ๋Š”์ง€ ํ™•์ธํ•˜๊ธฐ ์œ„ํ•œ ์‹œํ—˜์ง€๋‹ค. ํ•˜์ง€๋งŒ ์ธํ„ฐ๋„ท์— ๊ณต๊ฐœ๋œ ๋ฌธ์ œ, GitHub ์˜ˆ์ œ, ๋…ผ๋ฌธ ๋ถ€๋ก, ํ’€์ด ๋ธ”๋กœ๊ทธ, ์ด์ „ ํ‰๊ฐ€ ์ฝ”๋“œ๊ฐ€ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ๋“ค์–ด๊ฐ€๋ฉด ๋ชจ๋ธ์€ โ€œ์ƒˆ๋กœ์šด ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๋Šฅ๋ ฅโ€์ด ์•„๋‹ˆ๋ผ โ€œ์–ด๋”˜๊ฐ€์—์„œ ๋ณธ ํŒจํ„ด์„ ๋‹ค์‹œ ๊บผ๋‚ด๋Š” ๋Šฅ๋ ฅโ€์œผ๋กœ ์ ์ˆ˜๋ฅผ ๋ฐ›์„ ์ˆ˜ ์žˆ๋‹ค.

๋น„์œ ์˜ ํ•œ๊ณ„๋„ ์žˆ๋‹ค. ์‚ฌ๋žŒ์€ ๋ฌธ์ œ๋ฅผ ์™ธ์› ๋Š”์ง€ ๋Œ€ํ™”๋กœ ์–ด๋А ์ •๋„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, LLM์€ ์ˆ˜์กฐ ๊ฐœ token์˜ ํ†ต๊ณ„์  ํŒจํ„ด์„ ํ•™์Šตํ•œ๋‹ค. ๊ทธ๋ž˜์„œ ์˜ค์—ผ ์—ฌ๋ถ€๋Š” ๋‹จ์ˆœํžˆ โ€œ์ •๋‹ต์„ ์™ธ์› ๋‚˜โ€๋ณด๋‹ค ๋” ๋ณต์žกํ•˜๋‹ค. ๋น„์Šทํ•œ ๋ฌธ์žฅ, ๋ณ€ํ˜• ๋ฌธ์ œ, ํ•ด์„ค ์กฐ๊ฐ, ์ฝ”๋“œ ์Šค๋‹ˆํŽซ๊นŒ์ง€ ์˜ํ–ฅ์„ ์ค„ ์ˆ˜ ์žˆ๋‹ค.

์ •ํ™•ํ•œ ์ •์˜

Model evaluation contamination์€ ๋ชจ๋ธ ํ•™์Šต ๋ฐ์ดํ„ฐ๋‚˜ ํ›„์ฒ˜๋ฆฌ ๋ฐ์ดํ„ฐ ์•ˆ์— ํ‰๊ฐ€ benchmark์™€ ๊ฒน์น˜๋Š” ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜์–ด, ํ‰๊ฐ€ ๊ฒฐ๊ณผ๊ฐ€ ๋ชจ๋ธ์˜ ์‹ค์ œ generalization ๋Šฅ๋ ฅ์„ ๊ณผ๋Œ€ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ƒํƒœ๋‹ค.

์˜ค์—ผ์€ ์—ฌ๋Ÿฌ ํ˜•ํƒœ๋กœ ๋‚˜ํƒ€๋‚œ๋‹ค.

ํ˜•ํƒœ์„ค๋ช…์™œ ๋ฌธ์ œ์ธ๊ฐ€
Exact leakageํ‰๊ฐ€ ๋ฌธ์ œยท์ •๋‹ต์ด ๊ทธ๋Œ€๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ์— ํฌํ•จ๋จ์ ์ˆ˜๊ฐ€ ์‚ฌ์‹ค์ƒ ์•”๊ธฐ ํšจ๊ณผ๋ฅผ ๋ฐ˜์˜ํ•  ์ˆ˜ ์žˆ์Œ
Near-duplicate leakage๋ฌธ์žฅ๋งŒ ์กฐ๊ธˆ ๋ฐ”๋€ ์œ ์‚ฌ ๋ฌธ์ œ๊ฐ€ ํฌํ•จ๋จ์ƒˆ๋กœ์šด ๋ฌธ์ œ ํ•ด๊ฒฐ์ธ์ง€ ํŒจํ„ด ์žฌํ˜„์ธ์ง€ ๊ตฌ๋ถ„์ด ์–ด๋ ค์›€
Solution leakage๋ฌธ์ œ๋Š” ์—†์ง€๋งŒ ํ•ด์„คยทํ’€์ดยท์ฝ”๋“œ๊ฐ€ ํฌํ•จ๋จreasoning ๋Šฅ๋ ฅ๋ณด๋‹ค ํ’€์ด ๋…ธ์ถœ ํšจ๊ณผ๊ฐ€ ์ปค์งˆ ์ˆ˜ ์žˆ์Œ
Benchmark overfitting๋ชจ๋ธ ๊ฐœ๋ฐœ ๊ณผ์ •์—์„œ ํŠน์ • benchmark์— ๊ณ„์† ๋งž์ถฐ ์กฐ์ •๋จ์‹ค์ œ ์—…๋ฌด ํ’ˆ์งˆ๋ณด๋‹ค leaderboard ์ตœ์ ํ™”๊ฐ€ ์•ž์„ค ์ˆ˜ ์žˆ์Œ
Prompt / setting leakageํ‰๊ฐ€ ์กฐ๊ฑด์ด ์ œํ’ˆ ์‚ฌ์šฉ ์กฐ๊ฑด๊ณผ ๋‹ค๋ฅด๊ฒŒ ์ตœ์ ํ™”๋จ์‹ค์ œ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜๊ณผ ์ ์ˆ˜๊ฐ€ ๋ฉ€์–ด์งˆ ์ˆ˜ ์žˆ์Œ

์™„์ „ํžˆ ๊นจ๋—ํ•œ ํ‰๊ฐ€๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์€ ์–ด๋ ต๋‹ค. ๊ทธ๋ž˜์„œ ์ค‘์š”ํ•œ ๊ฒƒ์€ โ€œ์˜ค์—ผ์ด ์ „ํ˜€ ์—†๋‹คโ€๊ณ  ์ฃผ์žฅํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์–ด๋–ค ์ œ๊ฑฐ ์ ˆ์ฐจ๋ฅผ ์ผ๊ณ , ์–ด๋–ค ํ•œ๊ณ„๊ฐ€ ๋‚จ์•˜๊ณ , ๋…๋ฆฝ ํ‰๊ฐ€์—์„œ ๊ฐ™์€ ๊ฒฐ๊ณผ๊ฐ€ ๋ฐ˜๋ณต๋˜๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๊ฒƒ์ด๋‹ค.

์™œ ์ค‘์š”ํ•œ๊ฐ€

1. Frontier model ์ ์ˆ˜ ๊ฒฝ์Ÿ์„ ๋” ์กฐ์‹ฌ์Šค๋Ÿฝ๊ฒŒ ์ฝ๊ฒŒ ํ•œ๋‹ค

SWE-bench, GPQA, MMLU, AIME, OSWorld ๊ฐ™์€ ์ˆซ์ž๋Š” ๋ชจ๋ธ ๋ฐœํ‘œ์—์„œ ๊ฐ•๋ ฅํ•œ ์‹ ํ˜ธ์ฒ˜๋Ÿผ ๋ณด์ธ๋‹ค. ํ•˜์ง€๋งŒ benchmark๊ฐ€ ๊ณต๊ฐœ๋˜์–ด ์˜ค๋ž˜ ์“ฐ์ผ์ˆ˜๋ก ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์˜ ๊ฒฝ๊ณ„๋Š” ํ๋ ค์งˆ ์ˆ˜ ์žˆ๋‹ค.

๋”ฐ๋ผ์„œ ๋†’์€ ์ ์ˆ˜๋Š” ์‹œ์ž‘์ ์ผ ๋ฟ์ด๋‹ค. ๋…์ž๋Š” ํ‰๊ฐ€ ์„ธํŒ…, trial ์ˆ˜, context ๊ธธ์ด, thinking budget, tool ์‚ฌ์šฉ ์—ฌ๋ถ€, decontamination ์ ˆ์ฐจ, ๋…๋ฆฝ ์žฌํ˜„ ๊ฒฐ๊ณผ๋ฅผ ํ•จ๊ป˜ ๋ด์•ผ ํ•œ๋‹ค. ๊ฐ™์€ ์ ์ˆ˜๋ผ๋„ โ€œ์–ผ๋งˆ๋‚˜ ๊นจ๋—ํ•œ ์‹œํ—˜์ธ๊ฐ€โ€์— ๋”ฐ๋ผ ์˜๋ฏธ๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค.

2. Test-time compute์™€๋„ ์–ฝํžŒ๋‹ค

Test-time compute๋ฅผ ๋งŽ์ด ์“ฐ๋ฉด ๋ชจ๋ธ์ด ๋” ๊นŠ๊ฒŒ ์ƒ๊ฐํ•ด์„œ ์„ฑ๋Šฅ์ด ์˜ค๋ฅผ ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ ํ‰๊ฐ€ ๋ฌธ์ œ๊ฐ€ ์˜ค์—ผ๋˜์–ด ์žˆ์œผ๋ฉด, ๋” ๋งŽ์€ compute๊ฐ€ ์‹ค์ œ ์ถ”๋ก ์„ ๋•๋Š” ๊ฒƒ์ธ์ง€, ์ด๋ฏธ ๋ณธ ํ’€์ด ํŒจํ„ด์„ ๋” ์ž˜ ๋Œ์–ด๋‚ด๋Š” ๊ฒƒ์ธ์ง€ ๊ตฌ๋ถ„ํ•˜๊ธฐ ์–ด๋ ค์›Œ์ง„๋‹ค.

๊ทธ๋ž˜์„œ reasoning model์„ ๋ณผ ๋•Œ๋Š” โ€œ์–ผ๋งˆ๋‚˜ ์˜ค๋ž˜ ์ƒ๊ฐํ–ˆ๋Š”๊ฐ€โ€์™€ โ€œ๋ฌด์—‡์œผ๋กœ ํ‰๊ฐ€ํ–ˆ๋Š”๊ฐ€โ€๋ฅผ ํ•จ๊ป˜ ๋ด์•ผ ํ•œ๋‹ค.

3. ๋ชจ๋ธ ์•ˆ์ „์„ฑ๊ณผ ๋ฐฐํฌ ํŒ๋‹จ์—๋„ ์˜ํ–ฅ์„ ์ค€๋‹ค

ํ‰๊ฐ€ ์˜ค์—ผ์€ ๋‹จ์ˆœํ•œ ์ ์ˆ˜ ๋…ผ์Ÿ์ด ์•„๋‹ˆ๋‹ค. Frontier model ๋ฐฐํฌ์—์„œ๋Š” ์ฝ”๋”ฉ ๋Šฅ๋ ฅ, ์ปดํ“จํ„ฐ ์‚ฌ์šฉ, ์‚ฌ์ด๋ฒ„ ์˜ค์šฉ ๊ฐ€๋Šฅ์„ฑ, ์ž์œจ ์—ฐ๊ตฌ ๋Šฅ๋ ฅ ๊ฐ™์€ ํ‰๊ฐ€๊ฐ€ ์•ˆ์ „ ํŒ๋‹จ๊ณผ ์—ฐ๊ฒฐ๋œ๋‹ค. ๋งŒ์•ฝ ํ‰๊ฐ€๊ฐ€ ์˜ค์—ผ๋˜์–ด ์žˆ๊ฑฐ๋‚˜ ์‹ค์ œ ์—…๋ฌด๋ฅผ ์ž˜ ๋Œ€ํ‘œํ•˜์ง€ ๋ชปํ•˜๋ฉด, ๋ชจ๋ธ์„ ์–ผ๋งˆ๋‚˜ ์ œํ•œํ•ด์„œ ๋ฐฐํฌํ•ด์•ผ ํ•˜๋Š”์ง€ ํŒ๋‹จ๋„ ํ”๋“ค๋ฆด ์ˆ˜ ์žˆ๋‹ค.

์ด ์ง€์ ์—์„œ model evaluation contamination์€ frontier model release gates์™€ ์—ฐ๊ฒฐ๋œ๋‹ค. ์ถœ์‹œ ๋ฌธํ„ฑ์€ ํ‰๊ฐ€ ๊ฒฐ๊ณผ ์œ„์— ์„ธ์›Œ์ง€๊ธฐ ๋•Œ๋ฌธ์—, ํ‰๊ฐ€๊ฐ€ ์•ฝํ•˜๋ฉด ๋ฌธํ„ฑ๋„ ์•ฝํ•ด์ง„๋‹ค.

์‹ค์ œ ์˜ˆ์‹œ

Claude Opus 4.5 ์‹œ์Šคํ…œ ์นด๋“œ์—์„œ Anthropic์€ benchmark contamination์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ์ ˆ์ฐจ๋ฅผ ์„ค๋ช…ํ•œ๋‹ค. ๊ณต๊ฐœ benchmark์™€ training corpus ์‚ฌ์ด์˜ ๊ฒน์นจ์„ ์ฐพ๊ณ  ์ œ๊ฑฐํ•˜๋ ค๋Š” ์ ˆ์ฐจ๊ฐ€ ์žˆ์—ˆ์ง€๋งŒ, ์ผ๋ถ€ AIME ๋ฌธ์ œ์™€ ํ•ด์„ค์ด ๋‚จ์•„ ์žˆ์—ˆ๊ณ  ๋ชจ๋ธ์ด reasoning trace๋Š” ์ด์ƒํ•˜๊ฒŒ ์“ฐ๋ฉด์„œ ์ •๋‹ต๋งŒ ๋งžํžˆ๋Š” ์‚ฌ๋ก€๋„ ์–ธ๊ธ‰๋œ๋‹ค.

์ด ์‚ฌ๋ก€์˜ ์˜๋ฏธ๋Š” โ€œClaude ์ ์ˆ˜๋ฅผ ๋ฏฟ์„ ์ˆ˜ ์—†๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋‹ค. ์˜คํžˆ๋ ค frontier model ํšŒ์‚ฌ๊ฐ€ ์ ์ˆ˜๋ฅผ ๋ฐœํ‘œํ•  ๋•Œ ์ด์ œ ํ‰๊ฐ€ ์˜ค์—ผ์„ ๊ณต๊ฐœ์ ์œผ๋กœ ์„ค๋ช…ํ•ด์•ผ ํ•  ๋งŒํผ, benchmark reading์ด ์„ฑ์ˆ™ํ•ด์ง€๊ณ  ์žˆ๋‹ค๋Š” ์‹ ํ˜ธ๋‹ค.

๋‹ค๋ฅธ ๋ชจ๋ธ ๋ฐœํ‘œ๋„ ๋งˆ์ฐฌ๊ฐ€์ง€๋‹ค. ์ƒˆ ๋ชจ๋ธ์ด ํŠน์ • benchmark์—์„œ ํฌ๊ฒŒ ์ข‹์•„์กŒ๋‹ค๋ฉด, ๋…์ž๋Š” ๋จผ์ € ์„ธ ๊ฐ€์ง€๋ฅผ ๋ฌผ์–ด์•ผ ํ•œ๋‹ค.

  1. ํ•ด๋‹น benchmark๊ฐ€ ๊ณต๊ฐœ๋œ ์ง€ ์–ผ๋งˆ๋‚˜ ๋˜์—ˆ๋Š”๊ฐ€.
  2. ํ•™์Šต ๋ฐ์ดํ„ฐ์—์„œ ๋ฌธ์ œยท์ •๋‹ตยทํ•ด์„ค์„ ์ œ๊ฑฐํ•˜๋ ค๋Š” ์ ˆ์ฐจ๊ฐ€ ์žˆ์—ˆ๋Š”๊ฐ€.
  3. ๋…๋ฆฝ ํ‰๊ฐ€๋‚˜ ์‹ค์ œ ์—…๋ฌด ์‚ฌ๋ก€์—์„œ๋„ ๊ฐ™์€ ๊ฐœ์„ ์ด ๋ณด์ด๋Š”๊ฐ€.

ํ—ท๊ฐˆ๋ฆฌ์ง€ ๋ง์•„์•ผ ํ•  ์ 

  • ํ‰๊ฐ€ ์˜ค์—ผ์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๋ง์ด ๋ชจ๋“  benchmark๊ฐ€ ๋ฌด์˜๋ฏธํ•˜๋‹ค๋Š” ๋œป์€ ์•„๋‹ˆ๋‹ค. Benchmark๋Š” ์—ฌ์ „ํžˆ ๋น„๊ต์˜ ์ถœ๋ฐœ์ ์ด๋‹ค.
  • Decontamination ์ ˆ์ฐจ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•ด์„œ ์˜ค์—ผ ์œ„ํ—˜์ด ์™„์ „ํžˆ ์‚ฌ๋ผ์ง€๋Š” ๊ฒƒ๋„ ์•„๋‹ˆ๋‹ค. ์œ ์‚ฌ ๋ฌธ์ œ์™€ ํ•ด์„ค ์กฐ๊ฐ๊นŒ์ง€ ์™„๋ฒฝํžˆ ์ œ๊ฑฐํ•˜๊ธฐ๋Š” ์–ด๋ ต๋‹ค.
  • ๋†’์€ ์ ์ˆ˜๊ฐ€ ๋ฐ˜๋“œ์‹œ ์•”๊ธฐ๋ผ๋Š” ๋œป๋„ ์•„๋‹ˆ๋‹ค. ์‹ค์ œ ๋Šฅ๋ ฅ ํ–ฅ์ƒ๊ณผ ์ผ๋ถ€ ์˜ค์—ผ ํšจ๊ณผ๊ฐ€ ํ•จ๊ป˜ ์„ž์ผ ์ˆ˜ ์žˆ๋‹ค.
  • ๊ณต๊ฐœ benchmark ํ•˜๋‚˜๋ณด๋‹ค, ์—ฌ๋Ÿฌ ๋…๋ฆฝ ํ‰๊ฐ€ยท์‹ค์ œ ์‚ฌ์šฉ์ž ์—…๋ฌดยท์žฅ๊ธฐ agent ์„ฑ๊ณผ๋ฅผ ํ•จ๊ป˜ ๋ณด๋Š” ํŽธ์ด ์•ˆ์ „ํ•˜๋‹ค.

๊ด€๋ จ ๋ฌธ์„œ