Model evaluation contamination์ AI ๋ชจ๋ธ์ด ํ๊ฐ ๋ฌธ์ ๋ฅผ โ์ฒ์ ๋ณด๋ ์ํโ์ผ๋ก ํธ๋ ๊ฒ์ด ์๋๋ผ, ํ์ต ๊ณผ์ ์์ ์ด๋ฏธ ๋น์ทํ ๋ฌธ์ ๋ ํด์ค์ ๋ณธ ์ํ๋ก ์ํ์ ๋ณด๋ ์ํ์ ๋งํ๋ค. ๊ฒ์ผ๋ก๋ ๋ฒค์น๋งํฌ ์ ์๊ฐ ์ฌ๋ผ๊ฐ ๊ฒ์ฒ๋ผ ๋ณด์ด์ง๋ง, ์ค์ ์๋ก์ด ๋ฌธ์ ํด๊ฒฐ ๋ฅ๋ ฅ์ด ์ฌ๋ผ๊ฐ ๊ฒ์ธ์ง ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์์ง๋ค.
Claude Opus 4.5 ์์คํ ์นด๋์์ Anthropic์ด substring removal, fuzzy decontamination, canary string filtering ๊ฐ์ ์ ์ฐจ๋ฅผ ์ค๋ช ํ ์ด์ ๊ฐ ์ฌ๊ธฐ์ ์๋ค. Frontier model์ ์ฝ์ ๋๋ ์ ์ํ๋ง ๋ณด์ง ๋ง๊ณ , ๊ทธ ์ ์๊ฐ ์ผ๋ง๋ ๊นจ๋ํ ํ๊ฐ ํ๊ฒฝ์์ ๋์จ ๊ฒ์ธ์ง ํจ๊ป ๋ด์ผ ํ๋ค.
ํ ์ค๋ก ๋งํ๋ฉด
Model evaluation contamination์ ํ๊ฐ์ ์ฐ์ธ ๋ฌธ์ ยท์ ๋ตยทํด์ค์ด ํ์ต ๋ฐ์ดํฐ์ ์์ฌ ๋ชจ๋ธ ์ ์๊ฐ ์ค์ ์ผ๋ฐํ ๋ฅ๋ ฅ๋ณด๋ค ์ข์ ๋ณด์ด๋ ํ์์ด๋ค.
๋น์ ๋ก ์ดํดํ๊ธฐ
ํ์์ด ๊ธฐ๋ง๊ณ ์ฌ๋ฅผ ๋ณธ๋ค๊ณ ์๊ฐํด๋ณด์. ์ํ์ฅ์์ ์ฒ์ ๋ณด๋ ๋ฌธ์ ๋ฅผ ํ์๋ค๋ฉด ์ ์๋ ์ค๋ ฅ์ ๊ฐ๊น์ธ ์ ์๋ค. ๊ทธ๋ฐ๋ฐ ์ํ ๋ฌธ์ ์ ํด์ค์ง๊ฐ ์ด๋ฏธ ๊ณผ์ธ ์๋ฃ์ ๋ค์ด ์์๊ณ , ํ์์ด ๊ทธ๊ฒ์ ๋ฐ๋ณตํด์ ๋ดค๋ค๋ฉด ๋์ ์ ์์ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๋ค.
AI ๋ชจ๋ธ ํ๊ฐ๋ ๋น์ทํ๋ค. ๋ฒค์น๋งํฌ๋ ๋ชจ๋ธ์ด ์๋ก์ด ๋ฌธ์ ๋ฅผ ํ ์ ์๋์ง ํ์ธํ๊ธฐ ์ํ ์ํ์ง๋ค. ํ์ง๋ง ์ธํฐ๋ท์ ๊ณต๊ฐ๋ ๋ฌธ์ , GitHub ์์ , ๋ ผ๋ฌธ ๋ถ๋ก, ํ์ด ๋ธ๋ก๊ทธ, ์ด์ ํ๊ฐ ์ฝ๋๊ฐ ํ์ต ๋ฐ์ดํฐ์ ๋ค์ด๊ฐ๋ฉด ๋ชจ๋ธ์ โ์๋ก์ด ๋ฌธ์ ๋ฅผ ํธ๋ ๋ฅ๋ ฅโ์ด ์๋๋ผ โ์ด๋๊ฐ์์ ๋ณธ ํจํด์ ๋ค์ ๊บผ๋ด๋ ๋ฅ๋ ฅโ์ผ๋ก ์ ์๋ฅผ ๋ฐ์ ์ ์๋ค.
๋น์ ์ ํ๊ณ๋ ์๋ค. ์ฌ๋์ ๋ฌธ์ ๋ฅผ ์ธ์ ๋์ง ๋ํ๋ก ์ด๋ ์ ๋ ํ์ธํ ์ ์์ง๋ง, LLM์ ์์กฐ ๊ฐ token์ ํต๊ณ์ ํจํด์ ํ์ตํ๋ค. ๊ทธ๋์ ์ค์ผ ์ฌ๋ถ๋ ๋จ์ํ โ์ ๋ต์ ์ธ์ ๋โ๋ณด๋ค ๋ ๋ณต์กํ๋ค. ๋น์ทํ ๋ฌธ์ฅ, ๋ณํ ๋ฌธ์ , ํด์ค ์กฐ๊ฐ, ์ฝ๋ ์ค๋ํซ๊น์ง ์ํฅ์ ์ค ์ ์๋ค.
์ ํํ ์ ์
Model evaluation contamination์ ๋ชจ๋ธ ํ์ต ๋ฐ์ดํฐ๋ ํ์ฒ๋ฆฌ ๋ฐ์ดํฐ ์์ ํ๊ฐ benchmark์ ๊ฒน์น๋ ์ ๋ณด๊ฐ ํฌํจ๋์ด, ํ๊ฐ ๊ฒฐ๊ณผ๊ฐ ๋ชจ๋ธ์ ์ค์ generalization ๋ฅ๋ ฅ์ ๊ณผ๋ํ๊ฐํ ์ ์๋ ์ํ๋ค.
์ค์ผ์ ์ฌ๋ฌ ํํ๋ก ๋ํ๋๋ค.
| ํํ | ์ค๋ช | ์ ๋ฌธ์ ์ธ๊ฐ |
|---|---|---|
| Exact leakage | ํ๊ฐ ๋ฌธ์ ยท์ ๋ต์ด ๊ทธ๋๋ก ํ์ต ๋ฐ์ดํฐ์ ํฌํจ๋จ | ์ ์๊ฐ ์ฌ์ค์ ์๊ธฐ ํจ๊ณผ๋ฅผ ๋ฐ์ํ ์ ์์ |
| Near-duplicate leakage | ๋ฌธ์ฅ๋ง ์กฐ๊ธ ๋ฐ๋ ์ ์ฌ ๋ฌธ์ ๊ฐ ํฌํจ๋จ | ์๋ก์ด ๋ฌธ์ ํด๊ฒฐ์ธ์ง ํจํด ์ฌํ์ธ์ง ๊ตฌ๋ถ์ด ์ด๋ ค์ |
| Solution leakage | ๋ฌธ์ ๋ ์์ง๋ง ํด์คยทํ์ดยท์ฝ๋๊ฐ ํฌํจ๋จ | reasoning ๋ฅ๋ ฅ๋ณด๋ค ํ์ด ๋ ธ์ถ ํจ๊ณผ๊ฐ ์ปค์ง ์ ์์ |
| Benchmark overfitting | ๋ชจ๋ธ ๊ฐ๋ฐ ๊ณผ์ ์์ ํน์ benchmark์ ๊ณ์ ๋ง์ถฐ ์กฐ์ ๋จ | ์ค์ ์ ๋ฌด ํ์ง๋ณด๋ค leaderboard ์ต์ ํ๊ฐ ์์ค ์ ์์ |
| Prompt / setting leakage | ํ๊ฐ ์กฐ๊ฑด์ด ์ ํ ์ฌ์ฉ ์กฐ๊ฑด๊ณผ ๋ค๋ฅด๊ฒ ์ต์ ํ๋จ | ์ค์ ์ฌ์ฉ์ ๊ฒฝํ๊ณผ ์ ์๊ฐ ๋ฉ์ด์ง ์ ์์ |
์์ ํ ๊นจ๋ํ ํ๊ฐ๋ฅผ ๋ง๋๋ ๊ฒ์ ์ด๋ ต๋ค. ๊ทธ๋์ ์ค์ํ ๊ฒ์ โ์ค์ผ์ด ์ ํ ์๋คโ๊ณ ์ฃผ์ฅํ๋ ๊ฒ์ด ์๋๋ผ, ์ด๋ค ์ ๊ฑฐ ์ ์ฐจ๋ฅผ ์ผ๊ณ , ์ด๋ค ํ๊ณ๊ฐ ๋จ์๊ณ , ๋ ๋ฆฝ ํ๊ฐ์์ ๊ฐ์ ๊ฒฐ๊ณผ๊ฐ ๋ฐ๋ณต๋๋์ง ํ์ธํ๋ ๊ฒ์ด๋ค.
์ ์ค์ํ๊ฐ
1. Frontier model ์ ์ ๊ฒฝ์์ ๋ ์กฐ์ฌ์ค๋ฝ๊ฒ ์ฝ๊ฒ ํ๋ค
SWE-bench, GPQA, MMLU, AIME, OSWorld ๊ฐ์ ์ซ์๋ ๋ชจ๋ธ ๋ฐํ์์ ๊ฐ๋ ฅํ ์ ํธ์ฒ๋ผ ๋ณด์ธ๋ค. ํ์ง๋ง benchmark๊ฐ ๊ณต๊ฐ๋์ด ์ค๋ ์ฐ์ผ์๋ก ํ์ต ๋ฐ์ดํฐ์ ํ๊ฐ ๋ฐ์ดํฐ์ ๊ฒฝ๊ณ๋ ํ๋ ค์ง ์ ์๋ค.
๋ฐ๋ผ์ ๋์ ์ ์๋ ์์์ ์ผ ๋ฟ์ด๋ค. ๋ ์๋ ํ๊ฐ ์ธํ , trial ์, context ๊ธธ์ด, thinking budget, tool ์ฌ์ฉ ์ฌ๋ถ, decontamination ์ ์ฐจ, ๋ ๋ฆฝ ์ฌํ ๊ฒฐ๊ณผ๋ฅผ ํจ๊ป ๋ด์ผ ํ๋ค. ๊ฐ์ ์ ์๋ผ๋ โ์ผ๋ง๋ ๊นจ๋ํ ์ํ์ธ๊ฐโ์ ๋ฐ๋ผ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๋ค.
2. Test-time compute์๋ ์ฝํ๋ค
Test-time compute๋ฅผ ๋ง์ด ์ฐ๋ฉด ๋ชจ๋ธ์ด ๋ ๊น๊ฒ ์๊ฐํด์ ์ฑ๋ฅ์ด ์ค๋ฅผ ์ ์๋ค. ํ์ง๋ง ํ๊ฐ ๋ฌธ์ ๊ฐ ์ค์ผ๋์ด ์์ผ๋ฉด, ๋ ๋ง์ compute๊ฐ ์ค์ ์ถ๋ก ์ ๋๋ ๊ฒ์ธ์ง, ์ด๋ฏธ ๋ณธ ํ์ด ํจํด์ ๋ ์ ๋์ด๋ด๋ ๊ฒ์ธ์ง ๊ตฌ๋ถํ๊ธฐ ์ด๋ ค์์ง๋ค.
๊ทธ๋์ reasoning model์ ๋ณผ ๋๋ โ์ผ๋ง๋ ์ค๋ ์๊ฐํ๋๊ฐโ์ โ๋ฌด์์ผ๋ก ํ๊ฐํ๋๊ฐโ๋ฅผ ํจ๊ป ๋ด์ผ ํ๋ค.
3. ๋ชจ๋ธ ์์ ์ฑ๊ณผ ๋ฐฐํฌ ํ๋จ์๋ ์ํฅ์ ์ค๋ค
ํ๊ฐ ์ค์ผ์ ๋จ์ํ ์ ์ ๋ ผ์์ด ์๋๋ค. Frontier model ๋ฐฐํฌ์์๋ ์ฝ๋ฉ ๋ฅ๋ ฅ, ์ปดํจํฐ ์ฌ์ฉ, ์ฌ์ด๋ฒ ์ค์ฉ ๊ฐ๋ฅ์ฑ, ์์จ ์ฐ๊ตฌ ๋ฅ๋ ฅ ๊ฐ์ ํ๊ฐ๊ฐ ์์ ํ๋จ๊ณผ ์ฐ๊ฒฐ๋๋ค. ๋ง์ฝ ํ๊ฐ๊ฐ ์ค์ผ๋์ด ์๊ฑฐ๋ ์ค์ ์ ๋ฌด๋ฅผ ์ ๋ํํ์ง ๋ชปํ๋ฉด, ๋ชจ๋ธ์ ์ผ๋ง๋ ์ ํํด์ ๋ฐฐํฌํด์ผ ํ๋์ง ํ๋จ๋ ํ๋ค๋ฆด ์ ์๋ค.
์ด ์ง์ ์์ model evaluation contamination์ frontier model release gates์ ์ฐ๊ฒฐ๋๋ค. ์ถ์ ๋ฌธํฑ์ ํ๊ฐ ๊ฒฐ๊ณผ ์์ ์ธ์์ง๊ธฐ ๋๋ฌธ์, ํ๊ฐ๊ฐ ์ฝํ๋ฉด ๋ฌธํฑ๋ ์ฝํด์ง๋ค.
์ค์ ์์
Claude Opus 4.5 ์์คํ ์นด๋์์ Anthropic์ benchmark contamination์ ์ค์ด๊ธฐ ์ํ ์ ์ฐจ๋ฅผ ์ค๋ช ํ๋ค. ๊ณต๊ฐ benchmark์ training corpus ์ฌ์ด์ ๊ฒน์นจ์ ์ฐพ๊ณ ์ ๊ฑฐํ๋ ค๋ ์ ์ฐจ๊ฐ ์์์ง๋ง, ์ผ๋ถ AIME ๋ฌธ์ ์ ํด์ค์ด ๋จ์ ์์๊ณ ๋ชจ๋ธ์ด reasoning trace๋ ์ด์ํ๊ฒ ์ฐ๋ฉด์ ์ ๋ต๋ง ๋งํ๋ ์ฌ๋ก๋ ์ธ๊ธ๋๋ค.
์ด ์ฌ๋ก์ ์๋ฏธ๋ โClaude ์ ์๋ฅผ ๋ฏฟ์ ์ ์๋คโ๊ฐ ์๋๋ค. ์คํ๋ ค frontier model ํ์ฌ๊ฐ ์ ์๋ฅผ ๋ฐํํ ๋ ์ด์ ํ๊ฐ ์ค์ผ์ ๊ณต๊ฐ์ ์ผ๋ก ์ค๋ช ํด์ผ ํ ๋งํผ, benchmark reading์ด ์ฑ์ํด์ง๊ณ ์๋ค๋ ์ ํธ๋ค.
๋ค๋ฅธ ๋ชจ๋ธ ๋ฐํ๋ ๋ง์ฐฌ๊ฐ์ง๋ค. ์ ๋ชจ๋ธ์ด ํน์ benchmark์์ ํฌ๊ฒ ์ข์์ก๋ค๋ฉด, ๋ ์๋ ๋จผ์ ์ธ ๊ฐ์ง๋ฅผ ๋ฌผ์ด์ผ ํ๋ค.
- ํด๋น benchmark๊ฐ ๊ณต๊ฐ๋ ์ง ์ผ๋ง๋ ๋์๋๊ฐ.
- ํ์ต ๋ฐ์ดํฐ์์ ๋ฌธ์ ยท์ ๋ตยทํด์ค์ ์ ๊ฑฐํ๋ ค๋ ์ ์ฐจ๊ฐ ์์๋๊ฐ.
- ๋ ๋ฆฝ ํ๊ฐ๋ ์ค์ ์ ๋ฌด ์ฌ๋ก์์๋ ๊ฐ์ ๊ฐ์ ์ด ๋ณด์ด๋๊ฐ.
ํท๊ฐ๋ฆฌ์ง ๋ง์์ผ ํ ์
- ํ๊ฐ ์ค์ผ์ด ๊ฐ๋ฅํ๋ค๋ ๋ง์ด ๋ชจ๋ benchmark๊ฐ ๋ฌด์๋ฏธํ๋ค๋ ๋ป์ ์๋๋ค. Benchmark๋ ์ฌ์ ํ ๋น๊ต์ ์ถ๋ฐ์ ์ด๋ค.
- Decontamination ์ ์ฐจ๊ฐ ์๋ค๊ณ ํด์ ์ค์ผ ์ํ์ด ์์ ํ ์ฌ๋ผ์ง๋ ๊ฒ๋ ์๋๋ค. ์ ์ฌ ๋ฌธ์ ์ ํด์ค ์กฐ๊ฐ๊น์ง ์๋ฒฝํ ์ ๊ฑฐํ๊ธฐ๋ ์ด๋ ต๋ค.
- ๋์ ์ ์๊ฐ ๋ฐ๋์ ์๊ธฐ๋ผ๋ ๋ป๋ ์๋๋ค. ์ค์ ๋ฅ๋ ฅ ํฅ์๊ณผ ์ผ๋ถ ์ค์ผ ํจ๊ณผ๊ฐ ํจ๊ป ์์ผ ์ ์๋ค.
- ๊ณต๊ฐ benchmark ํ๋๋ณด๋ค, ์ฌ๋ฌ ๋ ๋ฆฝ ํ๊ฐยท์ค์ ์ฌ์ฉ์ ์ ๋ฌดยท์ฅ๊ธฐ agent ์ฑ๊ณผ๋ฅผ ํจ๊ป ๋ณด๋ ํธ์ด ์์ ํ๋ค.