Test-time compute๋ AI ๋ชจ๋ธ์ ํ์ต์ํจ ๋ค ์ค์ ์์ฒญ์ ๋ตํ ๋ ์ผ๋ง๋ ๋ง์ ๊ณ์ฐ์ ์ฐ๊ฒ ํ ๊ฒ์ธ๊ฐ์ ๋ฌธ์ ๋ค. Claude Code ์ฌํ๋ถ์์์ ๋์จ reasoning effort ๊ธฐ๋ณธ๊ฐ ๋ณ๊ฒฝ์ ์ด ๊ฐ๋
์ ์ ๋ณด์ฌ์ค๋ค. ๊ฐ์ ๋ชจ๋ธ์ด๋ผ๋ ๋ต๋ณ ์๊ฐ์ ๋ ๋ง์ด ์๊ฐํ๊ฒ ํ ์ง, ๋ ๋นจ๋ฆฌ ๋ตํ๊ฒ ํ ์ง์ ๋ฐ๋ผ ์ฌ์ฉ์๊ฐ ๋๋ผ๋ ํ์งยท์ง์ฐ ์๊ฐยท๋น์ฉ์ด ๋ฌ๋ผ์ง ์ ์๋ค.
ํ ์ค๋ก ๋งํ๋ฉด
Test-time compute๋ ๋ชจ๋ธ์ด ๋ต์ ๋ง๋ค ๋ ์ฐ๋ ๊ณ์ฐ๋์ ์กฐ์ ํด ํ์ง, ์๋, ๋น์ฉ, ์ฌ์ฉ๋ ์ ํ ์ฌ์ด์ ๊ท ํ์ ์ก๋ ์ด์ ๋ณ์๋ค.
๋น์ ๋ก ์ดํดํ๊ธฐ
์ํ์ ๋ณด๋ ํ์์ ๋ ์ฌ๋ฆฌ๋ฉด ์ฝ๋ค. ๊ฐ์ ํ์์ด๋ผ๋ 30์ด ์์ ๋ฐ๋ก ๋ตํ๋ผ๊ณ ํ๋ฉด ๋น ๋ฅด์ง๋ง ์ค์๊ฐ ๋ ์ ์๊ณ , 10๋ถ ๋์ ํ์ด ๊ณผ์ ์ ์ฐ๊ฒ ํ๋ฉด ๋ ์ ํํ ์ ์์ง๋ง ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฐ๋ค.
AI ๋ชจ๋ธ๋ ๋น์ทํ๋ค. ๋ต๋ณ ์๊ฐ์ ๋ ๋ง์ reasoning step, ๋ ๊ธด context ์ฒ๋ฆฌ, ๋ ๋ง์ tool call, ๋ ํฐ beam/search, ๋ ๊ธด self-check๋ฅผ ํ์ฉํ๋ฉด ํ์ง์ด ์ข์์ง ์ ์๋ค. ๋์ latency์ token ๋น์ฉ์ด ๋๊ณ , ๊ฐ์ ์ธํ๋ผ์์ ์ฒ๋ฆฌํ ์ ์๋ ์์ฒญ ์๋ ์ค์ด๋ ๋ค.
๋น์ ์ ํ๊ณ๋ ์๋ค. ์ฌ๋์ โ์๊ฐ ์๊ฐโ์ ํ๋์ ์ฐ์๋ ์ ์ ํ๋์ฒ๋ผ ๋ณด์ด์ง๋ง, LLM ์ ํ์์ test-time compute๋ ๋ชจ๋ธ ํธ์ถ ํ์, ์ถ๋ ฅ token ์, reasoning mode, context ๊ธธ์ด, tool execution, cache ์ฌ์ฉ, serving scheduler๊ฐ ์์ธ ์์คํ ๋ณ์๋ค.
์ ํํ ์ ์
Test-time compute๋ ๋ชจ๋ธ ํ์ต์ด ๋๋ ๋ค inference ๋จ๊ณ์์ ํ ์์ฒญ์ ์ฒ๋ฆฌํ๊ธฐ ์ํด ์ฐ๋ ๊ณ์ฐ ์์์ด๋ค. ์ฌ๊ธฐ์๋ ๋ค์์ด ํฌํจ๋ ์ ์๋ค.
| ๊ตฌ์ฑ ์์ | ๋ฌด์์ ์กฐ์ ํ๋ |
|---|---|
| Reasoning effort | ๋ต๋ณ ์ ์ ์ผ๋ง๋ ๊น๊ฒ ์ถ๋ก ํ๊ฒ ํ ์ง |
| ์ถ๋ ฅ token ์ | ๋ต๋ณ๊ณผ ์ค๊ฐ reasoning์ ์ผ๋ง๋ ๋ง์ token์ ํ์ฉํ ์ง |
| Context ๊ธธ์ด | ์ผ๋ง๋ ๋ง์ ๋ฌธ์ยท๋ํยท์ฝ๋ ๋งฅ๋ฝ์ ์ฝ๊ฒ ํ ์ง |
| Tool call | ๊ฒ์, ์ฝ๋ ์คํ, ํ์ผ ํธ์ง ๊ฐ์ ์ธ๋ถ ํ๋์ ์ผ๋ง๋ ํ์ฉํ ์ง |
| ์ฌ์๋์ ๊ฒ์ฆ | self-check, evaluator, fallback์ ์ผ๋ง๋ ๋ถ์ผ์ง |
| Serving ์์ | GPU, memory, batching, cache๋ฅผ ์ด๋ป๊ฒ ๋ฐฐ๋ถํ ์ง |
์ด ๊ฐ๋ ์ LLM inference serving๊ณผ ์ฐ๊ฒฐ๋์ง๋ง ์์ ํ ๊ฐ์ง๋ ์๋ค. Inference serving์ ๋ง์ ์์ฒญ์ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ์ธํ๋ผ ์ ์ฒด๋ฅผ ๋งํ๋ค. Test-time compute๋ ๊ทธ์ค โ๊ฐ ์์ฒญ์ ์ผ๋ง๋ ๋ง์ ๊ณ์ฐ์ ์ฐ๊ฒ ํ ๊ฒ์ธ๊ฐโ๋ผ๋ ํ์งยท๋น์ฉ ์กฐ์ ์์ก์ด์ ๊ฐ๊น๋ค.
์ ์ค์ํ๊ฐ
1. ๊ฐ์ ๋ชจ๋ธ๋ ์ ํ ๊ฒฝํ์ด ๋ฌ๋ผ์ง ์ ์๋ค
Anthropic์ Claude Code ํ์ง ์ฌํ๋ถ์์ reasoning effort ๊ธฐ๋ณธ๊ฐ์ high์์ medium์ผ๋ก ๋ฐ๊พผ ์ผ์ด ์ฌ์ฉ์ ๊ฒฝํ์ ํฌ๊ฒ ํ๋ค ์ ์์์ ๋ณด์ฌ์ค๋ค. ํ์ฌ์ ์๋๋ ๊ธด tail latency์ ์ฌ์ฉ๋ ์๋ชจ๋ฅผ ์ค์ด๋ ๊ฒ์ด์์ง๋ง, ๋ง์ ์ฌ์ฉ์๋ ๋ ๋น ๋ฅธ ๋ต๋ณด๋ค ๋ ๋์ ๊ธฐ๋ณธ ์ง๋ฅ์ ๊ธฐ๋ํ๋ค.
์ด ์ฌ๋ก์ ํต์ฌ์ โ๋ชจ๋ธ์ด ๋๋น ์ก๋คโ๊ฐ ์๋๋ค. ๊ฐ์ ๋ชจ๋ธ์ด๋ผ๋ ์ ํ์ด ๋ต๋ณ ์๊ฐ์ ํ์ฉํ๋ ๊ณ์ฐ๋, cache ์ ์ฑ , prompt ์ ์ฝ์ด ๋ฐ๋๋ฉด ์ฌ์ฉ์๋ ์ ํ ๋ค๋ฅธ ํ์ง์ ๊ฒฝํํ ์ ์๋ค๋ ์ ์ด๋ค.
2. Agent์์๋ ๋น์ฉ ์ ๊ฐ์ด ํ์ง ์์์ผ๋ก ๋ณด์ผ ์ ์๋ค
์ผ๋ฐ chatbot์ ํ ๋ฒ์ ๋ต๋ณ์ด ์กฐ๊ธ ์งง์์ ธ๋ ํฐ ๋ฌธ์ ๊ฐ ์๋ ์ ์๋ค. ํ์ง๋ง coding agent๋ ์ ๋ฌด agent๋ ์ฌ๋ฌ ๋จ๊ณ์ ๊ฒฐ์ ์ ์ด์ด๊ฐ๋ค. ํ ๋จ๊ณ์์ reasoning์ ๋ ์ฐ๊ฑฐ๋ ์ด์ thinking history๊ฐ ์ฌ๋ผ์ง๋ฉด, ๋ค ๋จ๊ณ์ tool ์ ํ๊ณผ ํ์ผ ์์ ํ์ง๊น์ง ํ๋ค๋ฆด ์ ์๋ค.
๊ทธ๋์ test-time compute๋ Managed agents, Agent memory consolidation, Agent observability์ ํจ๊ป ๋ด์ผ ํ๋ค. agent๊ฐ ์ ๊ทธ๋ฐ ๊ฒฐ์ ์ ํ๋์ง ์ถ์ ํ ์ ์์ผ๋ฉด, ๊ณ์ฐ๋ ์ต์ ํ๊ฐ ์ด๋์ ํ์ง ์ ํ๋ฅผ ๋ง๋ค์๋์ง ์ฐพ๊ธฐ ์ด๋ ต๋ค.
3. AI ์ธํ๋ผ ๊ฒฝ์ ์ฑ๊ณผ ์ง์ ์ฐ๊ฒฐ๋๋ค
๋ ๋ง์ test-time compute๋ ๋ณดํต ๋ ๋ง์ token, ๋ ๊ธด context, ๋ ๊ธด GPU ์ ์ ์๊ฐ, ๋ ๋ง์ memory ์ฌ์ฉ์ ๋ปํ๋ค. ๊ทธ๋์ ์ด ๊ฐ๋ ์ cost per token๊ณผ AI infrastructure FinOps๋ก ์ด์ด์ง๋ค.
NVIDIA์ Claude on GB300/Azure ๊ธ์ฒ๋ผ ๊ธฐ์ ์ฉ agent๋ฅผ ๋๊ท๋ชจ๋ก ์ ๊ณตํ๋ ค๋ ํ๋ฆ์์๋ โ๋ชจ๋ธ์ด ์ผ๋ง๋ ๋๋ํ๊ฐโ๋ฟ ์๋๋ผ โ์ข์ ๊ธฐ๋ณธ๊ฐ์ ์ ์งํ๋ฉด์ latency์ ๋น์ฉ์ ์ผ๋ง๋ ๋ฎ์ถ ์ ์๋๊ฐโ๊ฐ ๊ฒฝ์๋ ฅ์ด ๋๋ค.
์ค์ ์์
Claude Code์ reasoning effort ๊ธฐ๋ณธ๊ฐ
Anthropic์ Claude Code์ ๊ธฐ๋ณธ reasoning effort๋ฅผ high์์ medium์ผ๋ก ๋ฎ์ท๋ค๊ฐ ๋๋๋ ธ๋ค๊ณ ์ค๋ช ํ๋ค. ์ฌ์ฉ๋ ์๋ชจ์ ์ง์ฐ ์๊ฐ์ ์ค์ด๋ ค๋ ์ด์ ๊ฒฐ์ ์ด์์ง๋ง, coding agent ์ฌ์ฉ์๋ ์ฅ๊ธฐ ์์ ์์ ๋ ๋์ ๊ธฐ๋ณธ ์ถ๋ก ํ์ง์ ์ํ๋ค.
์ด ์ฌ๋ก๋ test-time compute๊ฐ ์ฌ์ฉ์ ๊ฒฝํ์ ์ผ๋ถ์์ ๋ณด์ฌ์ค๋ค. ๊ฐ๊ฒฉํ๋ benchmark์๋ ์ ๋ณด์ด์ง ์์๋, ์ ํ ๊ธฐ๋ณธ๊ฐ์ด ๋ฐ๋๋ฉด โ๊ฐ์ ์ด๋ฆ์ ๋ชจ๋ธโ์ด ์ค์ ๋ก๋ ๋ค๋ฅธ ๋๊ตฌ์ฒ๋ผ ๋๊ปด์ง ์ ์๋ค.
๊ธฐ์ ์ฉ agent์ GPU ์ธํ๋ผ
๊ธฐ์ ์ฉ agent๊ฐ ๋ ๋ง์ ๋ฌธ์, tool call, ๊ฒ์ฆ ๋จ๊ณ๋ฅผ ํฌํจํ ์๋ก test-time compute ์์๋ ์ปค์ง๋ค. ์ด๋ HBM, networking, serving scheduler, cache, GPU fleet ํ์ฉ๋ฅ ์ด ๋ชจ๋ ์ค์ํด์ง๋ค. ์ต์ accelerator๋ฅผ ์ฐ๋ ์ด์ ๋ ๋จ์ํ ๋น ๋ฅธ ๋ต์ ์ํด์๋ง์ด ์๋๋ผ, ๋ ๋ง์ ๊ณ์ฐ์ ํ์ฉํ๋ฉด์๋ ๋น์ฉ๊ณผ ์ง์ฐ ์๊ฐ์ ํต์ ํ๊ธฐ ์ํด์๋ค.
ํท๊ฐ๋ฆฌ์ง ๋ง์์ผ ํ ์
- Test-time compute๋ ํ์ต ๋น์ฉ(training cost)๊ณผ ๋ค๋ฅด๋ค. ์ด๋ฏธ ํ์ต๋ ๋ชจ๋ธ์ ์ค์ ์์ฒญ๋ง๋ค ์คํํ ๋ ์ฐ๋ ๊ณ์ฐ์ด๋ค.
- ๊ณ์ฐ์ ๋ ๋ง์ด ์ด๋ค๊ณ ํญ์ ๋ ์ข์ ๋ต์ด ๋์ค๋ ๊ฒ์ ์๋๋ค. ์๋ชป๋ prompt, ๋์ memory, ๋ถ์ ์ ํ tool call์ ๋ ๋ง์ ๊ณ์ฐ์ผ๋ก๋ ๊ณ ์ณ์ง์ง ์์ ์ ์๋ค.
- Latency์ ๋น์ฉ ์ต์ ํ๊ฐ ๋์ ๊ฒ์ ์๋๋ค. ๋ฌธ์ ๋ ์ด๋ค ํ์ง์ ์ค์๋์ง ๊ด์ฐฐยทํ๊ฐํ์ง ๋ชปํ ์ฑ ๊ธฐ๋ณธ๊ฐ์ ๋ฐ๊พธ๋ ๊ฒ์ด๋ค.
- ๋ชจ๋ธ benchmark๋ง์ผ๋ก ์ ํ ํ์ง์ ์ค๋ช ํ ์ ์๋ค. Agent ์ ํ์์๋ reasoning effort, cache, prompt, tool harness, rollout ์ ์ฑ ์ด ํจ๊ป ์๋ํ๋ค.