Test-time compute๋Š” AI ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚จ ๋’ค ์‹ค์ œ ์š”์ฒญ์— ๋‹ตํ•  ๋•Œ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๊ณ„์‚ฐ์„ ์“ฐ๊ฒŒ ํ•  ๊ฒƒ์ธ๊ฐ€์˜ ๋ฌธ์ œ๋‹ค. Claude Code ์‚ฌํ›„๋ถ„์„์—์„œ ๋‚˜์˜จ reasoning effort ๊ธฐ๋ณธ๊ฐ’ ๋ณ€๊ฒฝ์€ ์ด ๊ฐœ๋…์„ ์ž˜ ๋ณด์—ฌ์ค€๋‹ค. ๊ฐ™์€ ๋ชจ๋ธ์ด๋ผ๋„ ๋‹ต๋ณ€ ์ˆœ๊ฐ„์— ๋” ๋งŽ์ด ์ƒ๊ฐํ•˜๊ฒŒ ํ• ์ง€, ๋” ๋นจ๋ฆฌ ๋‹ตํ•˜๊ฒŒ ํ• ์ง€์— ๋”ฐ๋ผ ์‚ฌ์šฉ์ž๊ฐ€ ๋А๋ผ๋Š” ํ’ˆ์งˆยท์ง€์—ฐ ์‹œ๊ฐ„ยท๋น„์šฉ์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค.

ํ•œ ์ค„๋กœ ๋งํ•˜๋ฉด

Test-time compute๋Š” ๋ชจ๋ธ์ด ๋‹ต์„ ๋งŒ๋“ค ๋•Œ ์“ฐ๋Š” ๊ณ„์‚ฐ๋Ÿ‰์„ ์กฐ์ ˆํ•ด ํ’ˆ์งˆ, ์†๋„, ๋น„์šฉ, ์‚ฌ์šฉ๋Ÿ‰ ์ œํ•œ ์‚ฌ์ด์˜ ๊ท ํ˜•์„ ์žก๋Š” ์šด์˜ ๋ณ€์ˆ˜๋‹ค.

๋น„์œ ๋กœ ์ดํ•ดํ•˜๊ธฐ

์‹œํ—˜์„ ๋ณด๋Š” ํ•™์ƒ์„ ๋– ์˜ฌ๋ฆฌ๋ฉด ์‰ฝ๋‹ค. ๊ฐ™์€ ํ•™์ƒ์ด๋ผ๋„ 30์ดˆ ์•ˆ์— ๋ฐ”๋กœ ๋‹ตํ•˜๋ผ๊ณ  ํ•˜๋ฉด ๋น ๋ฅด์ง€๋งŒ ์‹ค์ˆ˜๊ฐ€ ๋Š˜ ์ˆ˜ ์žˆ๊ณ , 10๋ถ„ ๋™์•ˆ ํ’€์ด ๊ณผ์ •์„ ์“ฐ๊ฒŒ ํ•˜๋ฉด ๋” ์ •ํ™•ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ ์‹œ๊ฐ„์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฐ๋‹ค.

AI ๋ชจ๋ธ๋„ ๋น„์Šทํ•˜๋‹ค. ๋‹ต๋ณ€ ์ˆœ๊ฐ„์— ๋” ๋งŽ์€ reasoning step, ๋” ๊ธด context ์ฒ˜๋ฆฌ, ๋” ๋งŽ์€ tool call, ๋” ํฐ beam/search, ๋” ๊ธด self-check๋ฅผ ํ—ˆ์šฉํ•˜๋ฉด ํ’ˆ์งˆ์ด ์ข‹์•„์งˆ ์ˆ˜ ์žˆ๋‹ค. ๋Œ€์‹  latency์™€ token ๋น„์šฉ์ด ๋Š˜๊ณ , ๊ฐ™์€ ์ธํ”„๋ผ์—์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์š”์ฒญ ์ˆ˜๋Š” ์ค„์–ด๋“ ๋‹ค.

๋น„์œ ์˜ ํ•œ๊ณ„๋„ ์žˆ๋‹ค. ์‚ฌ๋žŒ์˜ โ€œ์ƒ๊ฐ ์‹œ๊ฐ„โ€์€ ํ•˜๋‚˜์˜ ์—ฐ์†๋œ ์ •์‹  ํ™œ๋™์ฒ˜๋Ÿผ ๋ณด์ด์ง€๋งŒ, LLM ์ œํ’ˆ์—์„œ test-time compute๋Š” ๋ชจ๋ธ ํ˜ธ์ถœ ํšŸ์ˆ˜, ์ถœ๋ ฅ token ์ˆ˜, reasoning mode, context ๊ธธ์ด, tool execution, cache ์‚ฌ์šฉ, serving scheduler๊ฐ€ ์„ž์ธ ์‹œ์Šคํ…œ ๋ณ€์ˆ˜๋‹ค.

์ •ํ™•ํ•œ ์ •์˜

Test-time compute๋Š” ๋ชจ๋ธ ํ•™์Šต์ด ๋๋‚œ ๋’ค inference ๋‹จ๊ณ„์—์„œ ํ•œ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์“ฐ๋Š” ๊ณ„์‚ฐ ์ž์›์ด๋‹ค. ์—ฌ๊ธฐ์—๋Š” ๋‹ค์Œ์ด ํฌํ•จ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ตฌ์„ฑ ์š”์†Œ๋ฌด์—‡์„ ์กฐ์ ˆํ•˜๋‚˜
Reasoning effort๋‹ต๋ณ€ ์ „์— ์–ผ๋งˆ๋‚˜ ๊นŠ๊ฒŒ ์ถ”๋ก ํ•˜๊ฒŒ ํ• ์ง€
์ถœ๋ ฅ token ์ˆ˜๋‹ต๋ณ€๊ณผ ์ค‘๊ฐ„ reasoning์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ token์„ ํ—ˆ์šฉํ• ์ง€
Context ๊ธธ์ด์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๋ฌธ์„œยท๋Œ€ํ™”ยท์ฝ”๋“œ ๋งฅ๋ฝ์„ ์ฝ๊ฒŒ ํ• ์ง€
Tool call๊ฒ€์ƒ‰, ์ฝ”๋“œ ์‹คํ–‰, ํŒŒ์ผ ํŽธ์ง‘ ๊ฐ™์€ ์™ธ๋ถ€ ํ–‰๋™์„ ์–ผ๋งˆ๋‚˜ ํ—ˆ์šฉํ• ์ง€
์žฌ์‹œ๋„์™€ ๊ฒ€์ฆself-check, evaluator, fallback์„ ์–ผ๋งˆ๋‚˜ ๋ถ™์ผ์ง€
Serving ์ž์›GPU, memory, batching, cache๋ฅผ ์–ด๋–ป๊ฒŒ ๋ฐฐ๋ถ„ํ• ์ง€

์ด ๊ฐœ๋…์€ LLM inference serving๊ณผ ์—ฐ๊ฒฐ๋˜์ง€๋งŒ ์™„์ „ํžˆ ๊ฐ™์ง€๋Š” ์•Š๋‹ค. Inference serving์€ ๋งŽ์€ ์š”์ฒญ์„ ๋น ๋ฅด๊ณ  ์•ˆ์ •์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ์ธํ”„๋ผ ์ „์ฒด๋ฅผ ๋งํ•œ๋‹ค. Test-time compute๋Š” ๊ทธ์ค‘ โ€œ๊ฐ ์š”์ฒญ์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๊ณ„์‚ฐ์„ ์“ฐ๊ฒŒ ํ•  ๊ฒƒ์ธ๊ฐ€โ€๋ผ๋Š” ํ’ˆ์งˆยท๋น„์šฉ ์กฐ์ ˆ ์†์žก์ด์— ๊ฐ€๊น๋‹ค.

์™œ ์ค‘์š”ํ•œ๊ฐ€

1. ๊ฐ™์€ ๋ชจ๋ธ๋„ ์ œํ’ˆ ๊ฒฝํ—˜์ด ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค

Anthropic์˜ Claude Code ํ’ˆ์งˆ ์‚ฌํ›„๋ถ„์„์€ reasoning effort ๊ธฐ๋ณธ๊ฐ’์„ high์—์„œ medium์œผ๋กœ ๋ฐ”๊พผ ์ผ์ด ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์„ ํฌ๊ฒŒ ํ”๋“ค ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ํšŒ์‚ฌ์˜ ์˜๋„๋Š” ๊ธด tail latency์™€ ์‚ฌ์šฉ๋Ÿ‰ ์†Œ๋ชจ๋ฅผ ์ค„์ด๋Š” ๊ฒƒ์ด์—ˆ์ง€๋งŒ, ๋งŽ์€ ์‚ฌ์šฉ์ž๋Š” ๋” ๋น ๋ฅธ ๋‹ต๋ณด๋‹ค ๋” ๋†’์€ ๊ธฐ๋ณธ ์ง€๋Šฅ์„ ๊ธฐ๋Œ€ํ–ˆ๋‹ค.

์ด ์‚ฌ๋ก€์˜ ํ•ต์‹ฌ์€ โ€œ๋ชจ๋ธ์ด ๋‚˜๋น ์กŒ๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋‹ค. ๊ฐ™์€ ๋ชจ๋ธ์ด๋ผ๋„ ์ œํ’ˆ์ด ๋‹ต๋ณ€ ์ˆœ๊ฐ„์— ํ—ˆ์šฉํ•˜๋Š” ๊ณ„์‚ฐ๋Ÿ‰, cache ์ •์ฑ…, prompt ์ œ์•ฝ์ด ๋ฐ”๋€Œ๋ฉด ์‚ฌ์šฉ์ž๋Š” ์ „ํ˜€ ๋‹ค๋ฅธ ํ’ˆ์งˆ์„ ๊ฒฝํ—˜ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ ์ด๋‹ค.

2. Agent์—์„œ๋Š” ๋น„์šฉ ์ ˆ๊ฐ์ด ํ’ˆ์งˆ ์†์ƒ์œผ๋กœ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค

์ผ๋ฐ˜ chatbot์€ ํ•œ ๋ฒˆ์˜ ๋‹ต๋ณ€์ด ์กฐ๊ธˆ ์งง์•„์ ธ๋„ ํฐ ๋ฌธ์ œ๊ฐ€ ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค. ํ•˜์ง€๋งŒ coding agent๋‚˜ ์—…๋ฌด agent๋Š” ์—ฌ๋Ÿฌ ๋‹จ๊ณ„์˜ ๊ฒฐ์ •์„ ์ด์–ด๊ฐ„๋‹ค. ํ•œ ๋‹จ๊ณ„์—์„œ reasoning์„ ๋œ ์“ฐ๊ฑฐ๋‚˜ ์ด์ „ thinking history๊ฐ€ ์‚ฌ๋ผ์ง€๋ฉด, ๋’ค ๋‹จ๊ณ„์˜ tool ์„ ํƒ๊ณผ ํŒŒ์ผ ์ˆ˜์ • ํ’ˆ์งˆ๊นŒ์ง€ ํ”๋“ค๋ฆด ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋ž˜์„œ test-time compute๋Š” Managed agents, Agent memory consolidation, Agent observability์™€ ํ•จ๊ป˜ ๋ด์•ผ ํ•œ๋‹ค. agent๊ฐ€ ์™œ ๊ทธ๋Ÿฐ ๊ฒฐ์ •์„ ํ–ˆ๋Š”์ง€ ์ถ”์ ํ•  ์ˆ˜ ์—†์œผ๋ฉด, ๊ณ„์‚ฐ๋Ÿ‰ ์ตœ์ ํ™”๊ฐ€ ์–ด๋””์„œ ํ’ˆ์งˆ ์ €ํ•˜๋ฅผ ๋งŒ๋“ค์—ˆ๋Š”์ง€ ์ฐพ๊ธฐ ์–ด๋ ต๋‹ค.

3. AI ์ธํ”„๋ผ ๊ฒฝ์ œ์„ฑ๊ณผ ์ง์ ‘ ์—ฐ๊ฒฐ๋œ๋‹ค

๋” ๋งŽ์€ test-time compute๋Š” ๋ณดํ†ต ๋” ๋งŽ์€ token, ๋” ๊ธด context, ๋” ๊ธด GPU ์ ์œ  ์‹œ๊ฐ„, ๋” ๋งŽ์€ memory ์‚ฌ์šฉ์„ ๋œปํ•œ๋‹ค. ๊ทธ๋ž˜์„œ ์ด ๊ฐœ๋…์€ cost per token๊ณผ AI infrastructure FinOps๋กœ ์ด์–ด์ง„๋‹ค.

NVIDIA์˜ Claude on GB300/Azure ๊ธ€์ฒ˜๋Ÿผ ๊ธฐ์—…์šฉ agent๋ฅผ ๋Œ€๊ทœ๋ชจ๋กœ ์ œ๊ณตํ•˜๋ ค๋Š” ํ๋ฆ„์—์„œ๋Š” โ€œ๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ๋˜‘๋˜‘ํ•œ๊ฐ€โ€๋ฟ ์•„๋‹ˆ๋ผ โ€œ์ข‹์€ ๊ธฐ๋ณธ๊ฐ’์„ ์œ ์ง€ํ•˜๋ฉด์„œ latency์™€ ๋น„์šฉ์„ ์–ผ๋งˆ๋‚˜ ๋‚ฎ์ถœ ์ˆ˜ ์žˆ๋Š”๊ฐ€โ€๊ฐ€ ๊ฒฝ์Ÿ๋ ฅ์ด ๋œ๋‹ค.

์‹ค์ œ ์˜ˆ์‹œ

Claude Code์˜ reasoning effort ๊ธฐ๋ณธ๊ฐ’

Anthropic์€ Claude Code์˜ ๊ธฐ๋ณธ reasoning effort๋ฅผ high์—์„œ medium์œผ๋กœ ๋‚ฎ์ท„๋‹ค๊ฐ€ ๋˜๋Œ๋ ธ๋‹ค๊ณ  ์„ค๋ช…ํ–ˆ๋‹ค. ์‚ฌ์šฉ๋Ÿ‰ ์†Œ๋ชจ์™€ ์ง€์—ฐ ์‹œ๊ฐ„์„ ์ค„์ด๋ ค๋Š” ์šด์˜ ๊ฒฐ์ •์ด์—ˆ์ง€๋งŒ, coding agent ์‚ฌ์šฉ์ž๋Š” ์žฅ๊ธฐ ์ž‘์—…์—์„œ ๋” ๋†’์€ ๊ธฐ๋ณธ ์ถ”๋ก  ํ’ˆ์งˆ์„ ์›ํ–ˆ๋‹ค.

์ด ์‚ฌ๋ก€๋Š” test-time compute๊ฐ€ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜์˜ ์ผ๋ถ€์ž„์„ ๋ณด์—ฌ์ค€๋‹ค. ๊ฐ€๊ฒฉํ‘œ๋‚˜ benchmark์—๋Š” ์ž˜ ๋ณด์ด์ง€ ์•Š์•„๋„, ์ œํ’ˆ ๊ธฐ๋ณธ๊ฐ’์ด ๋ฐ”๋€Œ๋ฉด โ€œ๊ฐ™์€ ์ด๋ฆ„์˜ ๋ชจ๋ธโ€์ด ์‹ค์ œ๋กœ๋Š” ๋‹ค๋ฅธ ๋„๊ตฌ์ฒ˜๋Ÿผ ๋А๊ปด์งˆ ์ˆ˜ ์žˆ๋‹ค.

๊ธฐ์—…์šฉ agent์™€ GPU ์ธํ”„๋ผ

๊ธฐ์—…์šฉ agent๊ฐ€ ๋” ๋งŽ์€ ๋ฌธ์„œ, tool call, ๊ฒ€์ฆ ๋‹จ๊ณ„๋ฅผ ํฌํ•จํ• ์ˆ˜๋ก test-time compute ์ˆ˜์š”๋Š” ์ปค์ง„๋‹ค. ์ด๋•Œ HBM, networking, serving scheduler, cache, GPU fleet ํ™œ์šฉ๋ฅ ์ด ๋ชจ๋‘ ์ค‘์š”ํ•ด์ง„๋‹ค. ์ตœ์‹  accelerator๋ฅผ ์“ฐ๋Š” ์ด์œ ๋„ ๋‹จ์ˆœํžˆ ๋น ๋ฅธ ๋‹ต์„ ์œ„ํ•ด์„œ๋งŒ์ด ์•„๋‹ˆ๋ผ, ๋” ๋งŽ์€ ๊ณ„์‚ฐ์„ ํ—ˆ์šฉํ•˜๋ฉด์„œ๋„ ๋น„์šฉ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ํ†ต์ œํ•˜๊ธฐ ์œ„ํ•ด์„œ๋‹ค.

ํ—ท๊ฐˆ๋ฆฌ์ง€ ๋ง์•„์•ผ ํ•  ์ 

  • Test-time compute๋Š” ํ•™์Šต ๋น„์šฉ(training cost)๊ณผ ๋‹ค๋ฅด๋‹ค. ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‹ค์ œ ์š”์ฒญ๋งˆ๋‹ค ์‹คํ–‰ํ•  ๋•Œ ์“ฐ๋Š” ๊ณ„์‚ฐ์ด๋‹ค.
  • ๊ณ„์‚ฐ์„ ๋” ๋งŽ์ด ์“ด๋‹ค๊ณ  ํ•ญ์ƒ ๋” ์ข‹์€ ๋‹ต์ด ๋‚˜์˜ค๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ์ž˜๋ชป๋œ prompt, ๋‚˜์œ memory, ๋ถ€์ ์ ˆํ•œ tool call์€ ๋” ๋งŽ์€ ๊ณ„์‚ฐ์œผ๋กœ๋„ ๊ณ ์ณ์ง€์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค.
  • Latency์™€ ๋น„์šฉ ์ตœ์ ํ™”๊ฐ€ ๋‚˜์œ ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ๋ฌธ์ œ๋Š” ์–ด๋–ค ํ’ˆ์งˆ์„ ์ค„์˜€๋Š”์ง€ ๊ด€์ฐฐยทํ‰๊ฐ€ํ•˜์ง€ ๋ชปํ•œ ์ฑ„ ๊ธฐ๋ณธ๊ฐ’์„ ๋ฐ”๊พธ๋Š” ๊ฒƒ์ด๋‹ค.
  • ๋ชจ๋ธ benchmark๋งŒ์œผ๋กœ ์ œํ’ˆ ํ’ˆ์งˆ์„ ์„ค๋ช…ํ•  ์ˆ˜ ์—†๋‹ค. Agent ์ œํ’ˆ์—์„œ๋Š” reasoning effort, cache, prompt, tool harness, rollout ์ •์ฑ…์ด ํ•จ๊ป˜ ์ž‘๋™ํ•œ๋‹ค.

๊ด€๋ จ ๋ฌธ์„œ