Cost per token์€ LLM ์„œ๋น„์Šค๊ฐ€ ๋‹ต๋ณ€ token ํ•˜๋‚˜๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๋Š” ๋ฐ ๋“œ๋Š” ๋‹จ์œ„ ๋น„์šฉ์„ ๋œปํ•œ๋‹ค. AI ์ธํ”„๋ผ๋ฅผ ๋ณผ ๋•Œ โ€œ๊ฐ€์žฅ ๋น ๋ฅธ ์นฉโ€์ด๋‚˜ โ€œ๊ฐ€์žฅ ํฐ ๋ชจ๋ธโ€๋งŒ ๋ณด๋ฉด ๋ถ€์กฑํ•˜๋‹ค. ์‹ค์ œ ์„œ๋น„์Šค์—์„œ๋Š” ๊ฐ™์€ ์ „๋ ฅยท์นฉยท๋ฉ”๋ชจ๋ฆฌยท์†Œํ”„ํŠธ์›จ์–ด๋กœ ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ์œ ์šฉํ•œ token์„ ์•ˆ์ •์ ์œผ๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋Š”์ง€๊ฐ€ ์ˆ˜์ต์„ฑ์„ ์ขŒ์šฐํ•œ๋‹ค.

ํ•œ ์ค„๋กœ ๋งํ•˜๋ฉด

Cost per token์€ LLM์ด ์‹ค์ œ ์‚ฌ์šฉ์ž ์š”์ฒญ์— ์‘๋‹ตํ•˜๋ฉด์„œ token ํ•˜๋‚˜๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ๋“ค์–ด๊ฐ€๋Š” ๊ณ„์‚ฐยท๋ฉ”๋ชจ๋ฆฌยท์ „๋ ฅยท์†Œํ”„ํŠธ์›จ์–ดยท์šด์˜ ๋น„์šฉ์„ ๋‹จ์œ„๋กœ ๋‚˜๋ˆ  ๋ณด๋Š” ์ง€ํ‘œ๋‹ค.

๋น„์œ ๋กœ ์ดํ•ดํ•˜๊ธฐ

AI ์„œ๋น„์Šค๋ฅผ ๋ฐœ์ „์†Œ์— ๋น„์œ ํ•˜๋ฉด, ๋ชจ๋ธ์€ ์ „๊ธฐ๋ฅผ ๋งŒ๋“œ๋Š” ์„ค๋น„์ด๊ณ  token์€ ์†Œ๋น„์ž์—๊ฒŒ ์ „๋‹ฌ๋˜๋Š” ์ „๊ธฐ 1kWh ๊ฐ™์€ ๋‹จ์œ„๋กœ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋ฐœ์ „์†Œ๊ฐ€ ์•„๋ฌด๋ฆฌ ๋ฉ‹์ ธ ๋ณด์—ฌ๋„ 1kWh๋ฅผ ๋งŒ๋“œ๋Š” ๋น„์šฉ์ด ๋„ˆ๋ฌด ๋†’์œผ๋ฉด ์ „๊ธฐ๋ฅผ ์‹ธ๊ณ  ์•ˆ์ •์ ์œผ๋กœ ๊ณต๊ธ‰ํ•˜๊ธฐ ์–ด๋ ต๋‹ค.

LLM๋„ ๋น„์Šทํ•˜๋‹ค. ๋ฐ๋ชจ์—์„œ๋Š” ๋‹ต๋ณ€ ํ’ˆ์งˆ์ด ๋จผ์ € ๋ณด์ด์ง€๋งŒ, ์ œํ’ˆ์—์„œ๋Š” ๋งค์ผ ์ƒ์„ฑ๋˜๋Š” ์ˆ˜์‹ญ์–ต ๊ฐœ token์˜ ๋น„์šฉ์ด ์Œ“์ธ๋‹ค. ๊ฐ™์€ ๋ชจ๋ธ์ด๋ผ๋„ GPU ํ™œ์šฉ๋ฅ , batch ์ฒ˜๋ฆฌ, memory bandwidth, scheduler, ์ „๋ ฅ ๊ฐ€๊ฒฉ์ด ๋‹ฌ๋ผ์ง€๋ฉด token๋‹น ๋น„์šฉ์ด ํฌ๊ฒŒ ๋ฐ”๋€๋‹ค.

๋น„์œ ์˜ ํ•œ๊ณ„๋„ ์žˆ๋‹ค. ์ „๊ธฐ 1kWh๋Š” ๋น„๊ต์  ๊ท ์งˆํ•œ ๋‹จ์œ„์ง€๋งŒ, LLM token์€ workload์— ๋”ฐ๋ผ ๋น„์šฉ์ด ๋‹ค๋ฅด๋‹ค. ๊ธด context, ๋‚ฎ์€ latency ๋ชฉํ‘œ, tool call์ด ๋งŽ์€ agent workflow, ํฐ ๋ชจ๋ธ, multi-modal ์ž…๋ ฅ์€ ๋ชจ๋‘ token ๋น„์šฉ์„ ๋‹ค๋ฅด๊ฒŒ ๋งŒ๋“ ๋‹ค.

์ •ํ™•ํ•œ ์ •์˜

Cost per token์€ LLM inference์—์„œ token ์ƒ์„ฑ ๋น„์šฉ์„ ๋‹จ์œ„ํ™”ํ•œ ์ง€ํ‘œ๋‹ค. ๋ณดํ†ต ๋‹ค์Œ ์š”์†Œ๋“ค์ด ํ•จ๊ป˜ ์˜ํ–ฅ์„ ์ค€๋‹ค.

๋น„์šฉ ์š”์†Œ์™œ ์ค‘์š”ํ•œ๊ฐ€
Accelerator ๋น„์šฉGPUยทAI chip ๊ตฌ๋งค ๋˜๋Š” ์ž„๋Œ€ ๋น„์šฉ์ด amortization์œผ๋กœ ๋ฐ˜์˜๋œ๋‹ค
HBM๊ณผ memory bandwidth๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ KV cache๋ฅผ ์–ผ๋งˆ๋‚˜ ๋น ๋ฅด๊ฒŒ ์ฝ๊ณ  ์“ธ ์ˆ˜ ์žˆ๋Š”์ง€ ๊ฒฐ์ •ํ•œ๋‹ค
GPU utilization๋น„์‹ผ ์žฅ๋น„๊ฐ€ ์–ผ๋งˆ๋‚˜ ๋†€์ง€ ์•Š๊ณ  ์“ฐ์ด๋Š”์ง€ ์ขŒ์šฐํ•œ๋‹ค
Batchยทscheduler์—ฌ๋Ÿฌ ์š”์ฒญ์„ ์–ด๋–ป๊ฒŒ ๋ฌถ๊ณ  ์šฐ์„ ์ˆœ์œ„๋ฅผ ๋‘˜์ง€ ๊ฒฐ์ •ํ•œ๋‹ค
Networkingยทinterconnect์—ฌ๋Ÿฌ chip๊ณผ node๋ฅผ ๋ฌถ์„ ๋•Œ latency์™€ throughput์„ ๋ฐ”๊พผ๋‹ค
์ „๋ ฅยท๋ƒ‰๊ฐ๋ฐ์ดํ„ฐ์„ผํ„ฐ ์šด์˜๋น„์™€ rack density์— ์˜ํ–ฅ์„ ์ค€๋‹ค
Software stackruntime, kernel, library, serving framework๊ฐ€ ๊ฐ™์€ hardware์˜ ์‹ค์ œ ์„ฑ๋Šฅ์„ ๋Œ์–ด๋‚ธ๋‹ค

๋”ฐ๋ผ์„œ cost per token์€ ์นฉ ์ŠคํŽ™ ํ•˜๋‚˜๋กœ ๊ณ„์‚ฐ๋˜๋Š” ์ˆซ์ž๊ฐ€ ์•„๋‹ˆ๋‹ค. LLM inference serving ์ „์ฒด์˜ unit economics๋ฅผ ์••์ถ•ํ•ด์„œ ๋ณด๋Š” ๋ Œ์ฆˆ์— ๊ฐ€๊น๋‹ค.

์™œ ์ค‘์š”ํ•œ๊ฐ€

1. AI ์‚ฌ์šฉ๋Ÿ‰์ด ๋Š˜์ˆ˜๋ก ๋น„์šฉ ์ค‘์‹ฌ์ด inference๋กœ ์ด๋™ํ•œ๋‹ค

๋Œ€ํ˜• ๋ชจ๋ธ ํ•™์Šต ๋น„์šฉ์€ ํฌ์ง€๋งŒ, ์ œํ’ˆ์ด ๋„๋ฆฌ ์“ฐ์ด๋ฉด inference ๋น„์šฉ์ด ๋ฐ˜๋ณต์ ์œผ๋กœ ์Œ“์ธ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ๋” ๋งŽ์•„์ง€๊ณ  agent๊ฐ€ ๋” ๋งŽ์€ tool call๊ณผ reasoning step์„ ์ˆ˜ํ–‰ํ• ์ˆ˜๋ก, token ๋น„์šฉ์€ ๋งค์ถœ์ด์ด์ต๋ฅ ๊ณผ ๊ฐ€๊ฒฉ ์ •์ฑ…์— ์ง์ ‘ ์˜ํ–ฅ์„ ์ค€๋‹ค.

๊ทธ๋ž˜์„œ AI ๊ธฐ์—…์€ ๋‹จ์ˆœํžˆ ๋ชจ๋ธ์„ ๋” ํฌ๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฒƒ๋ฟ ์•„๋‹ˆ๋ผ, ๊ฐ™์€ ํ’ˆ์งˆ์„ ๋” ๋‚ฎ์€ ๋น„์šฉ์œผ๋กœ ์ œ๊ณตํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ์•„์•ผ ํ•œ๋‹ค. ์ž‘์€ token ๋น„์šฉ ์ฐจ์ด๋„ ๋Œ€๊ทœ๋ชจ ์‚ฌ์šฉ๋Ÿ‰์—์„œ๋Š” ํฐ ๋ˆ์ด ๋œ๋‹ค.

2. Capex ํšŒ์ˆ˜ ๊ธฐ๊ฐ„์„ ๋ฐ”๊พผ๋‹ค

AI capex cycle์—์„œ๋Š” ๋ฐ์ดํ„ฐ์„ผํ„ฐ, ์นฉ, ์ „๋ ฅ, ๋ƒ‰๊ฐ, ๋„คํŠธ์›Œํฌ์— ๋จผ์ € ํฐ๋ˆ์„ ์“ด๋‹ค. ์ด ํˆฌ์ž๊ธˆ์„ ํšŒ์ˆ˜ํ•˜๋ ค๋ฉด ๊ทธ ์ธํ”„๋ผ๊ฐ€ ์ถฉ๋ถ„ํžˆ ๋งŽ์€ ์œ ๋ฃŒ ์‚ฌ์šฉ๋Ÿ‰์„ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•œ๋‹ค.

Cost per token์ด ๋‚ฎ์•„์ง€๋ฉด ๊ฐ™์€ ์„ค๋น„๋กœ ๋” ๋งŽ์€ token์„ ํŒ” ์ˆ˜ ์žˆ๊ฑฐ๋‚˜, ๊ฐ€๊ฒฉ์„ ๋‚ฎ์ถฐ ์ˆ˜์š”๋ฅผ ๋Š˜๋ฆด ์ˆ˜ ์žˆ๋‹ค. ๋ฐ˜๋Œ€๋กœ token ๋น„์šฉ์ด ๋†’์œผ๋ฉด ์‚ฌ์šฉ๋Ÿ‰์ด ๋Š˜์ˆ˜๋ก ์†์‹ค์ด ์ปค์งˆ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ token ๋น„์šฉ์€ AI capex๊ฐ€ ์‹ค์ œ ์ˆ˜์ต์œผ๋กœ ๋Œ์•„์˜ค๋Š”์ง€ ๋ณด๋Š” ํ•ต์‹ฌ ์ง€ํ‘œ๋‹ค.

3. Software stack์ด ํ•˜๋“œ์›จ์–ด ๊ฒฝ์ œ์„ฑ์„ ๋‹ค์‹œ ๊ณ„์‚ฐํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค

NVIDIA์˜ inference software stack ๊ธ€์€ Blackwell, Dynamo, TensorRT-LLM, vLLM, SGLang ๊ฐ™์€ software layer๊ฐ€ token ๋น„์šฉ์„ ๋‚ฎ์ถœ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค. ์ด ์ฃผ์žฅ์€ vendor ๊ด€์ ์ด๋ฏ€๋กœ ๋…๋ฆฝ benchmark๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ, ์ค‘์š”ํ•œ ๋ฐฉํ–ฅ์€ ๋ถ„๋ช…ํ•˜๋‹ค.

AI ์ธํ”„๋ผ ๊ฒฝ์Ÿ์€ hardware ๊ตฌ๋งค์—์„œ ๋๋‚˜์ง€ ์•Š๋Š”๋‹ค. Runtime, kernel, scheduler, model parallelism, precision, memory management๊ฐ€ ๊ฐ™์€ hardware์˜ ์‹ค์ œ ์ฒ˜๋ฆฌ๋Ÿ‰์„ ๊ณ„์† ๋ฐ”๊พผ๋‹ค. ๊ทธ๋ž˜์„œ cost per token์€ hardware์™€ software๊ฐ€ ํ•ฉ์ณ์ง„ ๊ฒฐ๊ณผ๋‹ค.

์‹ค์ œ ์˜ˆ์‹œ

NVIDIA inference software stack

NVIDIA๋Š” 2026๋…„ ๋ธ”๋กœ๊ทธ์—์„œ production AI factory์˜ ํŒ๋‹จ ๊ธฐ์ค€์ด peak chip specification์—์„œ cost per token์œผ๋กœ ์ด๋™ํ•œ๋‹ค๊ณ  ์„ค๋ช…ํ–ˆ๋‹ค. ๊ธ€์—์„œ๋Š” Blackwell ๊ธฐ๋ฐ˜ stack์—์„œ Dynamo, TensorRT-LLM, CUDA-native framework, vLLM/SGLang ์ตœ์ ํ™”๊ฐ€ ๊ฒน์น˜๋ฉด token ๋น„์šฉ์„ ๋‚ฎ์ถœ ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ–ˆ๋‹ค.

์ด ์ฃผ์žฅ์„ ์ฝ์„ ๋•Œ ์ค‘์š”ํ•œ ์งˆ๋ฌธ์€ โ€œ๋ช‡ ๋ฐฐ ๋นจ๋ผ์กŒ๋‹คโ€๊ฐ€ ์•„๋‹ˆ๋ผ ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

  • ์–ด๋–ค ๋ชจ๋ธ๊ณผ workload์—์„œ ๋‚˜์˜จ ๊ฒฐ๊ณผ์ธ๊ฐ€?
  • latency ๋ชฉํ‘œ์™€ batch size๋Š” ๋ฌด์—‡์ธ๊ฐ€?
  • baseline์€ ์–ด๋–ค hardware์™€ software stack์ธ๊ฐ€?
  • ์ „๋ ฅ, ๋ƒ‰๊ฐ, cloud ๊ฐ€๊ฒฉ, ์ธ๋ ฅ ์šด์˜๋น„๊นŒ์ง€ ํฌํ•จํ•œ ์ด๋น„์šฉ์ธ๊ฐ€?
  • ๊ฒฝ์Ÿ accelerator๋‚˜ ๋‹ค๋ฅธ cloud provider์™€ ๋น„๊ตํ•ด๋„ ๊ฐ™์€ ๊ฒฐ๋ก ์ธ๊ฐ€?

Agentic workload

Agent๋Š” ๋‹จ์ˆœ prompt-response๋ณด๋‹ค token ๋น„์šฉ์„ ๋” ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ ๋‹ค. Agent๊ฐ€ ๋ฌธ์„œ๋ฅผ ๊ฒ€์ƒ‰ํ•˜๊ณ , tool์„ ํ˜ธ์ถœํ•˜๊ณ , ๊ฒฐ๊ณผ๋ฅผ ์ฝ๊ณ , ๋‹ค์‹œ ๊ณ„ํš์„ ์„ธ์šฐ๋ฉด ์—ฌ๋Ÿฌ ๋ฒˆ์˜ LLM ํ˜ธ์ถœ๊ณผ ๊ธด context๊ฐ€ ์ƒ๊ธด๋‹ค.

๋”ฐ๋ผ์„œ agent ์„œ๋น„์Šค์˜ cost per token์€ ๋‹จ์ˆœ ์ฑ„ํŒ… ์„œ๋น„์Šค๋ณด๋‹ค budget control, observability, caching, tool routing๊ณผ ๋” ๊นŠ๊ฒŒ ์—ฐ๊ฒฐ๋œ๋‹ค. Agent observability๊ฐ€ ๋น„์šฉ๊ณผ ์ง€์—ฐ ์‹œ๊ฐ„์„ ํ•จ๊ป˜ ๋ด์•ผ ํ•˜๋Š” ์ด์œ ๋„ ์—ฌ๊ธฐ์— ์žˆ๋‹ค.

ํ—ท๊ฐˆ๋ฆฌ์ง€ ๋ง์•„์•ผ ํ•  ์ 

  • Cost per token์€ token ๊ฐ€๊ฒฉํ‘œ์™€ ๊ฐ™์€ ๋ง์ด ์•„๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ์ง€๋ถˆํ•˜๋Š” ๊ฐ€๊ฒฉ์—๋Š” ๋งˆ์ง„, ์ œํ’ˆ ๋ฒˆ๋“ค, ๋ฌด๋ฃŒ ์‚ฌ์šฉ๋Ÿ‰, ๊ตฌ๋… ์ •์ฑ…์ด ํ•จ๊ป˜ ๋“ค์–ด๊ฐ„๋‹ค.
  • Chip ๊ฐ€๊ฒฉ๋งŒ ๋‚ฎ๋‹ค๊ณ  token ๋น„์šฉ์ด ๋‚ฎ์•„์ง€๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. Utilization, memory, networking, software, ์ „๋ ฅยท๋ƒ‰๊ฐ์ด ํ•จ๊ป˜ ์›€์ง์ธ๋‹ค.
  • Benchmark ์ˆซ์ž๋Š” workload ์กฐ๊ฑด์— ๋งค์šฐ ๋ฏผ๊ฐํ•˜๋‹ค. ๊ฐ™์€ stack๋„ ๊ธด context, ์ž‘์€ batch, ๋‚ฎ์€ latency ๋ชฉํ‘œ์—์„œ๋Š” ๋‹ค๋ฅด๊ฒŒ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค.
  • Token ๋น„์šฉ์„ ๋‚ฎ์ถ”๋Š” ๊ฒƒ์ด ๊ณง ์ข‹์€ ์ œํ’ˆ์ด๋ผ๋Š” ๋œป์€ ์•„๋‹ˆ๋‹ค. ํ’ˆ์งˆ, ์•ˆ์ „์„ฑ, latency, reliability, ๊ณ ๊ฐ workflow fit์ด ํ•จ๊ป˜ ๋งž์•„์•ผ ํ•œ๋‹ค.
  • Vendor ๋ธ”๋กœ๊ทธ์˜ ์„ฑ๋Šฅ ์ฃผ์žฅ์€ ์ค‘์š”ํ•œ ๋‹จ์„œ์ง€๋งŒ, ๋…๋ฆฝ benchmark์™€ ์‹ค์ œ ๊ณ ๊ฐ ๋น„์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ๋ด์•ผ ํ•œ๋‹ค.

๊ด€๋ จ ๋ฌธ์„œ

์ถœ์ฒ˜