Cost per token์ LLM ์๋น์ค๊ฐ ๋ต๋ณ token ํ๋๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ฐ ๋๋ ๋จ์ ๋น์ฉ์ ๋ปํ๋ค. AI ์ธํ๋ผ๋ฅผ ๋ณผ ๋ โ๊ฐ์ฅ ๋น ๋ฅธ ์นฉโ์ด๋ โ๊ฐ์ฅ ํฐ ๋ชจ๋ธโ๋ง ๋ณด๋ฉด ๋ถ์กฑํ๋ค. ์ค์ ์๋น์ค์์๋ ๊ฐ์ ์ ๋ ฅยท์นฉยท๋ฉ๋ชจ๋ฆฌยท์ํํธ์จ์ด๋ก ์ผ๋ง๋ ๋ง์ ์ ์ฉํ token์ ์์ ์ ์ผ๋ก ๋ง๋ค ์ ์๋์ง๊ฐ ์์ต์ฑ์ ์ข์ฐํ๋ค.
ํ ์ค๋ก ๋งํ๋ฉด
Cost per token์ LLM์ด ์ค์ ์ฌ์ฉ์ ์์ฒญ์ ์๋ตํ๋ฉด์ token ํ๋๋ฅผ ์์ฑํ๋ ๋ฐ ๋ค์ด๊ฐ๋ ๊ณ์ฐยท๋ฉ๋ชจ๋ฆฌยท์ ๋ ฅยท์ํํธ์จ์ดยท์ด์ ๋น์ฉ์ ๋จ์๋ก ๋๋ ๋ณด๋ ์งํ๋ค.
๋น์ ๋ก ์ดํดํ๊ธฐ
AI ์๋น์ค๋ฅผ ๋ฐ์ ์์ ๋น์ ํ๋ฉด, ๋ชจ๋ธ์ ์ ๊ธฐ๋ฅผ ๋ง๋๋ ์ค๋น์ด๊ณ token์ ์๋น์์๊ฒ ์ ๋ฌ๋๋ ์ ๊ธฐ 1kWh ๊ฐ์ ๋จ์๋ก ๋ณผ ์ ์๋ค. ๋ฐ์ ์๊ฐ ์๋ฌด๋ฆฌ ๋ฉ์ ธ ๋ณด์ฌ๋ 1kWh๋ฅผ ๋ง๋๋ ๋น์ฉ์ด ๋๋ฌด ๋์ผ๋ฉด ์ ๊ธฐ๋ฅผ ์ธ๊ณ ์์ ์ ์ผ๋ก ๊ณต๊ธํ๊ธฐ ์ด๋ ต๋ค.
LLM๋ ๋น์ทํ๋ค. ๋ฐ๋ชจ์์๋ ๋ต๋ณ ํ์ง์ด ๋จผ์ ๋ณด์ด์ง๋ง, ์ ํ์์๋ ๋งค์ผ ์์ฑ๋๋ ์์ญ์ต ๊ฐ token์ ๋น์ฉ์ด ์์ธ๋ค. ๊ฐ์ ๋ชจ๋ธ์ด๋ผ๋ GPU ํ์ฉ๋ฅ , batch ์ฒ๋ฆฌ, memory bandwidth, scheduler, ์ ๋ ฅ ๊ฐ๊ฒฉ์ด ๋ฌ๋ผ์ง๋ฉด token๋น ๋น์ฉ์ด ํฌ๊ฒ ๋ฐ๋๋ค.
๋น์ ์ ํ๊ณ๋ ์๋ค. ์ ๊ธฐ 1kWh๋ ๋น๊ต์ ๊ท ์งํ ๋จ์์ง๋ง, LLM token์ workload์ ๋ฐ๋ผ ๋น์ฉ์ด ๋ค๋ฅด๋ค. ๊ธด context, ๋ฎ์ latency ๋ชฉํ, tool call์ด ๋ง์ agent workflow, ํฐ ๋ชจ๋ธ, multi-modal ์ ๋ ฅ์ ๋ชจ๋ token ๋น์ฉ์ ๋ค๋ฅด๊ฒ ๋ง๋ ๋ค.
์ ํํ ์ ์
Cost per token์ LLM inference์์ token ์์ฑ ๋น์ฉ์ ๋จ์ํํ ์งํ๋ค. ๋ณดํต ๋ค์ ์์๋ค์ด ํจ๊ป ์ํฅ์ ์ค๋ค.
| ๋น์ฉ ์์ | ์ ์ค์ํ๊ฐ |
|---|---|
| Accelerator ๋น์ฉ | GPUยทAI chip ๊ตฌ๋งค ๋๋ ์๋ ๋น์ฉ์ด amortization์ผ๋ก ๋ฐ์๋๋ค |
| HBM๊ณผ memory bandwidth | ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ KV cache๋ฅผ ์ผ๋ง๋ ๋น ๋ฅด๊ฒ ์ฝ๊ณ ์ธ ์ ์๋์ง ๊ฒฐ์ ํ๋ค |
| GPU utilization | ๋น์ผ ์ฅ๋น๊ฐ ์ผ๋ง๋ ๋์ง ์๊ณ ์ฐ์ด๋์ง ์ข์ฐํ๋ค |
| Batchยทscheduler | ์ฌ๋ฌ ์์ฒญ์ ์ด๋ป๊ฒ ๋ฌถ๊ณ ์ฐ์ ์์๋ฅผ ๋์ง ๊ฒฐ์ ํ๋ค |
| Networkingยทinterconnect | ์ฌ๋ฌ chip๊ณผ node๋ฅผ ๋ฌถ์ ๋ latency์ throughput์ ๋ฐ๊พผ๋ค |
| ์ ๋ ฅยท๋๊ฐ | ๋ฐ์ดํฐ์ผํฐ ์ด์๋น์ rack density์ ์ํฅ์ ์ค๋ค |
| Software stack | runtime, kernel, library, serving framework๊ฐ ๊ฐ์ hardware์ ์ค์ ์ฑ๋ฅ์ ๋์ด๋ธ๋ค |
๋ฐ๋ผ์ cost per token์ ์นฉ ์คํ ํ๋๋ก ๊ณ์ฐ๋๋ ์ซ์๊ฐ ์๋๋ค. LLM inference serving ์ ์ฒด์ unit economics๋ฅผ ์์ถํด์ ๋ณด๋ ๋ ์ฆ์ ๊ฐ๊น๋ค.
์ ์ค์ํ๊ฐ
1. AI ์ฌ์ฉ๋์ด ๋์๋ก ๋น์ฉ ์ค์ฌ์ด inference๋ก ์ด๋ํ๋ค
๋ํ ๋ชจ๋ธ ํ์ต ๋น์ฉ์ ํฌ์ง๋ง, ์ ํ์ด ๋๋ฆฌ ์ฐ์ด๋ฉด inference ๋น์ฉ์ด ๋ฐ๋ณต์ ์ผ๋ก ์์ธ๋ค. ์ฌ์ฉ์๊ฐ ๋ ๋ง์์ง๊ณ agent๊ฐ ๋ ๋ง์ tool call๊ณผ reasoning step์ ์ํํ ์๋ก, token ๋น์ฉ์ ๋งค์ถ์ด์ด์ต๋ฅ ๊ณผ ๊ฐ๊ฒฉ ์ ์ฑ ์ ์ง์ ์ํฅ์ ์ค๋ค.
๊ทธ๋์ AI ๊ธฐ์ ์ ๋จ์ํ ๋ชจ๋ธ์ ๋ ํฌ๊ฒ ๋ง๋๋ ๊ฒ๋ฟ ์๋๋ผ, ๊ฐ์ ํ์ง์ ๋ ๋ฎ์ ๋น์ฉ์ผ๋ก ์ ๊ณตํ๋ ๋ฐฉ๋ฒ์ ์ฐพ์์ผ ํ๋ค. ์์ token ๋น์ฉ ์ฐจ์ด๋ ๋๊ท๋ชจ ์ฌ์ฉ๋์์๋ ํฐ ๋์ด ๋๋ค.
2. Capex ํ์ ๊ธฐ๊ฐ์ ๋ฐ๊พผ๋ค
AI capex cycle์์๋ ๋ฐ์ดํฐ์ผํฐ, ์นฉ, ์ ๋ ฅ, ๋๊ฐ, ๋คํธ์ํฌ์ ๋จผ์ ํฐ๋์ ์ด๋ค. ์ด ํฌ์๊ธ์ ํ์ํ๋ ค๋ฉด ๊ทธ ์ธํ๋ผ๊ฐ ์ถฉ๋ถํ ๋ง์ ์ ๋ฃ ์ฌ์ฉ๋์ ์ฒ๋ฆฌํด์ผ ํ๋ค.
Cost per token์ด ๋ฎ์์ง๋ฉด ๊ฐ์ ์ค๋น๋ก ๋ ๋ง์ token์ ํ ์ ์๊ฑฐ๋, ๊ฐ๊ฒฉ์ ๋ฎ์ถฐ ์์๋ฅผ ๋๋ฆด ์ ์๋ค. ๋ฐ๋๋ก token ๋น์ฉ์ด ๋์ผ๋ฉด ์ฌ์ฉ๋์ด ๋์๋ก ์์ค์ด ์ปค์ง ์ ์๋ค. ๊ทธ๋์ token ๋น์ฉ์ AI capex๊ฐ ์ค์ ์์ต์ผ๋ก ๋์์ค๋์ง ๋ณด๋ ํต์ฌ ์งํ๋ค.
3. Software stack์ด ํ๋์จ์ด ๊ฒฝ์ ์ฑ์ ๋ค์ ๊ณ์ฐํ๊ฒ ๋ง๋ ๋ค
NVIDIA์ inference software stack ๊ธ์ Blackwell, Dynamo, TensorRT-LLM, vLLM, SGLang ๊ฐ์ software layer๊ฐ token ๋น์ฉ์ ๋ฎ์ถ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ด ์ฃผ์ฅ์ vendor ๊ด์ ์ด๋ฏ๋ก ๋ ๋ฆฝ benchmark๊ฐ ํ์ํ์ง๋ง, ์ค์ํ ๋ฐฉํฅ์ ๋ถ๋ช ํ๋ค.
AI ์ธํ๋ผ ๊ฒฝ์์ hardware ๊ตฌ๋งค์์ ๋๋์ง ์๋๋ค. Runtime, kernel, scheduler, model parallelism, precision, memory management๊ฐ ๊ฐ์ hardware์ ์ค์ ์ฒ๋ฆฌ๋์ ๊ณ์ ๋ฐ๊พผ๋ค. ๊ทธ๋์ cost per token์ hardware์ software๊ฐ ํฉ์ณ์ง ๊ฒฐ๊ณผ๋ค.
์ค์ ์์
NVIDIA inference software stack
NVIDIA๋ 2026๋ ๋ธ๋ก๊ทธ์์ production AI factory์ ํ๋จ ๊ธฐ์ค์ด peak chip specification์์ cost per token์ผ๋ก ์ด๋ํ๋ค๊ณ ์ค๋ช ํ๋ค. ๊ธ์์๋ Blackwell ๊ธฐ๋ฐ stack์์ Dynamo, TensorRT-LLM, CUDA-native framework, vLLM/SGLang ์ต์ ํ๊ฐ ๊ฒน์น๋ฉด token ๋น์ฉ์ ๋ฎ์ถ ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ค.
์ด ์ฃผ์ฅ์ ์ฝ์ ๋ ์ค์ํ ์ง๋ฌธ์ โ๋ช ๋ฐฐ ๋นจ๋ผ์ก๋คโ๊ฐ ์๋๋ผ ๋ค์๊ณผ ๊ฐ๋ค.
- ์ด๋ค ๋ชจ๋ธ๊ณผ workload์์ ๋์จ ๊ฒฐ๊ณผ์ธ๊ฐ?
- latency ๋ชฉํ์ batch size๋ ๋ฌด์์ธ๊ฐ?
- baseline์ ์ด๋ค hardware์ software stack์ธ๊ฐ?
- ์ ๋ ฅ, ๋๊ฐ, cloud ๊ฐ๊ฒฉ, ์ธ๋ ฅ ์ด์๋น๊น์ง ํฌํจํ ์ด๋น์ฉ์ธ๊ฐ?
- ๊ฒฝ์ accelerator๋ ๋ค๋ฅธ cloud provider์ ๋น๊ตํด๋ ๊ฐ์ ๊ฒฐ๋ก ์ธ๊ฐ?
Agentic workload
Agent๋ ๋จ์ prompt-response๋ณด๋ค token ๋น์ฉ์ ๋ ๋ณต์กํ๊ฒ ๋ง๋ ๋ค. Agent๊ฐ ๋ฌธ์๋ฅผ ๊ฒ์ํ๊ณ , tool์ ํธ์ถํ๊ณ , ๊ฒฐ๊ณผ๋ฅผ ์ฝ๊ณ , ๋ค์ ๊ณํ์ ์ธ์ฐ๋ฉด ์ฌ๋ฌ ๋ฒ์ LLM ํธ์ถ๊ณผ ๊ธด context๊ฐ ์๊ธด๋ค.
๋ฐ๋ผ์ agent ์๋น์ค์ cost per token์ ๋จ์ ์ฑํ ์๋น์ค๋ณด๋ค budget control, observability, caching, tool routing๊ณผ ๋ ๊น๊ฒ ์ฐ๊ฒฐ๋๋ค. Agent observability๊ฐ ๋น์ฉ๊ณผ ์ง์ฐ ์๊ฐ์ ํจ๊ป ๋ด์ผ ํ๋ ์ด์ ๋ ์ฌ๊ธฐ์ ์๋ค.
ํท๊ฐ๋ฆฌ์ง ๋ง์์ผ ํ ์
- Cost per token์ token ๊ฐ๊ฒฉํ์ ๊ฐ์ ๋ง์ด ์๋๋ค. ์ฌ์ฉ์๊ฐ ์ง๋ถํ๋ ๊ฐ๊ฒฉ์๋ ๋ง์ง, ์ ํ ๋ฒ๋ค, ๋ฌด๋ฃ ์ฌ์ฉ๋, ๊ตฌ๋ ์ ์ฑ ์ด ํจ๊ป ๋ค์ด๊ฐ๋ค.
- Chip ๊ฐ๊ฒฉ๋ง ๋ฎ๋ค๊ณ token ๋น์ฉ์ด ๋ฎ์์ง๋ ๊ฒ์ ์๋๋ค. Utilization, memory, networking, software, ์ ๋ ฅยท๋๊ฐ์ด ํจ๊ป ์์ง์ธ๋ค.
- Benchmark ์ซ์๋ workload ์กฐ๊ฑด์ ๋งค์ฐ ๋ฏผ๊ฐํ๋ค. ๊ฐ์ stack๋ ๊ธด context, ์์ batch, ๋ฎ์ latency ๋ชฉํ์์๋ ๋ค๋ฅด๊ฒ ๋ณด์ผ ์ ์๋ค.
- Token ๋น์ฉ์ ๋ฎ์ถ๋ ๊ฒ์ด ๊ณง ์ข์ ์ ํ์ด๋ผ๋ ๋ป์ ์๋๋ค. ํ์ง, ์์ ์ฑ, latency, reliability, ๊ณ ๊ฐ workflow fit์ด ํจ๊ป ๋ง์์ผ ํ๋ค.
- Vendor ๋ธ๋ก๊ทธ์ ์ฑ๋ฅ ์ฃผ์ฅ์ ์ค์ํ ๋จ์์ง๋ง, ๋ ๋ฆฝ benchmark์ ์ค์ ๊ณ ๊ฐ ๋น์ฉ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ๋ด์ผ ํ๋ค.
๊ด๋ จ ๋ฌธ์
- NVIDIA inference software stack์ผ๋ก ๋ณด๋ cost per token ๊ฒฝ์
- LLM inference serving
- AI capex cycle
- HBM
- Agent observability
- AI agent runtime๊ณผ AI capex cycle์ ์ฐจ์ด