Cost per token

Cost per token은 LLM 서비스가 답변 token 하나를 만들어내는 데 드는 단위 비용을 뜻한다. AI 인프라를 볼 때 “가장 빠른 칩”이나 “가장 큰 모델”만 보면 부족하다. 실제 서비스에서는 같은 전력·칩·메모리·소프트웨어로 얼마나 많은 유용한 token을 안정적으로 만들 수 있는지가 수익성을 좌우한다.

한 줄로 말하면

Cost per token은 LLM이 실제 사용자 요청에 응답하면서 token 하나를 생성하는 데 들어가는 계산·메모리·전력·소프트웨어·운영 비용을 단위로 나눠 보는 지표다.

비유로 이해하기

AI 서비스를 발전소에 비유하면, 모델은 전기를 만드는 설비이고 token은 소비자에게 전달되는 전기 1kWh 같은 단위로 볼 수 있다. 발전소가 아무리 멋져 보여도 1kWh를 만드는 비용이 너무 높으면 전기를 싸고 안정적으로 공급하기 어렵다.

LLM도 비슷하다. 데모에서는 답변 품질이 먼저 보이지만, 제품에서는 매일 생성되는 수십억 개 token의 비용이 쌓인다. 같은 모델이라도 GPU 활용률, batch 처리, memory bandwidth, scheduler, 전력 가격이 달라지면 token당 비용이 크게 바뀐다.

비유의 한계도 있다. 전기 1kWh는 비교적 균질한 단위지만, LLM token은 workload에 따라 비용이 다르다. 긴 context, 낮은 latency 목표, tool call이 많은 agent workflow, 큰 모델, multi-modal 입력은 모두 token 비용을 다르게 만든다.

정확한 정의

Cost per token은 LLM inference에서 token 생성 비용을 단위화한 지표다. 보통 다음 요소들이 함께 영향을 준다.

비용 요소	왜 중요한가
Accelerator 비용	GPU·AI chip 구매 또는 임대 비용이 amortization으로 반영된다
HBM과 memory bandwidth	모델 파라미터와 KV cache를 얼마나 빠르게 읽고 쓸 수 있는지 결정한다
GPU utilization	비싼 장비가 얼마나 놀지 않고 쓰이는지 좌우한다
Batch·scheduler	여러 요청을 어떻게 묶고 우선순위를 둘지 결정한다
Networking·interconnect	여러 chip과 node를 묶을 때 latency와 throughput을 바꾼다
전력·냉각	데이터센터 운영비와 rack density에 영향을 준다
Software stack	runtime, kernel, library, serving framework가 같은 hardware의 실제 성능을 끌어낸다

따라서 cost per token은 칩 스펙 하나로 계산되는 숫자가 아니다. LLM inference serving 전체의 unit economics를 압축해서 보는 렌즈에 가깝다.

왜 중요한가

1. AI 사용량이 늘수록 비용 중심이 inference로 이동한다

대형 모델 학습 비용은 크지만, 제품이 널리 쓰이면 inference 비용이 반복적으로 쌓인다. 사용자가 더 많아지고 agent가 더 많은 tool call과 reasoning step을 수행할수록, token 비용은 매출총이익률과 가격 정책에 직접 영향을 준다.

그래서 AI 기업은 단순히 모델을 더 크게 만드는 것뿐 아니라, 같은 품질을 더 낮은 비용으로 제공하는 방법을 찾아야 한다. 작은 token 비용 차이도 대규모 사용량에서는 큰 돈이 된다.

2. Capex 회수 기간을 바꾼다

AI capex cycle에서는 데이터센터, 칩, 전력, 냉각, 네트워크에 먼저 큰돈을 쓴다. 이 투자금을 회수하려면 그 인프라가 충분히 많은 유료 사용량을 처리해야 한다.

Cost per token이 낮아지면 같은 설비로 더 많은 token을 팔 수 있거나, 가격을 낮춰 수요를 늘릴 수 있다. 반대로 token 비용이 높으면 사용량이 늘수록 손실이 커질 수 있다. 그래서 token 비용은 AI capex가 실제 수익으로 돌아오는지 보는 핵심 지표다.

3. Software stack이 하드웨어 경제성을 다시 계산하게 만든다

NVIDIA의 inference software stack 글은 Blackwell, Dynamo, TensorRT-LLM, vLLM, SGLang 같은 software layer가 token 비용을 낮출 수 있다고 주장한다. 이 주장은 vendor 관점이므로 독립 benchmark가 필요하지만, 중요한 방향은 분명하다.

AI 인프라 경쟁은 hardware 구매에서 끝나지 않는다. Runtime, kernel, scheduler, model parallelism, precision, memory management가 같은 hardware의 실제 처리량을 계속 바꾼다. 그래서 cost per token은 hardware와 software가 합쳐진 결과다.

실제 예시

NVIDIA inference software stack

NVIDIA는 2026년 블로그에서 production AI factory의 판단 기준이 peak chip specification에서 cost per token으로 이동한다고 설명했다. 글에서는 Blackwell 기반 stack에서 Dynamo, TensorRT-LLM, CUDA-native framework, vLLM/SGLang 최적화가 겹치면 token 비용을 낮출 수 있다고 주장했다.

이 주장을 읽을 때 중요한 질문은 “몇 배 빨라졌다”가 아니라 다음과 같다.

어떤 모델과 workload에서 나온 결과인가?
latency 목표와 batch size는 무엇인가?
baseline은 어떤 hardware와 software stack인가?
전력, 냉각, cloud 가격, 인력 운영비까지 포함한 총비용인가?
경쟁 accelerator나 다른 cloud provider와 비교해도 같은 결론인가?

Agentic workload

Agent는 단순 prompt-response보다 token 비용을 더 복잡하게 만든다. Agent가 문서를 검색하고, tool을 호출하고, 결과를 읽고, 다시 계획을 세우면 여러 번의 LLM 호출과 긴 context가 생긴다.

따라서 agent 서비스의 cost per token은 단순 채팅 서비스보다 budget control, observability, caching, tool routing과 더 깊게 연결된다. Agent observability가 비용과 지연 시간을 함께 봐야 하는 이유도 여기에 있다.

헷갈리지 말아야 할 점

Cost per token은 token 가격표와 같은 말이 아니다. 사용자가 지불하는 가격에는 마진, 제품 번들, 무료 사용량, 구독 정책이 함께 들어간다.
Chip 가격만 낮다고 token 비용이 낮아지는 것은 아니다. Utilization, memory, networking, software, 전력·냉각이 함께 움직인다.
Benchmark 숫자는 workload 조건에 매우 민감하다. 같은 stack도 긴 context, 작은 batch, 낮은 latency 목표에서는 다르게 보일 수 있다.
Token 비용을 낮추는 것이 곧 좋은 제품이라는 뜻은 아니다. 품질, 안전성, latency, reliability, 고객 workflow fit이 함께 맞아야 한다.
Vendor 블로그의 성능 주장은 중요한 단서지만, 독립 benchmark와 실제 고객 비용 데이터를 함께 봐야 한다.

출처

NVIDIA Blog — How NVIDIA’s Inference Software Stack Powers the Lowest Token Cost

🥚

Explorer

Recent Notes

Anthropic 모델 접근 제한 해제로 보는 AI 수출통제의 딜레마

Marrow & Spike 인터뷰로 보는 defense tech 자본 형성

Agent observability

HBM