CAST AI tokenomics 글로 보는 AI 인프라 비용의 새 단위

이 문서는 확정 분석이 아니라 자료 정리다. CAST AI의 tokenomics 글은 AI 비용을 “모델 API 청구서”로만 보면 부족하다고 주장한다. 중요한 신호는 AI infrastructure FinOps의 관리 단위가 cloud bill에서 token 생산·소비·가치 연결로 내려가고 있다는 점이다.

한 줄로 말하면, 이 글은 cost per token이 단순한 모델 가격표가 아니라 GPU fleet, Kubernetes, model routing, cache, autoscaling, business outcome을 함께 보는 FinOps 문제로 커지고 있음을 보여준다.

왜 지금 읽을 만한가

AI 사용량이 커지면 비용도 커진다. 그런데 AI 비용은 전통적인 cloud 비용보다 더 복잡하다. 같은 모델을 써도 agentic workflow가 여러 번 model call을 만들 수 있고, retry storm이 발생할 수 있으며, cache가 깨지면 더 싼 모델을 골라도 총비용이 올라갈 수 있다.

CAST AI 글이 흥미로운 이유는 token 비용을 모델 제공자의 invoice 뒤쪽이 아니라 인프라 운영 앞쪽에서 보기 때문이다. GPU 노드가 얼마나 놀고 있는지, agent 요청이 얼마나 bursty한지, model routing이 cache와 latency를 어떻게 바꾸는지, token spend가 실제 business value와 연결되는지가 모두 같은 문제로 묶인다.

이 관점은 LLM inference serving과 AI capex cycle을 연결한다. 대규모 AI capex가 의미 있으려면 결국 유용한 token을 낮은 비용과 안정적인 latency로 계속 만들어야 한다.

확인된 것

CAST AI 글은 FinOps X 2026에서 Tokenomics Foundation이 발표된 장면을 출발점으로 삼는다. 글에 따르면 Goldman Sachs chart는 향후 3년 안에 token usage가 6 quadrillion에서 120 quadrillion으로 늘 수 있다는 전망을 제시했다. 이 수치는 인용된 전망이므로 그대로 확정값으로 볼 수는 없지만, 업계가 token 단위 비용 관리에 주목하기 시작했다는 신호로는 중요하다.

글은 enterprise AI에서 tokenomics를 세 층으로 설명한다.

Production: GPU 인프라가 token을 생산하는 층이다.
Consumption: model routing, caching, prompt architecture가 token 소비 비용을 바꾸는 층이다.
Value: token spend가 business outcome과 연결되는 층이다.

CAST AI는 특히 “invoice is not the cost”라는 관점을 강조한다. 모델 제공자 청구서만 보면 retry, idle GPU, reserved capacity, agentic chain의 fan-out, autoscaling 실패 같은 비용이 보이지 않는다. 또한 고객 사례 관점에서 일부 조직은 GPU inference에 cloud 비용보다 6~7배 더 많은 돈을 쓰고 있다고 주장한다.

또 하나의 포인트는 token이 균질하지 않다는 점이다. 어떤 작업은 frontier model이 필요하지만, 많은 작업은 더 작은 모델이나 다른 routing으로 충분할 수 있다. 글은 model routing이 cache를 깨면 오히려 비싸질 수 있다는 예를 들며, 비용 최적화가 단순히 “싼 모델 고르기”가 아니라고 설명한다.

Wansook.World에서 볼 포인트

첫 번째 포인트는 AI 비용 관리가 FinOps의 다음 전장으로 이동한다는 점이다. 기존 FinOps가 cloud resource 낭비를 줄이는 일이었다면, AI infrastructure FinOps는 token을 만들고 쓰고 평가하는 전체 경로를 본다. GPU right-sizing, spot instance, autoscaling, multi-cloud capacity routing이 모두 token 비용의 일부가 된다.

두 번째 포인트는 agentic workload가 비용 예측을 어렵게 만든다는 점이다. 사람의 한 요청이 하나의 model call로 끝나지 않고, 여러 tool call과 parallel subtask로 퍼지면 인프라는 초 단위로 늘었다 줄어야 한다. 이때 agent observability가 없으면 어떤 agent가 비용을 만들었는지 추적하기 어렵다.

세 번째 포인트는 NVIDIA inference software stack으로 보는 cost per token 경쟁과 함께 읽을 때 더 분명하다. NVIDIA 글이 hardware와 software stack으로 token 비용을 낮추는 쪽을 보여준다면, CAST AI 글은 운영과 FinOps가 그 비용을 어떻게 통제할지 보여준다.

아직 모르는 것

이 글은 CAST AI의 회사 블로그이므로 자사 제품 관점과 시장 주장이 섞여 있다. tokenomics라는 표현이 실제 표준 지표와 도구로 자리 잡을지, 아니면 마케팅 언어로 남을지는 더 봐야 한다.

다음 질문이 남아 있다.

Tokenomics Foundation이 실제로 어떤 vendor-neutral metric과 reference model을 만들 것인가.
Token 비용을 silicon, GPU scheduling, model routing, cache, business outcome까지 연결하는 공통 데이터 모델이 가능한가.
GPU right-sizing, spot migration, multi-cloud routing이 실제 production inference에서 reliability를 해치지 않고 비용을 낮추는가.
Agentic workflow의 fan-out 비용을 개발자 경험을 해치지 않고 어떻게 제한할 수 있는가.
CAST AI의 고객 사례 수치가 어떤 workload와 baseline에서 나온 것인지.

헷갈리지 말아야 할 점

Tokenomics는 암호자산의 token economics와 같은 말이 아니다. 여기서는 AI 모델이 생성·소비하는 token의 단위 경제성을 뜻한다.
Cost per token이 낮다고 항상 좋은 것은 아니다. 품질, latency, cache hit rate, 실패율, compliance 요구를 함께 봐야 한다.
모델 API 가격만 낮추면 문제가 해결되는 것이 아니다. GPU fleet와 orchestration layer에서 이미 비용이 발생할 수 있다.
이 글은 CAST AI의 주장에 기반한 자료 정리다. 특정 제품이나 투자 판단으로 읽기보다, AI 비용 관리 프레임의 변화로 읽는 편이 안전하다.

출처

What Is Tokenomics, And Why Your AI Infrastructure Is Now a FinOps Problem — CAST AI

🥚

Explorer

Recent Notes

AI infrastructure FinOps

Claude containment 글로 보는 agent 보안의 실제 경계

Anthropic Managed Agents는 agent runtime을 두뇌와 손으로 나누는 실험이다