이 문서는 확정 분석이 아니라 source watch다. NVIDIA의 2026년 6월 30일 글은 AI 인프라 경쟁이 “가장 빠른 칩”에서 끝나지 않고, cost per token을 낮추는 software stack과 open source 생태계의 싸움으로 이동하고 있음을 보여준다.
한 줄로 말하면, NVIDIA는 Blackwell 같은 하드웨어 위에서 Dynamo, TensorRT-LLM, CUDA-native open source framework, vLLM/SGLang 최적화가 겹치면 같은 GPU로 더 많은 token을 더 낮은 비용에 낼 수 있다고 주장한다.
왜 지금 읽을 만한가
AI 서비스가 실험 단계에 있을 때는 “어떤 모델이 가장 똑똑한가”가 먼저 보인다. 하지만 서비스가 대규모 제품으로 바뀌면 다른 질문이 더 중요해진다. 한 token을 만드는 비용은 얼마인가, 응답은 얼마나 빠른가, 같은 전력과 rack으로 얼마나 많은 요청을 처리할 수 있는가.
이 질문은 LLM inference serving과 AI capex cycle의 교차점에 있다. AI 사용량이 늘수록 데이터센터와 칩 투자는 커지지만, software stack이 같은 hardware의 처리량을 끌어올리면 capex의 경제성이 달라질 수 있다.
NVIDIA 글이 흥미로운 이유는 hardware sales narrative가 아니라 “software가 hardware 성능을 계속 다시 꺼내는 flywheel”을 강조한다는 점이다.
확인된 것
NVIDIA는 production AI factory의 의사결정이 peak chip specification에서 cost per token으로 이동하고 있다고 설명했다. 즉 유용한 token을 dollar, watt, latency target 안에서 얼마나 많이 만들 수 있느냐가 핵심이라는 주장이다.
글에서 NVIDIA는 Blackwell platform의 software stack이 DeepSeek V4 모델에서 한 달 만에 token cost를 최대 5배 낮췄다고 설명했다. 또한 disaggregated serving, large expert parallelism, NVFP4 precision, multi-token prediction이 결합되면 throughput이 최대 20배까지 늘 수 있다고 제시했다. 이 수치는 NVIDIA가 인용한 결과와 주장에 기반하므로 독립 benchmark와 workload 조건을 함께 봐야 한다.
NVIDIA가 말하는 stack은 대략 세 층으로 나뉜다.
- Production Operation: distributed serving, orchestration, autoscaling, memory management를 조정한다.
- Application Acceleration: TensorRT-LLM 같은 library와 runtime 최적화로 model execution을 빠르게 한다.
- Infrastructure Access: GPU, networking, memory, system capability를 개발자가 직접 device instruction까지 다루지 않아도 쓰게 한다.
고객 사례로는 Baseten, Cognition, Deep Infra, DigitalOcean/Hippocratic AI, Together AI/Cursor 등이 언급됐다. 예를 들어 DigitalOcean과 Hippocratic AI는 Blackwell GPU와 NVIDIA inference software를 사용해 healthcare AI throughput을 30% 늘리고, 1천만 건의 patient call에서 sub-half-second time-to-first-response를 유지했다고 소개됐다.
Wansook.World에서 볼 포인트
첫 번째 포인트는 inference economics가 hardware와 software의 합성 결과라는 점이다. 빠른 GPU가 있어도 scheduler, kernel, communication, memory management가 맞지 않으면 token cost는 내려가지 않는다. 반대로 software 최적화가 누적되면 같은 hardware fleet의 경제성이 바뀔 수 있다.
두 번째 포인트는 open source가 NVIDIA의 moat를 약하게만 만드는 것이 아니라, 오히려 강화할 수도 있다는 점이다. PyTorch, vLLM, SGLang, CUDA-native 최적화가 NVIDIA hardware에서 먼저 잘 돌아가면 개발자 생태계의 개선이 NVIDIA platform의 성능 향상으로 다시 돌아온다.
세 번째 포인트는 agentic AI가 inference workload를 더 복잡하게 만든다는 점이다. NVIDIA는 agent가 LLM, tool, memory, security, networking, accelerated computing을 여러 data center resource에 걸쳐 사용하는 distributed, stateful workflow라고 설명한다. 이는 단순 prompt-response serving보다 orchestration과 observability가 더 중요해진다는 뜻이다.
아직 모르는 것
NVIDIA의 글은 당연히 NVIDIA platform의 강점을 보여주기 위한 공식 블로그다. 따라서 주장의 방향은 중요하지만, 그대로 시장 결론으로 받아들이기는 어렵다.
특히 다음은 더 확인해야 한다.
- DeepSeek V4에서 5배 token cost 감소가 어떤 baseline, batch size, latency target, hardware configuration에서 나온 수치인지.
- Dynamo, TensorRT-LLM, vLLM, SGLang이 실제 고객 production에서 어느 정도까지 대체·보완 관계인지.
- NVIDIA stack 최적화가 비-NVIDIA accelerator와 비교했을 때 총소유비용을 얼마나 낮추는지.
- Open source framework가 NVIDIA 편향을 강화하는지, 아니면 abstraction layer가 커지며 하드웨어 전환 비용을 낮추는지.
- Agentic workload에서 latency, state, memory, tool call, GPU scheduling이 어떻게 병목으로 나타나는지.
헷갈리지 말아야 할 점
- Cost per token은 칩 가격만으로 결정되지 않는다. GPU 활용률, memory bandwidth, KV cache, batching, networking, scheduler, 전력·냉각 비용이 함께 움직인다.
- Throughput 개선 수치는 workload 조건에 민감하다. 같은 최적화가 모든 모델과 latency target에서 같은 효과를 내지는 않는다.
- Open source가 항상 vendor-neutral하다는 뜻은 아니다. 어떤 hardware backend에서 가장 빨리 최적화되는지가 생태계 힘을 바꿀 수 있다.
- NVIDIA의 공식 글은 중요한 1차 자료지만, 투자 판단이나 장기 우위 결론에는 고객 비용 데이터, 경쟁 accelerator benchmark, cloud pricing 비교가 더 필요하다.
다음에 확인할 것
- SemiAnalysis InferenceX의 원본 benchmark 조건과 비교 대상.
- Dynamo inference framework의 adoption, API, production 사례.
- TensorRT-LLM, vLLM, SGLang의 Blackwell 최적화가 cloud provider 가격에 어떻게 반영되는지.
- Cursor, Cognition, Hippocratic AI 같은 고객 사례의 실제 latency·cost·volume 데이터.
- NVIDIA software stack이 AI capex cycle의 payback period를 얼마나 줄일 수 있는지.