LLM inference serving

LLM inference serving은 학습이 끝난 언어 모델을 실제 사용자 요청에 맞춰 빠르고 안정적으로 실행하는 일입니다. 모델이 “똑똑한가”와 별개로, 서비스를 운영하는 쪽에서는 한 token을 얼마나 빨리 만들고, 동시에 몇 명의 요청을 처리하며, token 비용과 메모리·전력 부담을 얼마나 줄일 수 있는지가 핵심 문제가 됩니다.

한 줄로 말하면

LLM inference serving은 이미 학습된 모델을 사용자 요청마다 실행해 답을 생성하고, 그 과정의 지연시간·처리량·메모리·비용을 관리하는 인프라 문제입니다.

비유로 이해하기

모델 학습을 새 공장을 짓는 일에 비유한다면, inference serving은 그 공장이 매일 주문을 받아 제품을 만들어 보내는 운영입니다.

공장을 지을 때는 설계와 대규모 투자가 중요합니다. 하지만 주문이 밀려드는 순간에는 다른 문제가 중요해집니다. 원재료가 제때 들어오는지, 컨베이어가 막히지 않는지, 작업자와 장비가 놀지 않는지, 전기와 냉각 비용이 감당되는지, 주문마다 납기가 맞는지가 관건입니다.

이 비유의 한계도 있습니다. LLM inference는 물리 제품을 복제하는 일이 아니라, 매 요청마다 token을 하나씩 계산해 다음 token 확률을 만드는 과정입니다. 그래서 실제 병목은 공장 바닥의 물류보다 GPU/AI chip, HBM, KV cache, memory bandwidth, interconnect, batching, software scheduler 같은 계산 시스템 안에서 생깁니다.

정확한 정의

LLM inference는 학습된 모델의 파라미터를 고정한 뒤, 입력 prompt를 받아 다음 token을 예측하고 그 token을 다시 입력에 붙여 다음 token을 생성하는 실행 과정입니다. Serving은 이 과정을 많은 사용자 요청에 대해 안정적으로 운영하는 시스템 전체를 뜻합니다.

실제 LLM serving은 보통 두 단계를 나눠 봅니다.

Prefill: 사용자가 보낸 prompt와 context를 한 번에 읽어 모델 내부 상태를 만드는 단계입니다. 입력이 길수록 많은 token을 처리해야 하므로 계산량과 메모리 사용량이 커집니다.
Decode: 이후 답변 token을 하나씩 생성하는 단계입니다. 각 새 token은 이전에 생성된 token을 참고해야 하므로, 지연시간과 KV cache 접근이 중요해집니다.

여기서 KV cache는 이전 token들의 key/value 표현을 저장해 두는 메모리입니다. 매 token을 생성할 때 과거 context를 처음부터 다시 계산하면 너무 비싸기 때문에, 이미 계산한 attention 재료를 저장하고 재사용합니다. 하지만 context가 길고 동시 요청이 많아질수록 KV cache 자체가 큰 메모리 부담이 됩니다.

왜 중요한가

1. AI 비용의 중심이 학습에서 사용량으로 이동한다

대형 모델을 한 번 학습하는 비용은 여전히 큽니다. 하지만 모델이 제품에 들어가 매일 수백만 번 호출되면, 총비용은 inference 쪽에서 계속 쌓입니다. 사용자가 늘수록 전력, 메모리, chip 수, networking, 냉각, scheduler 효율이 모두 비용 구조에 영향을 줍니다. 이 비용이 데이터센터·전력·장비 투자로 번지는 흐름은 AI capex cycle로 따로 볼 수 있습니다.

그래서 AI 인프라를 볼 때는 “어떤 모델을 학습했는가”만 보면 부족합니다. 그 모델을 실제 제품에서 얼마나 싸고 빠르게 제공할 수 있는지가 별도의 경쟁 축이 됩니다.

2. 병목이 FLOPS만이 아니다

LLM serving에서는 연산 성능도 중요하지만, 모든 문제가 FLOPS로 해결되지는 않습니다. 긴 context와 많은 동시 요청에서는 memory bandwidth, HBM capacity, KV cache 배치, chip 간 interconnect 지연, request batching이 실제 속도와 비용을 크게 바꿉니다.

Etched가 인터뷰에서 rack-scale inference system과 cluster-scale memory를 강조한 이유도 이 지점과 연결됩니다. 회사의 주장이 검증됐다는 뜻은 아니지만, inference 경쟁이 단일 chip benchmark를 넘어 rack 단위 memory와 interconnect 설계로 이동할 수 있다는 신호로 읽을 수 있습니다.

3. 모델 아키텍처와 serving system은 다른 층이다

Transformer 아키텍처는 token 사이의 관계를 계산하는 모델 내부 구조입니다. 반면 LLM inference serving은 그 모델을 실제 요청 처리 시스템으로 운영하는 외부 인프라입니다.

둘은 연결되어 있지만 같은 말은 아닙니다. 예를 들어 self-attention은 긴 context에서 계산과 메모리 부담을 키울 수 있고, serving system은 그 부담을 KV cache, batching, parallelism, memory hierarchy로 다룹니다. 모델 구조를 이해해야 serving 병목을 설명할 수 있지만, 좋은 모델 구조가 자동으로 싼 serving을 보장하지는 않습니다.

실제 예시

Etched의 rack-scale inference 주장

Etched의 rack-scale inference system 인터뷰에서 회사는 inference를 prefill과 decode로 나누고, 여러 chip이 HBM/SRAM을 낮은 지연으로 함께 쓰는 cluster-scale memory를 강조했습니다.

이 주장을 평가할 때 질문은 단순히 “NVIDIA GPU보다 빠른가?”가 아닙니다. 더 좋은 질문은 다음에 가깝습니다.

어떤 model과 workload에서 latency가 줄어드는가?
prefill과 decode 중 어디가 개선되는가?
KV cache가 커지는 상황에서 memory capacity와 bandwidth가 충분한가?
chip 간 interconnect 지연이 token 생성 속도를 얼마나 바꾸는가?
software stack과 기존 serving framework에 어떻게 붙는가?
전력, 냉각, rack density, 고객 전환 비용까지 포함한 serving economics가 좋아지는가?

Transformer 계열 모델의 긴 context

Attention Is All You Need는 self-attention이 sequence 안의 token 관계를 직접 계산하게 만들었습니다. 이 구조는 병렬화와 긴 의존성 처리에 강했지만, sequence 길이가 길어질수록 모든 token 쌍을 비교하는 비용이 커집니다.

현대 LLM serving에서 긴 context를 다룰 때 memory와 cache가 중요해지는 이유도 여기서 출발합니다. 사용자가 긴 문서, 코드베이스, 대화 기록을 넣을수록 prefill 계산과 KV cache가 커지고, 여러 요청을 동시에 처리하는 scheduler의 선택이 비용과 응답 속도를 바꿉니다.

헷갈리지 말아야 할 점

Inference는 통계학의 추론(inference)과 같은 단어지만, 여기서는 모델 실행을 뜻합니다. Wansook.World의 AI 인프라 문맥에서는 학습된 LLM이 prompt를 받아 token을 생성하는 runtime 과정을 가리키는 경우가 많습니다.
Inference serving은 모델 학습(training)이 아닙니다. Training은 모델 파라미터를 바꾸는 과정이고, inference는 학습된 파라미터를 이용해 답을 생성하는 과정입니다.
빠른 chip 하나가 곧 좋은 serving system은 아닙니다. Memory, networking, software scheduler, reliability, power/cooling, 고객의 기존 stack과의 호환성이 함께 맞아야 합니다.
Rack-scale system이라는 말은 검증 결과가 아니라 설계 주장일 수 있습니다. 회사 인터뷰나 발표는 중요한 신호지만, 성능·전력·비용 비교는 독립 benchmark와 고객 사례가 필요합니다.
KV cache는 무료 메모리가 아닙니다. 재계산을 줄여주지만, 긴 context와 많은 동시 요청에서는 cache 자체가 HBM을 잡아먹는 병목이 됩니다.

🥚

Explorer

Recent Notes

Anthropic 모델 접근 제한 해제로 보는 AI 수출통제의 딜레마

Marrow & Spike 인터뷰로 보는 defense tech 자본 형성

Agent observability

HBM