이 문서는 Etched CEO Gavin Uberti가 Bloomberg Tech 인터뷰에서 설명한 rack-scale inference system을 정리한 노트입니다. 완성된 기술 검증 글이라기보다, 회사가 LLM inference serving에서 어떤 문제를 풀겠다고 말하는지와 Wansook.World에서 어떤 질문으로 이어지는지를 잡기 위한 Talks 문서입니다.
한 줄로 말하면
Etched는 AI 병목이 training에서 inference serving으로 이동할수록, 개별 칩 성능보다 rack 단위의 memory topology와 chip 간 저지연 통신이 더 중요해진다고 보고 있습니다.
누가 무엇을 말했나
인터뷰에서 Etched는 스스로를 “rack-scale inference systems”를 만드는 회사로 설명합니다. 공개적으로 강조한 핵심 기술은 두 가지입니다.
- low-voltage inference
- cluster-scale memory
인터뷰에 따르면 첫 세대 rack에는 32개의 Etched chip이 들어가며, cluster-scale memory 기술을 통해 한 chip이 같은 system 안의 다른 chip이 가진 HBM과 SRAM을 낮은 지연으로 읽고 사용할 수 있게 하는 것이 목표입니다.
핵심 주장
1. Inference는 prefill과 decode의 병목이 다르다
인터뷰에서 Etched는 inference를 prefill과 decode로 나눠 설명합니다.
prefill: 입력 prompt/context를 읽어들이는 단계decode: 이후 token을 순차적으로 생성하는 단계
이 구분은 중요합니다. LLM serving에서는 GPU FLOPS만 높다고 모든 병목이 사라지지 않습니다. 긴 context, batch 구성, KV cache, memory bandwidth, chip 간 통신이 실제 latency와 cost를 크게 바꿀 수 있습니다.
2. Rack-scale memory가 inference 비용 구조를 바꿀 수 있다는 주장
Etched가 말하는 cluster-scale memory는 여러 chip이 서로의 HBM/SRAM을 낮은 지연으로 활용할 수 있게 만드는 방향입니다. 이 주장이 맞다면 inference system은 “빠른 chip 여러 개”가 아니라, memory와 interconnect가 묶인 하나의 serving machine에 가까워집니다.
다만 이 인터뷰만으로는 성능, 전력, 비용, software stack compatibility를 검증할 수 없습니다. 공식 기술 자료와 독립적인 benchmark가 필요합니다.
3. NVIDIA와의 경쟁은 단순 chip 대 chip 비교가 아니다
Etched가 NVIDIA에 도전한다고 말할 때, 독자가 바로 “NVIDIA GPU보다 빠른가?”만 보면 놓치는 점이 있습니다. 실제 질문은 더 복잡합니다.
- 특정 model/inference workload에서 얼마나 빠른가?
- latency, throughput, power, rack density가 어떻게 바뀌는가?
- CUDA 생태계와 software compatibility 문제를 어떻게 해결하는가?
- HBM, networking, packaging, supply chain 제약은 어떤가?
- 고객이 기존 GPU cluster 대신 전용 inference system을 도입할 이유가 충분한가?
즉 경쟁 축은 chip 하나의 benchmark가 아니라 serving economics입니다.
왜 중요한가
AI infra 투자는 training cluster 중심에서 inference serving 중심으로 넓어지고 있습니다. 이때 inference 비용은 단순히 chip 단가가 아니라 다음 요인들의 조합으로 결정됩니다. 이 비용 구조가 데이터센터·전력·장비 투자로 확장되는 흐름은 AI capex cycle과도 이어집니다.
- memory bandwidth와 capacity
- KV cache 처리 방식
- prefill/decode 분리
- interconnect latency
- rack 단위 power/cooling
- software stack과 배포 난이도
- 특정 model architecture에 얼마나 특화되어 있는가
Etched 인터뷰는 이 변화가 실제 startup pitch와 자본 조달 narrative로 나타나고 있음을 보여줍니다.
아직 확인해야 할 것
이 문서는 인터뷰 기반이므로 다음은 추가 source가 필요합니다.
- Etched 공식 제품/기술 문서
- low-voltage inference의 구체적 의미
- cluster-scale memory의 architecture 설명
- NVIDIA GPU cluster 대비 benchmark
- supported model/workload 범위
- software stack, compiler, serving integration
- TSMC 또는 supply-chain 관련 공식 확인
Wansook.World에서 연결되는 주제
- 모델 아키텍처와 Agent Memory의 차이 — model 자체의 성질과 serving system의 성질을 혼동하지 않기 위해 함께 볼 수 있습니다.
- LLM inference serving — inference에서 prefill, decode, KV cache, memory bandwidth가 왜 비용 구조를 바꾸는지 이해하는 기본 개념입니다.
- HBM — AI accelerator 옆에 붙는 고대역폭 메모리가 inference 비용과 공급망 병목에 왜 중요한지 이해하는 기본 개념입니다.
- Attention Is All You Need — Transformer 계열 inference가 왜 memory/cache와 연결되는지 이해하는 배경입니다.
- Transformer Architecture — attention 기반 model 구조를 이해하는 기본 문서입니다.
- AI agent runtime과 AI capex cycle의 차이 — inference 병목이 agent runtime 병목과 어떻게 다른지 구분하는 비교 글입니다.
헷갈리지 말아야 할 점
- 이 문서는 Etched 기술이 검증됐다고 주장하는 글이 아닙니다.
- 인터뷰는 회사의 설명과 narrative를 담고 있으므로, 독립 benchmark와 고객 사례가 필요합니다.
- “NVIDIA 대항마”라는 표현은 headline으로는 쉽지만, 실제 경쟁은 chip, memory, networking, software, supply chain, 고객 전환 비용이 얽힌 문제입니다.