이 문서는 Etched CEO Gavin Uberti가 Bloomberg Tech 인터뷰에서 설명한 rack-scale inference system을 정리한 노트입니다. 완성된 기술 검증 글이라기보다, 회사가 LLM inference serving에서 어떤 문제를 풀겠다고 말하는지와 Wansook.World에서 어떤 질문으로 이어지는지를 잡기 위한 Talks 문서입니다.

한 줄로 말하면

Etched는 AI 병목이 training에서 inference serving으로 이동할수록, 개별 칩 성능보다 rack 단위의 memory topology와 chip 간 저지연 통신이 더 중요해진다고 보고 있습니다.

누가 무엇을 말했나

인터뷰에서 Etched는 스스로를 “rack-scale inference systems”를 만드는 회사로 설명합니다. 공개적으로 강조한 핵심 기술은 두 가지입니다.

  • low-voltage inference
  • cluster-scale memory

인터뷰에 따르면 첫 세대 rack에는 32개의 Etched chip이 들어가며, cluster-scale memory 기술을 통해 한 chip이 같은 system 안의 다른 chip이 가진 HBM과 SRAM을 낮은 지연으로 읽고 사용할 수 있게 하는 것이 목표입니다.

핵심 주장

1. Inference는 prefill과 decode의 병목이 다르다

인터뷰에서 Etched는 inference를 prefilldecode로 나눠 설명합니다.

  • prefill: 입력 prompt/context를 읽어들이는 단계
  • decode: 이후 token을 순차적으로 생성하는 단계

이 구분은 중요합니다. LLM serving에서는 GPU FLOPS만 높다고 모든 병목이 사라지지 않습니다. 긴 context, batch 구성, KV cache, memory bandwidth, chip 간 통신이 실제 latency와 cost를 크게 바꿀 수 있습니다.

2. Rack-scale memory가 inference 비용 구조를 바꿀 수 있다는 주장

Etched가 말하는 cluster-scale memory는 여러 chip이 서로의 HBM/SRAM을 낮은 지연으로 활용할 수 있게 만드는 방향입니다. 이 주장이 맞다면 inference system은 “빠른 chip 여러 개”가 아니라, memory와 interconnect가 묶인 하나의 serving machine에 가까워집니다.

다만 이 인터뷰만으로는 성능, 전력, 비용, software stack compatibility를 검증할 수 없습니다. 공식 기술 자료와 독립적인 benchmark가 필요합니다.

3. NVIDIA와의 경쟁은 단순 chip 대 chip 비교가 아니다

Etched가 NVIDIA에 도전한다고 말할 때, 독자가 바로 “NVIDIA GPU보다 빠른가?”만 보면 놓치는 점이 있습니다. 실제 질문은 더 복잡합니다.

  • 특정 model/inference workload에서 얼마나 빠른가?
  • latency, throughput, power, rack density가 어떻게 바뀌는가?
  • CUDA 생태계와 software compatibility 문제를 어떻게 해결하는가?
  • HBM, networking, packaging, supply chain 제약은 어떤가?
  • 고객이 기존 GPU cluster 대신 전용 inference system을 도입할 이유가 충분한가?

즉 경쟁 축은 chip 하나의 benchmark가 아니라 serving economics입니다.

왜 중요한가

AI infra 투자는 training cluster 중심에서 inference serving 중심으로 넓어지고 있습니다. 이때 inference 비용은 단순히 chip 단가가 아니라 다음 요인들의 조합으로 결정됩니다. 이 비용 구조가 데이터센터·전력·장비 투자로 확장되는 흐름은 AI capex cycle과도 이어집니다.

  • memory bandwidth와 capacity
  • KV cache 처리 방식
  • prefill/decode 분리
  • interconnect latency
  • rack 단위 power/cooling
  • software stack과 배포 난이도
  • 특정 model architecture에 얼마나 특화되어 있는가

Etched 인터뷰는 이 변화가 실제 startup pitch와 자본 조달 narrative로 나타나고 있음을 보여줍니다.

아직 확인해야 할 것

이 문서는 인터뷰 기반이므로 다음은 추가 source가 필요합니다.

  • Etched 공식 제품/기술 문서
  • low-voltage inference의 구체적 의미
  • cluster-scale memory의 architecture 설명
  • NVIDIA GPU cluster 대비 benchmark
  • supported model/workload 범위
  • software stack, compiler, serving integration
  • TSMC 또는 supply-chain 관련 공식 확인

Wansook.World에서 연결되는 주제

  • 모델 아키텍처와 Agent Memory의 차이 — model 자체의 성질과 serving system의 성질을 혼동하지 않기 위해 함께 볼 수 있습니다.
  • LLM inference serving — inference에서 prefill, decode, KV cache, memory bandwidth가 왜 비용 구조를 바꾸는지 이해하는 기본 개념입니다.
  • HBM — AI accelerator 옆에 붙는 고대역폭 메모리가 inference 비용과 공급망 병목에 왜 중요한지 이해하는 기본 개념입니다.
  • Attention Is All You Need — Transformer 계열 inference가 왜 memory/cache와 연결되는지 이해하는 배경입니다.
  • Transformer Architecture — attention 기반 model 구조를 이해하는 기본 문서입니다.
  • AI agent runtime과 AI capex cycle의 차이 — inference 병목이 agent runtime 병목과 어떻게 다른지 구분하는 비교 글입니다.

헷갈리지 말아야 할 점

  • 이 문서는 Etched 기술이 검증됐다고 주장하는 글이 아닙니다.
  • 인터뷰는 회사의 설명과 narrative를 담고 있으므로, 독립 benchmark와 고객 사례가 필요합니다.
  • “NVIDIA 대항마”라는 표현은 headline으로는 쉽지만, 실제 경쟁은 chip, memory, networking, software, supply chain, 고객 전환 비용이 얽힌 문제입니다.