HBM์ AI ์ธํ๋ผ ๊ธ์์ ์์ฃผ ๋ณด์ด๋ ๋ฐ๋์ฒด ์ฉ์ด์ง๋ง, ๋จ์ํ โ๋น์ผ ๋ฉ๋ชจ๋ฆฌโ๋ผ๊ณ ๋ง ์ดํดํ๋ฉด ํต์ฌ์ ๋์น๊ธฐ ์ฝ๋ค. AI ๋ชจ๋ธ์ ์ค์ ์๋น์ค๋ก ๋๋ฆด ๋๋ ๊ณ์ฐ ์นฉ์ด ๋น ๋ฅธ ๊ฒ๋ง์ผ๋ก ๋ถ์กฑํ๊ณ , ๋ชจ๋ธ์ด ๊ณ์ ์ฝ๊ณ ์จ์ผ ํ๋ ๋ฐ์ดํฐ๋ฅผ ์ถฉ๋ถํ ๋น ๋ฅด๊ฒ ๊ณต๊ธํ ๋ฉ๋ชจ๋ฆฌ๊ฐ ํ์ํ๋ค. HBM์ ๋ฐ๋ก ๊ทธ ๋ณ๋ชฉ์ ์ค์ด๊ธฐ ์ํด ์ฐ์ด๋ ๊ณ ๋์ญํญ ๋ฉ๋ชจ๋ฆฌ๋ค.
ํ ์ค๋ก ๋งํ๋ฉด
HBM์ GPUยทAI accelerator ์์ ๋งค์ฐ ๋์ ํต๋ก๋ก ๋ถ๋ ๊ณ ์ฑ๋ฅ ๋ฉ๋ชจ๋ฆฌ๋ก, ํฐ AI ๋ชจ๋ธ์ ๋น ๋ฅด๊ฒ ์คํํ ๋ ๋ฐ์ดํฐ๊ฐ ์นฉ ์ํ์ผ๋ก ์ด๋ํ๋ ๋ณ๋ชฉ์ ์ค์ฌ์ค๋ค.
๋น์ ๋ก ์ดํดํ๊ธฐ
AI accelerator๋ฅผ ์์ฃผ ๋น ๋ฅธ ์ฃผ๋ฐฉ์ด๋ผ๊ณ ์๊ฐํด๋ณด์. ์๋ฆฌ์ฌ์ ์กฐ๋ฆฌ๊ธฐ๊ตฌ๊ฐ ์๋ฌด๋ฆฌ ๋นจ๋ผ๋, ์ฌ๋ฃ ์ฐฝ๊ณ ์์ ์ฌ๋ฃ๊ฐ ํ ์ค ํต๋ก๋ก ์ฒ์ฒํ ๋ค์ด์ค๋ฉด ์ฃผ๋ฌธ์ ๋นจ๋ฆฌ ์ฒ๋ฆฌํ ์ ์๋ค. HBM์ ์ด ์ฃผ๋ฐฉ ๋ฐ๋ก ์์ ๋๊ณ ๊ฐ๊น์ด ์ฌ๋ฃ ์ฐฝ๊ณ ๋ฅผ ๋ถ์ฌ, ๋ง์ ์ฌ๋ฃ๊ฐ ๋์์ ๋ค์ด์ค๊ฒ ํ๋ ์ฅ์น์ ๊ฐ๊น๋ค.
๋ค๋ง ์ด ๋น์ ์๋ ํ๊ณ๊ฐ ์๋ค. ์ค์ HBM์ ๋ฌผ๋ฆฌ์ ์ฐฝ๊ณ ๊ฐ ์๋๋ผ DRAM ์นฉ์ ์์ง์ผ๋ก ์๊ณ , AI accelerator์ ๋งค์ฐ ๋์ ๋ฐ์ดํฐ ํต๋ก๋ก ์ฐ๊ฒฐํ ๋ฉ๋ชจ๋ฆฌ ํจํค์ง๋ค. ์ค์ํ ๊ฒ์ โ์ ์ฅ ์ฉ๋์ด ํฌ๋คโ๋ง์ด ์๋๋ผ, ์ ํด์ง ์๊ฐ ์์ ์ผ๋ง๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์ฃผ๊ณ ๋ฐ์ ์ ์๋๊ฐ, ์ฆ bandwidth๋ค.
์ ํํ ์ ์
HBM์ High Bandwidth Memory์ ์ฝ์๋ค. ์ฌ๋ฌ DRAM die๋ฅผ ์์ง์ผ๋ก ์๊ณ , GPU๋ AI accelerator ๊ฐ๊น์ด์ ๋ฐฐ์นํด ๋์ ์ธํฐํ์ด์ค๋ก ์ฐ๊ฒฐํ๋ ๊ณ ์ฑ๋ฅ ๋ฉ๋ชจ๋ฆฌ ๋ฐฉ์์ด๋ค. ์ผ๋ฐ ์๋ฒ ๋ฉ๋ชจ๋ฆฌ๋ณด๋ค ๋ฌผ๋ฆฌ์ ์ผ๋ก ๋ ๊ฐ๊น๊ณ ๋ฐ์ดํฐ ํต๋ก๊ฐ ๋๊ธฐ ๋๋ฌธ์, ๊ฐ์ ์๊ฐ์ ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ์นฉ์ผ๋ก ๊ณต๊ธํ ์ ์๋ค.
AI ๋ชจ๋ธ ์คํ์์๋ ํ๋ผ๋ฏธํฐ, ์ค๊ฐ activation, attention ๊ณ์ฐ์ ํ์ํ KV cache ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ๊ณ์ ์ด๋ํ๋ค. ์ด๋ ์ฐ์ฐ ์ฅ์น๊ฐ ๊ธฐ๋ค๋ฆฌ์ง ์์ผ๋ ค๋ฉด ๋ฉ๋ชจ๋ฆฌ๊ฐ ์ถฉ๋ถํ bandwidth์ capacity๋ฅผ ์ ๊ณตํด์ผ ํ๋ค. ๊ทธ๋์ HBM์ LLM inference serving์์ latency, throughput, cost per token์ ๋ฐ๊พธ๋ ์ค์ํ ์์๊ฐ ๋๋ค.
์ ์ค์ํ๊ฐ
1. AI ๋ณ๋ชฉ์ FLOPS๋ง์ผ๋ก ํด๊ฒฐ๋์ง ์๋๋ค
AI ์นฉ ์ฑ๋ฅ์ ๋ณผ ๋ ํํ ์ด๋น ์ฐ์ฐ๋, ์ฆ FLOPS๋ฅผ ๋จผ์ ๋ณธ๋ค. ํ์ง๋ง ํฐ ๋ชจ๋ธ์ ์ค์ ๋ก ์๋น์คํ๋ฉด ์ฐ์ฐ ์ฅ์น๊ฐ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ค๋ฆฌ๋ ์๊ฐ์ด ์ค์ํด์ง๋ค. HBM bandwidth๊ฐ ๋ถ์กฑํ๋ฉด ๊ณ์ฐ ์นฉ์ด ๋น ๋ฅด๋๋ผ๋ ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ์ cache๋ฅผ ์ ๋ ์ฝ์ง ๋ชปํด ์ค์ ์ฒ๋ฆฌ๋์ด ์ ํ๋ ์ ์๋ค.
๊ทธ๋์ AI ์ธํ๋ผ ๊ฒฝ์์ โ๊ฐ์ฅ ๋น ๋ฅธ ์นฉโ๋ง์ ๊ฒฝ์์ด ์๋๋ค. ๋ฉ๋ชจ๋ฆฌ bandwidth, chip ๊ฐ interconnect, software scheduler, ์ ๋ ฅยท๋๊ฐ, rack density๊ฐ ํจ๊ป ๋ง์์ผ ํ๋ค.
2. Inference ๋น์ฉ ๊ตฌ์กฐ์ ์ง์ ์ฐ๊ฒฐ๋๋ค
LLM inference serving์์๋ ํ์ต์ด ๋๋ ๋ชจ๋ธ์ ์ฌ์ฉ์ ์์ฒญ๋ง๋ค ๊ณ์ ์คํํ๋ค. ๊ธด context๋ฅผ ์ฒ๋ฆฌํ๊ฑฐ๋ ๋ง์ ์์ฒญ์ ๋์์ ์ฒ๋ฆฌํ๋ฉด KV cache๊ฐ ์ปค์ง๊ณ , ์ด cache๋ฅผ ์ด๋์ ์ด๋ป๊ฒ ๋ณด๊ดํ๊ณ ์ฝ์์ง๊ฐ ๋น์ฉ๊ณผ ์ง์ฐ์๊ฐ์ ๋ฐ๊พผ๋ค.
HBM์ ๋น ๋ฅด์ง๋ง ๋น์ธ๊ณ ๊ณต๊ธ๋ ์ ํ๋ ์ ์๋ค. ๋ฐ๋ผ์ HBM์ ๋ง์ด ๋ถ์ด๋ฉด ์ฑ๋ฅ์ ์ข์์ง ์ ์์ง๋ง, ์นฉยทํจํค์งยท์ ๋ ฅยท๊ณต๊ธ๋ง ๋น์ฉ๋ ํจ๊ป ์ฌ๋ผ๊ฐ๋ค. ๊ฒฐ๊ตญ ์ค์ํ ์ง๋ฌธ์ โHBM์ด ์๋๋โ๊ฐ ์๋๋ผ โํน์ workload์์ HBM capacity์ bandwidth๊ฐ ๋น์ฉ ๋๋น ์ถฉ๋ถํ๊ฐโ๋ค.
3. AI capex cycle์ ๊ณต๊ธ๋ง ๋ณ๋ชฉ์ด ๋๋ค
AI capex cycle์์๋ AI ์์๊ฐ ๋ฐ์ดํฐ์ผํฐ, ์นฉ, ์ ๋ ฅ, ๋๊ฐ, ๋คํธ์ํฌ, ์ฅ๋น ํฌ์๋ก ๋ฒ์ง๋ค. ์ด๋ HBM์ ๊ณ ์ฑ๋ฅ AI accelerator์ ํต์ฌ ๋ถํ์ด๊ธฐ ๋๋ฌธ์ ๊ณต๊ธ๋ง ๋ณ๋ชฉ์ผ๋ก ์์ฃผ ๋ฑ์ฅํ๋ค.
AI ๊ธฐ์ ์ด๋ hyperscaler๊ฐ ๋ ๋ง์ compute capacity๋ฅผ ์ํด๋, GPU/accelerator ํจํค์ง์ ๋ค์ด๊ฐ๋ HBM๊ณผ advanced packaging capacity๊ฐ ๋ถ์กฑํ๋ฉด ์ค์ ์ฅ๋น ์ถํ๊ฐ ๋ฆ์ด์ง ์ ์๋ค. ๊ทธ๋์ HBM์ ๋ฐ๋์ฒด ํ์ฌ์ ๋ถํ ์ด์ผ๊ธฐ๋ฅผ ๋์ด, ๋ฐ์ดํฐ์ผํฐ ํฌ์ ์ผ์ ๊ณผ AI ์ธํ๋ผ ์์ต์ฑ์๋ ์ํฅ์ ์ค๋ค.
์ค์ ์์
LLM inference serving
๊ธด ๋ฌธ์๋ฅผ ๋ฃ๊ณ ๋ต์ ์์ฑํ๋ LLM ์๋น์ค๋ฅผ ์๊ฐํด๋ณด์. ์ฒ์์๋ ๊ธด prompt๋ฅผ ์ฝ๋ prefill ๋จ๊ณ๊ฐ ์๊ณ , ๊ทธ ๋ค์๋ token์ ํ๋์ฉ ์์ฑํ๋ decode ๋จ๊ณ๊ฐ ์ด์ด์ง๋ค. ์ด ๊ณผ์ ์์ ์ด์ token๋ค์ key/value ํํ์ ์ ์ฅํ KV cache๋ฅผ ๊ณ์ ์ฝ๊ณ ์จ์ผ ํ๋ค.
๋์ ์ฌ์ฉ์๊ฐ ๋ง์์ง๊ณ context๊ฐ ๊ธธ์ด์ง์๋ก KV cache๋ ์ปค์ง๋ค. ์ด๋ HBM capacity๊ฐ ๋ถ์กฑํ๋ฉด ์์ฒญ์ ๋ง์ด ๋ฌถ๊ธฐ ์ด๋ ต๊ณ , HBM bandwidth๊ฐ ๋ถ์กฑํ๋ฉด token ์์ฑ์ด ๋๋ ค์ง ์ ์๋ค. ๊ทธ๋์ LLM inference ๋น์ฉ์ ๋ณผ ๋๋ model ํฌ๊ธฐ๋ฟ ์๋๋ผ HBM, memory bandwidth, interconnect, scheduler๋ฅผ ํจ๊ป ๋ด์ผ ํ๋ค.
Rack-scale inference system
Etched์ rack-scale inference system ์ธํฐ๋ทฐ๋ ๋จ์ผ ์นฉ ์ฑ๋ฅ๋ณด๋ค rack ๋จ์ memory์ interconnect๋ฅผ ๊ฐ์กฐํ๋ค. ์ธํฐ๋ทฐ์ ์ฃผ์ฅ์ ๊ฒ์ฆ๋ ์ฑ๋ฅ์ผ๋ก ๋ฐ์๋ค์ด๋ฉด ์ ๋์ง๋ง, ์ ํ์ฌ๋ค์ด HBM๊ณผ memory topology๋ฅผ ์ด์ผ๊ธฐํ๋์ง๋ ๋ณด์ฌ์ค๋ค. Inference ๊ฒฝ์์ด ์นฉ ํ๋์ benchmark๋ฅผ ๋์ด, ์ฌ๋ฌ ์นฉ์ด ๋ฉ๋ชจ๋ฆฌ๋ฅผ ์ด๋ป๊ฒ ๊ณต์ ํ๊ณ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ง๋ ๋ฎ์ ์ง์ฐ์ผ๋ก ์ฃผ๊ณ ๋ฐ๋์ง์ ๋ฌธ์ ๋ก ๋์ด์ง๊ณ ์๊ธฐ ๋๋ฌธ์ด๋ค.
ํท๊ฐ๋ฆฌ์ง ๋ง์์ผ ํ ์
- HBM์ ์ ์ฅ์ฅ์น SSD๊ฐ ์๋๋ค. ๋ชจ๋ธ ์คํ ์ค ๋ฐ์ดํฐ๋ฅผ ๋น ๋ฅด๊ฒ ๊ณต๊ธํ๋ DRAM ๊ณ์ด ๋ฉ๋ชจ๋ฆฌ์ด๋ฉฐ, ์๊ตฌ ์ ์ฅ์๊ฐ ์๋๋ค.
- HBM ์ฉ๋๋ง ํฌ๋ฉด ์ถฉ๋ถํ ๊ฒ์ด ์๋๋ค. Capacity์ bandwidth, ์ ๋ ฅ, ํจํค์ง, chip ๊ฐ ํต์ , software scheduler๊ฐ ํจ๊ป ๋ง์์ผ ํ๋ค.
- HBM์ด ๋ง๋ค๊ณ ๋ชจ๋ ๋ชจ๋ธ์ด ์๋์ผ๋ก ์ธ๊ฒ ๋์๊ฐ์ง๋ ์๋๋ค. Workload๊ฐ memory-bound์ธ์ง compute-bound์ธ์ง, prefill๊ณผ decode ์ค ์ด๋๊ฐ ๋ณ๋ชฉ์ธ์ง์ ๋ฐ๋ผ ํจ๊ณผ๊ฐ ๋ค๋ฅด๋ค.
- HBM์ AI capex์ ํ ๋ถํ์ผ ๋ฟ์ด๋ค. ์ ๋ ฅ, ๋๊ฐ, networking, rack ์ค๊ณ, ๊ณ ๊ฐ ์์๊ฐ ๋ง์ง ์์ผ๋ฉด HBM ๊ณต๊ธ๋ง์ผ๋ก ์์ต์ฑ์ด ๊ฒฐ์ ๋์ง ์๋๋ค.
- ํ์ฌ ๋ฐํ์์ HBM์ ๊ฐ์กฐํ๋ค๊ณ ํด์ ์ฑ๋ฅ์ด ๊ฒ์ฆ๋ ๊ฒ์ ์๋๋ค. ๋ ๋ฆฝ benchmark, ์ค์ ๊ณ ๊ฐ workload, ์ ๋ ฅยท๋น์ฉ ๋ฐ์ดํฐ๋ฅผ ํจ๊ป ๋ด์ผ ํ๋ค.
๊ด๋ จ ๋ฌธ์
- LLM inference serving
- Cost per token
- AI capex cycle
- Etched์ rack-scale inference system ์ธํฐ๋ทฐ
- AI agent runtime๊ณผ AI capex cycle์ ์ฐจ์ด