HBM์€ AI ์ธํ”„๋ผ ๊ธ€์—์„œ ์ž์ฃผ ๋ณด์ด๋Š” ๋ฐ˜๋„์ฒด ์šฉ์–ด์ง€๋งŒ, ๋‹จ์ˆœํžˆ โ€œ๋น„์‹ผ ๋ฉ”๋ชจ๋ฆฌโ€๋ผ๊ณ ๋งŒ ์ดํ•ดํ•˜๋ฉด ํ•ต์‹ฌ์„ ๋†“์น˜๊ธฐ ์‰ฝ๋‹ค. AI ๋ชจ๋ธ์„ ์‹ค์ œ ์„œ๋น„์Šค๋กœ ๋Œ๋ฆด ๋•Œ๋Š” ๊ณ„์‚ฐ ์นฉ์ด ๋น ๋ฅธ ๊ฒƒ๋งŒ์œผ๋กœ ๋ถ€์กฑํ•˜๊ณ , ๋ชจ๋ธ์ด ๊ณ„์† ์ฝ๊ณ  ์จ์•ผ ํ•˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์ถฉ๋ถ„ํžˆ ๋น ๋ฅด๊ฒŒ ๊ณต๊ธ‰ํ•  ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. HBM์€ ๋ฐ”๋กœ ๊ทธ ๋ณ‘๋ชฉ์„ ์ค„์ด๊ธฐ ์œ„ํ•ด ์“ฐ์ด๋Š” ๊ณ ๋Œ€์—ญํญ ๋ฉ”๋ชจ๋ฆฌ๋‹ค.

ํ•œ ์ค„๋กœ ๋งํ•˜๋ฉด

HBM์€ GPUยทAI accelerator ์˜†์— ๋งค์šฐ ๋„“์€ ํ†ต๋กœ๋กœ ๋ถ™๋Š” ๊ณ ์„ฑ๋Šฅ ๋ฉ”๋ชจ๋ฆฌ๋กœ, ํฐ AI ๋ชจ๋ธ์„ ๋น ๋ฅด๊ฒŒ ์‹คํ–‰ํ•  ๋•Œ ๋ฐ์ดํ„ฐ๊ฐ€ ์นฉ ์•ˆํŒŽ์œผ๋กœ ์ด๋™ํ•˜๋Š” ๋ณ‘๋ชฉ์„ ์ค„์—ฌ์ค€๋‹ค.

๋น„์œ ๋กœ ์ดํ•ดํ•˜๊ธฐ

AI accelerator๋ฅผ ์•„์ฃผ ๋น ๋ฅธ ์ฃผ๋ฐฉ์ด๋ผ๊ณ  ์ƒ๊ฐํ•ด๋ณด์ž. ์š”๋ฆฌ์‚ฌ์™€ ์กฐ๋ฆฌ๊ธฐ๊ตฌ๊ฐ€ ์•„๋ฌด๋ฆฌ ๋นจ๋ผ๋„, ์žฌ๋ฃŒ ์ฐฝ๊ณ ์—์„œ ์žฌ๋ฃŒ๊ฐ€ ํ•œ ์ค„ ํ†ต๋กœ๋กœ ์ฒœ์ฒœํžˆ ๋“ค์–ด์˜ค๋ฉด ์ฃผ๋ฌธ์„ ๋นจ๋ฆฌ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์—†๋‹ค. HBM์€ ์ด ์ฃผ๋ฐฉ ๋ฐ”๋กœ ์˜†์— ๋„“๊ณ  ๊ฐ€๊นŒ์šด ์žฌ๋ฃŒ ์ฐฝ๊ณ ๋ฅผ ๋ถ™์—ฌ, ๋งŽ์€ ์žฌ๋ฃŒ๊ฐ€ ๋™์‹œ์— ๋“ค์–ด์˜ค๊ฒŒ ํ•˜๋Š” ์žฅ์น˜์— ๊ฐ€๊น๋‹ค.

๋‹ค๋งŒ ์ด ๋น„์œ ์—๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค. ์‹ค์ œ HBM์€ ๋ฌผ๋ฆฌ์  ์ฐฝ๊ณ ๊ฐ€ ์•„๋‹ˆ๋ผ DRAM ์นฉ์„ ์ˆ˜์ง์œผ๋กœ ์Œ“๊ณ , AI accelerator์™€ ๋งค์šฐ ๋„“์€ ๋ฐ์ดํ„ฐ ํ†ต๋กœ๋กœ ์—ฐ๊ฒฐํ•œ ๋ฉ”๋ชจ๋ฆฌ ํŒจํ‚ค์ง€๋‹ค. ์ค‘์š”ํ•œ ๊ฒƒ์€ โ€œ์ €์žฅ ์šฉ๋Ÿ‰์ด ํฌ๋‹คโ€๋งŒ์ด ์•„๋‹ˆ๋ผ, ์ •ํ•ด์ง„ ์‹œ๊ฐ„ ์•ˆ์— ์–ผ๋งˆ๋‚˜ ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์ฃผ๊ณ ๋ฐ›์„ ์ˆ˜ ์žˆ๋Š”๊ฐ€, ์ฆ‰ bandwidth๋‹ค.

์ •ํ™•ํ•œ ์ •์˜

HBM์€ High Bandwidth Memory์˜ ์•ฝ์ž๋‹ค. ์—ฌ๋Ÿฌ DRAM die๋ฅผ ์ˆ˜์ง์œผ๋กœ ์Œ“๊ณ , GPU๋‚˜ AI accelerator ๊ฐ€๊นŒ์ด์— ๋ฐฐ์น˜ํ•ด ๋„“์€ ์ธํ„ฐํŽ˜์ด์Šค๋กœ ์—ฐ๊ฒฐํ•˜๋Š” ๊ณ ์„ฑ๋Šฅ ๋ฉ”๋ชจ๋ฆฌ ๋ฐฉ์‹์ด๋‹ค. ์ผ๋ฐ˜ ์„œ๋ฒ„ ๋ฉ”๋ชจ๋ฆฌ๋ณด๋‹ค ๋ฌผ๋ฆฌ์ ์œผ๋กœ ๋” ๊ฐ€๊น๊ณ  ๋ฐ์ดํ„ฐ ํ†ต๋กœ๊ฐ€ ๋„“๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ™์€ ์‹œ๊ฐ„์— ๋” ๋งŽ์€ ๋ฐ์ดํ„ฐ๋ฅผ ์นฉ์œผ๋กœ ๊ณต๊ธ‰ํ•  ์ˆ˜ ์žˆ๋‹ค.

AI ๋ชจ๋ธ ์‹คํ–‰์—์„œ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ, ์ค‘๊ฐ„ activation, attention ๊ณ„์‚ฐ์— ํ•„์š”ํ•œ KV cache ๊ฐ™์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๊ณ„์† ์ด๋™ํ•œ๋‹ค. ์ด๋•Œ ์—ฐ์‚ฐ ์žฅ์น˜๊ฐ€ ๊ธฐ๋‹ค๋ฆฌ์ง€ ์•Š์œผ๋ ค๋ฉด ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์ถฉ๋ถ„ํ•œ bandwidth์™€ capacity๋ฅผ ์ œ๊ณตํ•ด์•ผ ํ•œ๋‹ค. ๊ทธ๋ž˜์„œ HBM์€ LLM inference serving์—์„œ latency, throughput, cost per token์„ ๋ฐ”๊พธ๋Š” ์ค‘์š”ํ•œ ์š”์†Œ๊ฐ€ ๋œ๋‹ค.

์™œ ์ค‘์š”ํ•œ๊ฐ€

1. AI ๋ณ‘๋ชฉ์€ FLOPS๋งŒ์œผ๋กœ ํ•ด๊ฒฐ๋˜์ง€ ์•Š๋Š”๋‹ค

AI ์นฉ ์„ฑ๋Šฅ์„ ๋ณผ ๋•Œ ํ”ํžˆ ์ดˆ๋‹น ์—ฐ์‚ฐ๋Ÿ‰, ์ฆ‰ FLOPS๋ฅผ ๋จผ์ € ๋ณธ๋‹ค. ํ•˜์ง€๋งŒ ํฐ ๋ชจ๋ธ์„ ์‹ค์ œ๋กœ ์„œ๋น„์Šคํ•˜๋ฉด ์—ฐ์‚ฐ ์žฅ์น˜๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋‹ค๋ฆฌ๋Š” ์‹œ๊ฐ„์ด ์ค‘์š”ํ•ด์ง„๋‹ค. HBM bandwidth๊ฐ€ ๋ถ€์กฑํ•˜๋ฉด ๊ณ„์‚ฐ ์นฉ์ด ๋น ๋ฅด๋”๋ผ๋„ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ์™€ cache๋ฅผ ์ œ๋•Œ ์ฝ์ง€ ๋ชปํ•ด ์‹ค์ œ ์ฒ˜๋ฆฌ๋Ÿ‰์ด ์ œํ•œ๋  ์ˆ˜ ์žˆ๋‹ค.

๊ทธ๋ž˜์„œ AI ์ธํ”„๋ผ ๊ฒฝ์Ÿ์€ โ€œ๊ฐ€์žฅ ๋น ๋ฅธ ์นฉโ€๋งŒ์˜ ๊ฒฝ์Ÿ์ด ์•„๋‹ˆ๋‹ค. ๋ฉ”๋ชจ๋ฆฌ bandwidth, chip ๊ฐ„ interconnect, software scheduler, ์ „๋ ฅยท๋ƒ‰๊ฐ, rack density๊ฐ€ ํ•จ๊ป˜ ๋งž์•„์•ผ ํ•œ๋‹ค.

2. Inference ๋น„์šฉ ๊ตฌ์กฐ์™€ ์ง์ ‘ ์—ฐ๊ฒฐ๋œ๋‹ค

LLM inference serving์—์„œ๋Š” ํ•™์Šต์ด ๋๋‚œ ๋ชจ๋ธ์„ ์‚ฌ์šฉ์ž ์š”์ฒญ๋งˆ๋‹ค ๊ณ„์† ์‹คํ–‰ํ•œ๋‹ค. ๊ธด context๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ฑฐ๋‚˜ ๋งŽ์€ ์š”์ฒญ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋ฉด KV cache๊ฐ€ ์ปค์ง€๊ณ , ์ด cache๋ฅผ ์–ด๋””์— ์–ด๋–ป๊ฒŒ ๋ณด๊ด€ํ•˜๊ณ  ์ฝ์„์ง€๊ฐ€ ๋น„์šฉ๊ณผ ์ง€์—ฐ์‹œ๊ฐ„์„ ๋ฐ”๊พผ๋‹ค.

HBM์€ ๋น ๋ฅด์ง€๋งŒ ๋น„์‹ธ๊ณ  ๊ณต๊ธ‰๋„ ์ œํ•œ๋  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ HBM์„ ๋งŽ์ด ๋ถ™์ด๋ฉด ์„ฑ๋Šฅ์€ ์ข‹์•„์งˆ ์ˆ˜ ์žˆ์ง€๋งŒ, ์นฉยทํŒจํ‚ค์ง•ยท์ „๋ ฅยท๊ณต๊ธ‰๋ง ๋น„์šฉ๋„ ํ•จ๊ป˜ ์˜ฌ๋ผ๊ฐ„๋‹ค. ๊ฒฐ๊ตญ ์ค‘์š”ํ•œ ์งˆ๋ฌธ์€ โ€œHBM์ด ์žˆ๋А๋ƒโ€๊ฐ€ ์•„๋‹ˆ๋ผ โ€œํŠน์ • workload์—์„œ HBM capacity์™€ bandwidth๊ฐ€ ๋น„์šฉ ๋Œ€๋น„ ์ถฉ๋ถ„ํ•œ๊ฐ€โ€๋‹ค.

3. AI capex cycle์˜ ๊ณต๊ธ‰๋ง ๋ณ‘๋ชฉ์ด ๋œ๋‹ค

AI capex cycle์—์„œ๋Š” AI ์ˆ˜์š”๊ฐ€ ๋ฐ์ดํ„ฐ์„ผํ„ฐ, ์นฉ, ์ „๋ ฅ, ๋ƒ‰๊ฐ, ๋„คํŠธ์›Œํฌ, ์žฅ๋น„ ํˆฌ์ž๋กœ ๋ฒˆ์ง„๋‹ค. ์ด๋•Œ HBM์€ ๊ณ ์„ฑ๋Šฅ AI accelerator์˜ ํ•ต์‹ฌ ๋ถ€ํ’ˆ์ด๊ธฐ ๋•Œ๋ฌธ์— ๊ณต๊ธ‰๋ง ๋ณ‘๋ชฉ์œผ๋กœ ์ž์ฃผ ๋“ฑ์žฅํ•œ๋‹ค.

AI ๊ธฐ์—…์ด๋‚˜ hyperscaler๊ฐ€ ๋” ๋งŽ์€ compute capacity๋ฅผ ์›ํ•ด๋„, GPU/accelerator ํŒจํ‚ค์ง€์— ๋“ค์–ด๊ฐ€๋Š” HBM๊ณผ advanced packaging capacity๊ฐ€ ๋ถ€์กฑํ•˜๋ฉด ์‹ค์ œ ์žฅ๋น„ ์ถœํ•˜๊ฐ€ ๋Šฆ์–ด์งˆ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ HBM์€ ๋ฐ˜๋„์ฒด ํšŒ์‚ฌ์˜ ๋ถ€ํ’ˆ ์ด์•ผ๊ธฐ๋ฅผ ๋„˜์–ด, ๋ฐ์ดํ„ฐ์„ผํ„ฐ ํˆฌ์ž ์ผ์ •๊ณผ AI ์ธํ”„๋ผ ์ˆ˜์ต์„ฑ์—๋„ ์˜ํ–ฅ์„ ์ค€๋‹ค.

์‹ค์ œ ์˜ˆ์‹œ

LLM inference serving

๊ธด ๋ฌธ์„œ๋ฅผ ๋„ฃ๊ณ  ๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” LLM ์„œ๋น„์Šค๋ฅผ ์ƒ๊ฐํ•ด๋ณด์ž. ์ฒ˜์Œ์—๋Š” ๊ธด prompt๋ฅผ ์ฝ๋Š” prefill ๋‹จ๊ณ„๊ฐ€ ์žˆ๊ณ , ๊ทธ ๋’ค์—๋Š” token์„ ํ•˜๋‚˜์”ฉ ์ƒ์„ฑํ•˜๋Š” decode ๋‹จ๊ณ„๊ฐ€ ์ด์–ด์ง„๋‹ค. ์ด ๊ณผ์ •์—์„œ ์ด์ „ token๋“ค์˜ key/value ํ‘œํ˜„์„ ์ €์žฅํ•œ KV cache๋ฅผ ๊ณ„์† ์ฝ๊ณ  ์จ์•ผ ํ•œ๋‹ค.

๋™์‹œ ์‚ฌ์šฉ์ž๊ฐ€ ๋งŽ์•„์ง€๊ณ  context๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก KV cache๋Š” ์ปค์ง„๋‹ค. ์ด๋•Œ HBM capacity๊ฐ€ ๋ถ€์กฑํ•˜๋ฉด ์š”์ฒญ์„ ๋งŽ์ด ๋ฌถ๊ธฐ ์–ด๋ ต๊ณ , HBM bandwidth๊ฐ€ ๋ถ€์กฑํ•˜๋ฉด token ์ƒ์„ฑ์ด ๋А๋ ค์งˆ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋ž˜์„œ LLM inference ๋น„์šฉ์„ ๋ณผ ๋•Œ๋Š” model ํฌ๊ธฐ๋ฟ ์•„๋‹ˆ๋ผ HBM, memory bandwidth, interconnect, scheduler๋ฅผ ํ•จ๊ป˜ ๋ด์•ผ ํ•œ๋‹ค.

Rack-scale inference system

Etched์˜ rack-scale inference system ์ธํ„ฐ๋ทฐ๋Š” ๋‹จ์ผ ์นฉ ์„ฑ๋Šฅ๋ณด๋‹ค rack ๋‹จ์œ„ memory์™€ interconnect๋ฅผ ๊ฐ•์กฐํ–ˆ๋‹ค. ์ธํ„ฐ๋ทฐ์˜ ์ฃผ์žฅ์„ ๊ฒ€์ฆ๋œ ์„ฑ๋Šฅ์œผ๋กœ ๋ฐ›์•„๋“ค์ด๋ฉด ์•ˆ ๋˜์ง€๋งŒ, ์™œ ํšŒ์‚ฌ๋“ค์ด HBM๊ณผ memory topology๋ฅผ ์ด์•ผ๊ธฐํ•˜๋Š”์ง€๋Š” ๋ณด์—ฌ์ค€๋‹ค. Inference ๊ฒฝ์Ÿ์ด ์นฉ ํ•˜๋‚˜์˜ benchmark๋ฅผ ๋„˜์–ด, ์—ฌ๋Ÿฌ ์นฉ์ด ๋ฉ”๋ชจ๋ฆฌ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ณต์œ ํ•˜๊ณ  ๋ฐ์ดํ„ฐ๋ฅผ ์–ผ๋งˆ๋‚˜ ๋‚ฎ์€ ์ง€์—ฐ์œผ๋กœ ์ฃผ๊ณ ๋ฐ›๋Š”์ง€์˜ ๋ฌธ์ œ๋กœ ๋„“์–ด์ง€๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

ํ—ท๊ฐˆ๋ฆฌ์ง€ ๋ง์•„์•ผ ํ•  ์ 

  • HBM์€ ์ €์žฅ์žฅ์น˜ SSD๊ฐ€ ์•„๋‹ˆ๋‹ค. ๋ชจ๋ธ ์‹คํ–‰ ์ค‘ ๋ฐ์ดํ„ฐ๋ฅผ ๋น ๋ฅด๊ฒŒ ๊ณต๊ธ‰ํ•˜๋Š” DRAM ๊ณ„์—ด ๋ฉ”๋ชจ๋ฆฌ์ด๋ฉฐ, ์˜๊ตฌ ์ €์žฅ์†Œ๊ฐ€ ์•„๋‹ˆ๋‹ค.
  • HBM ์šฉ๋Ÿ‰๋งŒ ํฌ๋ฉด ์ถฉ๋ถ„ํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋‹ค. Capacity์™€ bandwidth, ์ „๋ ฅ, ํŒจํ‚ค์ง•, chip ๊ฐ„ ํ†ต์‹ , software scheduler๊ฐ€ ํ•จ๊ป˜ ๋งž์•„์•ผ ํ•œ๋‹ค.
  • HBM์ด ๋งŽ๋‹ค๊ณ  ๋ชจ๋“  ๋ชจ๋ธ์ด ์ž๋™์œผ๋กœ ์‹ธ๊ฒŒ ๋Œ์•„๊ฐ€์ง€๋Š” ์•Š๋Š”๋‹ค. Workload๊ฐ€ memory-bound์ธ์ง€ compute-bound์ธ์ง€, prefill๊ณผ decode ์ค‘ ์–ด๋””๊ฐ€ ๋ณ‘๋ชฉ์ธ์ง€์— ๋”ฐ๋ผ ํšจ๊ณผ๊ฐ€ ๋‹ค๋ฅด๋‹ค.
  • HBM์€ AI capex์˜ ํ•œ ๋ถ€ํ’ˆ์ผ ๋ฟ์ด๋‹ค. ์ „๋ ฅ, ๋ƒ‰๊ฐ, networking, rack ์„ค๊ณ„, ๊ณ ๊ฐ ์ˆ˜์š”๊ฐ€ ๋งž์ง€ ์•Š์œผ๋ฉด HBM ๊ณต๊ธ‰๋งŒ์œผ๋กœ ์ˆ˜์ต์„ฑ์ด ๊ฒฐ์ •๋˜์ง€ ์•Š๋Š”๋‹ค.
  • ํšŒ์‚ฌ ๋ฐœํ‘œ์—์„œ HBM์„ ๊ฐ•์กฐํ•œ๋‹ค๊ณ  ํ•ด์„œ ์„ฑ๋Šฅ์ด ๊ฒ€์ฆ๋œ ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. ๋…๋ฆฝ benchmark, ์‹ค์ œ ๊ณ ๊ฐ workload, ์ „๋ ฅยท๋น„์šฉ ๋ฐ์ดํ„ฐ๋ฅผ ํ•จ๊ป˜ ๋ด์•ผ ํ•œ๋‹ค.

๊ด€๋ จ ๋ฌธ์„œ

์ถœ์ฒ˜