LLM inference serving์€ ํ•™์Šต์ด ๋๋‚œ ์–ธ์–ด ๋ชจ๋ธ์„ ์‹ค์ œ ์‚ฌ์šฉ์ž ์š”์ฒญ์— ๋งž์ถฐ ๋น ๋ฅด๊ณ  ์•ˆ์ •์ ์œผ๋กœ ์‹คํ–‰ํ•˜๋Š” ์ผ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์ด โ€œ๋˜‘๋˜‘ํ•œ๊ฐ€โ€์™€ ๋ณ„๊ฐœ๋กœ, ์„œ๋น„์Šค๋ฅผ ์šด์˜ํ•˜๋Š” ์ชฝ์—์„œ๋Š” ํ•œ token์„ ์–ผ๋งˆ๋‚˜ ๋นจ๋ฆฌ ๋งŒ๋“ค๊ณ , ๋™์‹œ์— ๋ช‡ ๋ช…์˜ ์š”์ฒญ์„ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, token ๋น„์šฉ๊ณผ ๋ฉ”๋ชจ๋ฆฌยท์ „๋ ฅ ๋ถ€๋‹ด์„ ์–ผ๋งˆ๋‚˜ ์ค„์ผ ์ˆ˜ ์žˆ๋Š”์ง€๊ฐ€ ํ•ต์‹ฌ ๋ฌธ์ œ๊ฐ€ ๋ฉ๋‹ˆ๋‹ค.

ํ•œ ์ค„๋กœ ๋งํ•˜๋ฉด

LLM inference serving์€ ์ด๋ฏธ ํ•™์Šต๋œ ๋ชจ๋ธ์„ ์‚ฌ์šฉ์ž ์š”์ฒญ๋งˆ๋‹ค ์‹คํ–‰ํ•ด ๋‹ต์„ ์ƒ์„ฑํ•˜๊ณ , ๊ทธ ๊ณผ์ •์˜ ์ง€์—ฐ์‹œ๊ฐ„ยท์ฒ˜๋ฆฌ๋Ÿ‰ยท๋ฉ”๋ชจ๋ฆฌยท๋น„์šฉ์„ ๊ด€๋ฆฌํ•˜๋Š” ์ธํ”„๋ผ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.

๋น„์œ ๋กœ ์ดํ•ดํ•˜๊ธฐ

๋ชจ๋ธ ํ•™์Šต์„ ์ƒˆ ๊ณต์žฅ์„ ์ง“๋Š” ์ผ์— ๋น„์œ ํ•œ๋‹ค๋ฉด, inference serving์€ ๊ทธ ๊ณต์žฅ์ด ๋งค์ผ ์ฃผ๋ฌธ์„ ๋ฐ›์•„ ์ œํ’ˆ์„ ๋งŒ๋“ค์–ด ๋ณด๋‚ด๋Š” ์šด์˜์ž…๋‹ˆ๋‹ค.

๊ณต์žฅ์„ ์ง€์„ ๋•Œ๋Š” ์„ค๊ณ„์™€ ๋Œ€๊ทœ๋ชจ ํˆฌ์ž๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ฃผ๋ฌธ์ด ๋ฐ€๋ ค๋“œ๋Š” ์ˆœ๊ฐ„์—๋Š” ๋‹ค๋ฅธ ๋ฌธ์ œ๊ฐ€ ์ค‘์š”ํ•ด์ง‘๋‹ˆ๋‹ค. ์›์žฌ๋ฃŒ๊ฐ€ ์ œ๋•Œ ๋“ค์–ด์˜ค๋Š”์ง€, ์ปจ๋ฒ ์ด์–ด๊ฐ€ ๋ง‰ํžˆ์ง€ ์•Š๋Š”์ง€, ์ž‘์—…์ž์™€ ์žฅ๋น„๊ฐ€ ๋†€์ง€ ์•Š๋Š”์ง€, ์ „๊ธฐ์™€ ๋ƒ‰๊ฐ ๋น„์šฉ์ด ๊ฐ๋‹น๋˜๋Š”์ง€, ์ฃผ๋ฌธ๋งˆ๋‹ค ๋‚ฉ๊ธฐ๊ฐ€ ๋งž๋Š”์ง€๊ฐ€ ๊ด€๊ฑด์ž…๋‹ˆ๋‹ค.

์ด ๋น„์œ ์˜ ํ•œ๊ณ„๋„ ์žˆ์Šต๋‹ˆ๋‹ค. LLM inference๋Š” ๋ฌผ๋ฆฌ ์ œํ’ˆ์„ ๋ณต์ œํ•˜๋Š” ์ผ์ด ์•„๋‹ˆ๋ผ, ๋งค ์š”์ฒญ๋งˆ๋‹ค token์„ ํ•˜๋‚˜์”ฉ ๊ณ„์‚ฐํ•ด ๋‹ค์Œ token ํ™•๋ฅ ์„ ๋งŒ๋“œ๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์‹ค์ œ ๋ณ‘๋ชฉ์€ ๊ณต์žฅ ๋ฐ”๋‹ฅ์˜ ๋ฌผ๋ฅ˜๋ณด๋‹ค GPU/AI chip, HBM, KV cache, memory bandwidth, interconnect, batching, software scheduler ๊ฐ™์€ ๊ณ„์‚ฐ ์‹œ์Šคํ…œ ์•ˆ์—์„œ ์ƒ๊น๋‹ˆ๋‹ค.

์ •ํ™•ํ•œ ์ •์˜

LLM inference๋Š” ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๊ณ ์ •ํ•œ ๋’ค, ์ž…๋ ฅ prompt๋ฅผ ๋ฐ›์•„ ๋‹ค์Œ token์„ ์˜ˆ์ธกํ•˜๊ณ  ๊ทธ token์„ ๋‹ค์‹œ ์ž…๋ ฅ์— ๋ถ™์—ฌ ๋‹ค์Œ token์„ ์ƒ์„ฑํ•˜๋Š” ์‹คํ–‰ ๊ณผ์ •์ž…๋‹ˆ๋‹ค. Serving์€ ์ด ๊ณผ์ •์„ ๋งŽ์€ ์‚ฌ์šฉ์ž ์š”์ฒญ์— ๋Œ€ํ•ด ์•ˆ์ •์ ์œผ๋กœ ์šด์˜ํ•˜๋Š” ์‹œ์Šคํ…œ ์ „์ฒด๋ฅผ ๋œปํ•ฉ๋‹ˆ๋‹ค.

์‹ค์ œ LLM serving์€ ๋ณดํ†ต ๋‘ ๋‹จ๊ณ„๋ฅผ ๋‚˜๋ˆ  ๋ด…๋‹ˆ๋‹ค.

  1. Prefill: ์‚ฌ์šฉ์ž๊ฐ€ ๋ณด๋‚ธ prompt์™€ context๋ฅผ ํ•œ ๋ฒˆ์— ์ฝ์–ด ๋ชจ๋ธ ๋‚ด๋ถ€ ์ƒํƒœ๋ฅผ ๋งŒ๋“œ๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ์ž…๋ ฅ์ด ๊ธธ์ˆ˜๋ก ๋งŽ์€ token์„ ์ฒ˜๋ฆฌํ•ด์•ผ ํ•˜๋ฏ€๋กœ ๊ณ„์‚ฐ๋Ÿ‰๊ณผ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์ปค์ง‘๋‹ˆ๋‹ค.
  2. Decode: ์ดํ›„ ๋‹ต๋ณ€ token์„ ํ•˜๋‚˜์”ฉ ์ƒ์„ฑํ•˜๋Š” ๋‹จ๊ณ„์ž…๋‹ˆ๋‹ค. ๊ฐ ์ƒˆ token์€ ์ด์ „์— ์ƒ์„ฑ๋œ token์„ ์ฐธ๊ณ ํ•ด์•ผ ํ•˜๋ฏ€๋กœ, ์ง€์—ฐ์‹œ๊ฐ„๊ณผ KV cache ์ ‘๊ทผ์ด ์ค‘์š”ํ•ด์ง‘๋‹ˆ๋‹ค.

์—ฌ๊ธฐ์„œ KV cache๋Š” ์ด์ „ token๋“ค์˜ key/value ํ‘œํ˜„์„ ์ €์žฅํ•ด ๋‘๋Š” ๋ฉ”๋ชจ๋ฆฌ์ž…๋‹ˆ๋‹ค. ๋งค token์„ ์ƒ์„ฑํ•  ๋•Œ ๊ณผ๊ฑฐ context๋ฅผ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋‹ค์‹œ ๊ณ„์‚ฐํ•˜๋ฉด ๋„ˆ๋ฌด ๋น„์‹ธ๊ธฐ ๋•Œ๋ฌธ์—, ์ด๋ฏธ ๊ณ„์‚ฐํ•œ attention ์žฌ๋ฃŒ๋ฅผ ์ €์žฅํ•˜๊ณ  ์žฌ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ context๊ฐ€ ๊ธธ๊ณ  ๋™์‹œ ์š”์ฒญ์ด ๋งŽ์•„์งˆ์ˆ˜๋ก KV cache ์ž์ฒด๊ฐ€ ํฐ ๋ฉ”๋ชจ๋ฆฌ ๋ถ€๋‹ด์ด ๋ฉ๋‹ˆ๋‹ค.

์™œ ์ค‘์š”ํ•œ๊ฐ€

1. AI ๋น„์šฉ์˜ ์ค‘์‹ฌ์ด ํ•™์Šต์—์„œ ์‚ฌ์šฉ๋Ÿ‰์œผ๋กœ ์ด๋™ํ•œ๋‹ค

๋Œ€ํ˜• ๋ชจ๋ธ์„ ํ•œ ๋ฒˆ ํ•™์Šตํ•˜๋Š” ๋น„์šฉ์€ ์—ฌ์ „ํžˆ ํฝ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ชจ๋ธ์ด ์ œํ’ˆ์— ๋“ค์–ด๊ฐ€ ๋งค์ผ ์ˆ˜๋ฐฑ๋งŒ ๋ฒˆ ํ˜ธ์ถœ๋˜๋ฉด, ์ด๋น„์šฉ์€ inference ์ชฝ์—์„œ ๊ณ„์† ์Œ“์ž…๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ๋Š˜์ˆ˜๋ก ์ „๋ ฅ, ๋ฉ”๋ชจ๋ฆฌ, chip ์ˆ˜, networking, ๋ƒ‰๊ฐ, scheduler ํšจ์œจ์ด ๋ชจ๋‘ ๋น„์šฉ ๊ตฌ์กฐ์— ์˜ํ–ฅ์„ ์ค๋‹ˆ๋‹ค. ์ด ๋น„์šฉ์ด ๋ฐ์ดํ„ฐ์„ผํ„ฐยท์ „๋ ฅยท์žฅ๋น„ ํˆฌ์ž๋กœ ๋ฒˆ์ง€๋Š” ํ๋ฆ„์€ AI capex cycle๋กœ ๋”ฐ๋กœ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทธ๋ž˜์„œ AI ์ธํ”„๋ผ๋ฅผ ๋ณผ ๋•Œ๋Š” โ€œ์–ด๋–ค ๋ชจ๋ธ์„ ํ•™์Šตํ–ˆ๋Š”๊ฐ€โ€๋งŒ ๋ณด๋ฉด ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ๋ชจ๋ธ์„ ์‹ค์ œ ์ œํ’ˆ์—์„œ ์–ผ๋งˆ๋‚˜ ์‹ธ๊ณ  ๋น ๋ฅด๊ฒŒ ์ œ๊ณตํ•  ์ˆ˜ ์žˆ๋Š”์ง€๊ฐ€ ๋ณ„๋„์˜ ๊ฒฝ์Ÿ ์ถ•์ด ๋ฉ๋‹ˆ๋‹ค.

2. ๋ณ‘๋ชฉ์ด FLOPS๋งŒ์ด ์•„๋‹ˆ๋‹ค

LLM serving์—์„œ๋Š” ์—ฐ์‚ฐ ์„ฑ๋Šฅ๋„ ์ค‘์š”ํ•˜์ง€๋งŒ, ๋ชจ๋“  ๋ฌธ์ œ๊ฐ€ FLOPS๋กœ ํ•ด๊ฒฐ๋˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค. ๊ธด context์™€ ๋งŽ์€ ๋™์‹œ ์š”์ฒญ์—์„œ๋Š” memory bandwidth, HBM capacity, KV cache ๋ฐฐ์น˜, chip ๊ฐ„ interconnect ์ง€์—ฐ, request batching์ด ์‹ค์ œ ์†๋„์™€ ๋น„์šฉ์„ ํฌ๊ฒŒ ๋ฐ”๊ฟ‰๋‹ˆ๋‹ค.

Etched๊ฐ€ ์ธํ„ฐ๋ทฐ์—์„œ rack-scale inference system๊ณผ cluster-scale memory๋ฅผ ๊ฐ•์กฐํ•œ ์ด์œ ๋„ ์ด ์ง€์ ๊ณผ ์—ฐ๊ฒฐ๋ฉ๋‹ˆ๋‹ค. ํšŒ์‚ฌ์˜ ์ฃผ์žฅ์ด ๊ฒ€์ฆ๋๋‹ค๋Š” ๋œป์€ ์•„๋‹ˆ์ง€๋งŒ, inference ๊ฒฝ์Ÿ์ด ๋‹จ์ผ chip benchmark๋ฅผ ๋„˜์–ด rack ๋‹จ์œ„ memory์™€ interconnect ์„ค๊ณ„๋กœ ์ด๋™ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์‹ ํ˜ธ๋กœ ์ฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

3. ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์™€ serving system์€ ๋‹ค๋ฅธ ์ธต์ด๋‹ค

Transformer ์•„ํ‚คํ…์ฒ˜๋Š” token ์‚ฌ์ด์˜ ๊ด€๊ณ„๋ฅผ ๊ณ„์‚ฐํ•˜๋Š” ๋ชจ๋ธ ๋‚ด๋ถ€ ๊ตฌ์กฐ์ž…๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด LLM inference serving์€ ๊ทธ ๋ชจ๋ธ์„ ์‹ค์ œ ์š”์ฒญ ์ฒ˜๋ฆฌ ์‹œ์Šคํ…œ์œผ๋กœ ์šด์˜ํ•˜๋Š” ์™ธ๋ถ€ ์ธํ”„๋ผ์ž…๋‹ˆ๋‹ค.

๋‘˜์€ ์—ฐ๊ฒฐ๋˜์–ด ์žˆ์ง€๋งŒ ๊ฐ™์€ ๋ง์€ ์•„๋‹™๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด self-attention์€ ๊ธด context์—์„œ ๊ณ„์‚ฐ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ๋ถ€๋‹ด์„ ํ‚ค์šธ ์ˆ˜ ์žˆ๊ณ , serving system์€ ๊ทธ ๋ถ€๋‹ด์„ KV cache, batching, parallelism, memory hierarchy๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค. ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•ด์•ผ serving ๋ณ‘๋ชฉ์„ ์„ค๋ช…ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์ข‹์€ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ€ ์ž๋™์œผ๋กœ ์‹ผ serving์„ ๋ณด์žฅํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค.

์‹ค์ œ ์˜ˆ์‹œ

Etched์˜ rack-scale inference ์ฃผ์žฅ

Etched์˜ rack-scale inference system ์ธํ„ฐ๋ทฐ์—์„œ ํšŒ์‚ฌ๋Š” inference๋ฅผ prefill๊ณผ decode๋กœ ๋‚˜๋ˆ„๊ณ , ์—ฌ๋Ÿฌ chip์ด HBM/SRAM์„ ๋‚ฎ์€ ์ง€์—ฐ์œผ๋กœ ํ•จ๊ป˜ ์“ฐ๋Š” cluster-scale memory๋ฅผ ๊ฐ•์กฐํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ์ฃผ์žฅ์„ ํ‰๊ฐ€ํ•  ๋•Œ ์งˆ๋ฌธ์€ ๋‹จ์ˆœํžˆ โ€œNVIDIA GPU๋ณด๋‹ค ๋น ๋ฅธ๊ฐ€?โ€๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค. ๋” ์ข‹์€ ์งˆ๋ฌธ์€ ๋‹ค์Œ์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค.

  • ์–ด๋–ค model๊ณผ workload์—์„œ latency๊ฐ€ ์ค„์–ด๋“œ๋Š”๊ฐ€?
  • prefill๊ณผ decode ์ค‘ ์–ด๋””๊ฐ€ ๊ฐœ์„ ๋˜๋Š”๊ฐ€?
  • KV cache๊ฐ€ ์ปค์ง€๋Š” ์ƒํ™ฉ์—์„œ memory capacity์™€ bandwidth๊ฐ€ ์ถฉ๋ถ„ํ•œ๊ฐ€?
  • chip ๊ฐ„ interconnect ์ง€์—ฐ์ด token ์ƒ์„ฑ ์†๋„๋ฅผ ์–ผ๋งˆ๋‚˜ ๋ฐ”๊พธ๋Š”๊ฐ€?
  • software stack๊ณผ ๊ธฐ์กด serving framework์— ์–ด๋–ป๊ฒŒ ๋ถ™๋Š”๊ฐ€?
  • ์ „๋ ฅ, ๋ƒ‰๊ฐ, rack density, ๊ณ ๊ฐ ์ „ํ™˜ ๋น„์šฉ๊นŒ์ง€ ํฌํ•จํ•œ serving economics๊ฐ€ ์ข‹์•„์ง€๋Š”๊ฐ€?

Transformer ๊ณ„์—ด ๋ชจ๋ธ์˜ ๊ธด context

Attention Is All You Need๋Š” self-attention์ด sequence ์•ˆ์˜ token ๊ด€๊ณ„๋ฅผ ์ง์ ‘ ๊ณ„์‚ฐํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๊ตฌ์กฐ๋Š” ๋ณ‘๋ ฌํ™”์™€ ๊ธด ์˜์กด์„ฑ ์ฒ˜๋ฆฌ์— ๊ฐ•ํ–ˆ์ง€๋งŒ, sequence ๊ธธ์ด๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ๋ชจ๋“  token ์Œ์„ ๋น„๊ตํ•˜๋Š” ๋น„์šฉ์ด ์ปค์ง‘๋‹ˆ๋‹ค.

ํ˜„๋Œ€ LLM serving์—์„œ ๊ธด context๋ฅผ ๋‹ค๋ฃฐ ๋•Œ memory์™€ cache๊ฐ€ ์ค‘์š”ํ•ด์ง€๋Š” ์ด์œ ๋„ ์—ฌ๊ธฐ์„œ ์ถœ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ์‚ฌ์šฉ์ž๊ฐ€ ๊ธด ๋ฌธ์„œ, ์ฝ”๋“œ๋ฒ ์ด์Šค, ๋Œ€ํ™” ๊ธฐ๋ก์„ ๋„ฃ์„์ˆ˜๋ก prefill ๊ณ„์‚ฐ๊ณผ KV cache๊ฐ€ ์ปค์ง€๊ณ , ์—ฌ๋Ÿฌ ์š”์ฒญ์„ ๋™์‹œ์— ์ฒ˜๋ฆฌํ•˜๋Š” scheduler์˜ ์„ ํƒ์ด ๋น„์šฉ๊ณผ ์‘๋‹ต ์†๋„๋ฅผ ๋ฐ”๊ฟ‰๋‹ˆ๋‹ค.

ํ—ท๊ฐˆ๋ฆฌ์ง€ ๋ง์•„์•ผ ํ•  ์ 

  • Inference๋Š” ํ†ต๊ณ„ํ•™์˜ ์ถ”๋ก (inference)๊ณผ ๊ฐ™์€ ๋‹จ์–ด์ง€๋งŒ, ์—ฌ๊ธฐ์„œ๋Š” ๋ชจ๋ธ ์‹คํ–‰์„ ๋œปํ•ฉ๋‹ˆ๋‹ค. Wansook.World์˜ AI ์ธํ”„๋ผ ๋ฌธ๋งฅ์—์„œ๋Š” ํ•™์Šต๋œ LLM์ด prompt๋ฅผ ๋ฐ›์•„ token์„ ์ƒ์„ฑํ•˜๋Š” runtime ๊ณผ์ •์„ ๊ฐ€๋ฆฌํ‚ค๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.
  • Inference serving์€ ๋ชจ๋ธ ํ•™์Šต(training)์ด ์•„๋‹™๋‹ˆ๋‹ค. Training์€ ๋ชจ๋ธ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐ”๊พธ๋Š” ๊ณผ์ •์ด๊ณ , inference๋Š” ํ•™์Šต๋œ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ด์šฉํ•ด ๋‹ต์„ ์ƒ์„ฑํ•˜๋Š” ๊ณผ์ •์ž…๋‹ˆ๋‹ค.
  • ๋น ๋ฅธ chip ํ•˜๋‚˜๊ฐ€ ๊ณง ์ข‹์€ serving system์€ ์•„๋‹™๋‹ˆ๋‹ค. Memory, networking, software scheduler, reliability, power/cooling, ๊ณ ๊ฐ์˜ ๊ธฐ์กด stack๊ณผ์˜ ํ˜ธํ™˜์„ฑ์ด ํ•จ๊ป˜ ๋งž์•„์•ผ ํ•ฉ๋‹ˆ๋‹ค.
  • Rack-scale system์ด๋ผ๋Š” ๋ง์€ ๊ฒ€์ฆ ๊ฒฐ๊ณผ๊ฐ€ ์•„๋‹ˆ๋ผ ์„ค๊ณ„ ์ฃผ์žฅ์ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํšŒ์‚ฌ ์ธํ„ฐ๋ทฐ๋‚˜ ๋ฐœํ‘œ๋Š” ์ค‘์š”ํ•œ ์‹ ํ˜ธ์ง€๋งŒ, ์„ฑ๋Šฅยท์ „๋ ฅยท๋น„์šฉ ๋น„๊ต๋Š” ๋…๋ฆฝ benchmark์™€ ๊ณ ๊ฐ ์‚ฌ๋ก€๊ฐ€ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
  • KV cache๋Š” ๋ฌด๋ฃŒ ๋ฉ”๋ชจ๋ฆฌ๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค. ์žฌ๊ณ„์‚ฐ์„ ์ค„์—ฌ์ฃผ์ง€๋งŒ, ๊ธด context์™€ ๋งŽ์€ ๋™์‹œ ์š”์ฒญ์—์„œ๋Š” cache ์ž์ฒด๊ฐ€ HBM์„ ์žก์•„๋จน๋Š” ๋ณ‘๋ชฉ์ด ๋ฉ๋‹ˆ๋‹ค.

๊ด€๋ จ ๋ฌธ์„œ