LeVo 2๋Š” ๊ฐ€์‚ฌ, ์žฅ๋ฅดยท๊ฐ์ •ยท์•…๊ธฐ ํ”„๋กฌํ”„ํŠธ, ์„ ํƒ์  ์˜ค๋””์˜ค ํ”„๋กฌํ”„ํŠธ๋ฅผ ๋ฐ›์•„ ์™„์„ฑ๋œ ๊ธธ์ด์˜ ๋…ธ๋ž˜๋ฅผ ์ƒ์„ฑํ•˜๋ ค๋Š” ๋…ผ๋ฌธ์ด๋‹ค. ๋‹จ์ˆœํ•œ ๋ฐฐ๊ฒฝ์Œ์•… ์ƒ์„ฑ์ด ์•„๋‹ˆ๋ผ, ๋ณด์ปฌ๊ณผ ๋ฐ˜์ฃผ๊ฐ€ ํ•จ๊ป˜ ์›€์ง์ด๋Š” โ€œ๋…ธ๋ž˜โ€๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ•œ๋‹ค. ๋…ผ๋ฌธ์˜ ๋ฌธ์ œ์˜์‹์€ ๋ช…ํ™•ํ•˜๋‹ค. ์ „์ฒด ๋…ธ๋ž˜์˜ ๋ฉœ๋กœ๋””ยท๋ฆฌ๋“ฌยท๊ตฌ์กฐ๋ฅผ ์˜ค๋ž˜ ์œ ์ง€ํ•˜๋ ค๋ฉด ์ „์—ญ์ ์ธ ๊ณ„ํš์ด ํ•„์š”ํ•˜์ง€๋งŒ, ๋ณด์ปฌ๊ณผ ๋ฐ˜์ฃผ์˜ ์Œ์ƒ‰ยท๋ฐœ์Œยท์งˆ๊ฐ์„ ์‚ด๋ฆฌ๋ ค๋ฉด ํŠธ๋ž™๋ณ„ ์„ธ๋ถ€ ํ‘œํ˜„๋„ ํ•„์š”ํ•˜๋‹ค. LeVo 2๋Š” ์ด ๋‘˜์„ ํ•˜๋‚˜์˜ ํ† ํฐ์—ด์— ์–ต์ง€๋กœ ๋ชฐ์•„๋„ฃ์ง€ ์•Š๊ณ , ๊ณ„์ธต์ ์œผ๋กœ ๋‚˜๋ˆ„์–ด ๋ชจ๋ธ๋งํ•œ๋‹ค.

ํ•œ ์ค„๋กœ ๋งํ•˜๋ฉด

LeVo 2๋Š” ํ˜ผํ•ฉ ํ† ํฐ์œผ๋กœ ๋…ธ๋ž˜ ์ „์ฒด์˜ ๊ตฌ์กฐ๋ฅผ ๋จผ์ € ๊ณ„ํšํ•˜๊ณ , ๋ณด์ปฌยท๋ฐ˜์ฃผ ํ† ํฐ์„ ๋ณ‘๋ ฌ๋กœ ์„ธ๋ถ€ํ™”ํ•œ ๋’ค, diffusion ๊ธฐ๋ฐ˜ Music Codec์œผ๋กœ 48kHz ์ „์ฒด ๋…ธ๋ž˜๋ฅผ ๋ณต์›ํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ LLM-Diffusion ๋…ธ๋ž˜ ์ƒ์„ฑ ํ”„๋ ˆ์ž„์›Œํฌ๋‹ค.

๋ฐฐ๊ฒฝ: ์™œ ์ด ๋ฌธ์ œ๊ฐ€ ์ค‘์š”ํ•œ๊ฐ€

์Œ์•… ์ƒ์„ฑ๊ณผ ๋…ธ๋ž˜ ์ƒ์„ฑ์€ ๋น„์Šทํ•ด ๋ณด์ด์ง€๋งŒ ๋‚œ์ด๋„๊ฐ€ ๋‹ค๋ฅด๋‹ค. ๊ธฐ์•…๊ณก๋งŒ ๋งŒ๋“ค ๋•Œ๋Š” ์žฅ๋ฅด, ๋ฆฌ๋“ฌ, ์•…๊ธฐ ์งˆ๊ฐ, ์žฅ๊ธฐ ๊ตฌ์กฐ๊ฐ€ ์ค‘์š”ํ•˜๋‹ค. ์—ฌ๊ธฐ์— ๋ณด์ปฌ์ด ๋“ค์–ด๊ฐ€๋ฉด ๋ฌธ์ œ๊ฐ€ ๋” ๋ณต์žกํ•ด์ง„๋‹ค. ๊ฐ€์‚ฌ์™€ ๋ฐœ์Œ์ด ๋งž์•„์•ผ ํ•˜๊ณ , ๋ณด์ปฌ ๋ฉœ๋กœ๋””์™€ ๋ฐ˜์ฃผ๊ฐ€ ์–ด๊ธ‹๋‚˜์ง€ ์•Š์•„์•ผ ํ•˜๋ฉฐ, ํ•œ ๊ณก ์ „์ฒด์—์„œ verse์™€ chorus ๊ฐ™์€ ๊ตฌ์กฐ๊ฐ€ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ด์–ด์ ธ์•ผ ํ•œ๋‹ค.

๊ธฐ์กด ์ ‘๊ทผ์—๋Š” ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๊ธด์žฅ์ด ์žˆ์—ˆ๋‹ค.

์ฒซ์งธ, Jukebox ๊ณ„์—ด์ฒ˜๋Ÿผ ๋ณด์ปฌ๊ณผ ๋ฐ˜์ฃผ๊ฐ€ ์„ž์ธ ์˜ค๋””์˜ค์—์„œ ๋ฝ‘์€ mixed token์„ ์˜ˆ์ธกํ•˜๋ฉด ์ „์ฒด์ ์ธ ์กฐํ™”๋Š” ์žก๊ธฐ ์‰ฝ๋‹ค. ํ•˜์ง€๋งŒ ๋ณด์ปฌ๊ณผ ๋ฐ˜์ฃผ๊ฐ€ ์„œ๋กœ๋ฅผ ๊ฐ€๋ฆฌ๋Š” acoustic masking ๋•Œ๋ฌธ์— ์„ธ๋ถ€ ์Œ์งˆ์ด ์ œํ•œ๋  ์ˆ˜ ์žˆ๋‹ค.

๋‘˜์งธ, YuE๋‚˜ SongGen์ฒ˜๋Ÿผ ๋ณด์ปฌ ํ† ํฐ๊ณผ ๋ฐ˜์ฃผ ํ† ํฐ์„ ๋”ฐ๋กœ ๋‹ค๋ฃจ๋ฉด ๊ฐ ํŠธ๋ž™์˜ ์„ธ๋ถ€ ํ’ˆ์งˆ์€ ์ข‹์•„์งˆ ์ˆ˜ ์žˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ํ† ํฐ์—ด์ด ๊ธธ์–ด์ง€๊ณ , ๋ณด์ปฌ๊ณผ ๋ฐ˜์ฃผ๋ฅผ ๋…๋ฆฝ์ ์œผ๋กœ ์˜ˆ์ธกํ• ์ˆ˜๋ก ๋‘˜ ์‚ฌ์ด์˜ ํ™”์Œ๊ณผ ๊ตฌ์กฐ์  ์ผ๊ด€์„ฑ์ด ํ”๋“ค๋ฆด ์ˆ˜ ์žˆ๋‹ค.

LeVo 2๋Š” ์ด trade-off๋ฅผ โ€œํ•˜๋‚˜๋ฅผ ๊ณ ๋ฅด๋Š” ๋ฌธ์ œโ€๊ฐ€ ์•„๋‹ˆ๋ผ โ€œ์—ญํ• ์„ ๋‚˜๋ˆ„๋Š” ๋ฌธ์ œโ€๋กœ ๋ณธ๋‹ค. ์ „์—ญ ๊ตฌ์กฐ์™€ ํŠธ๋ž™๋ณ„ ์„ธ๋ถ€ ๋ฌ˜์‚ฌ๋ฅผ ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ๋“ˆ์— ๋งก๊ธฐ๋˜, ๋‘ ๋ชจ๋“ˆ์ด ๊ฐ™์€ ๋…ธ๋ž˜๋ฅผ ํ–ฅํ•ด ํ˜‘๋ ฅํ•˜๋„๋ก ์„ค๊ณ„ํ•œ๋‹ค.

ํ•ต์‹ฌ ์•„์ด๋””์–ด

LeVo 2์˜ ์ค‘์‹ฌ์—๋Š” LeLM์ด๋ผ๋Š” ๊ณ„์ธต์  ์–ธ์–ด ๋ชจ๋ธ์ด ์žˆ๋‹ค. LeLM์€ ๋‘ ๋ถ€๋ถ„์œผ๋กœ ๋‚˜๋‰œ๋‹ค.

  1. Mixed Semantic LM
    ํ˜ผํ•ฉ ํ† ํฐ์„ ์˜ˆ์ธกํ•œ๋‹ค. ๋…ผ๋ฌธ์€ ์ด ํ˜ผํ•ฉ ํ† ํฐ์„ ์ผ์ข…์˜ โ€œ์Œ์•…์  ์˜์‚ฌ chain-of-thoughtโ€์ฒ˜๋Ÿผ ์„ค๋ช…ํ•œ๋‹ค. ์—ฌ๊ธฐ์—๋Š” ๋ฉœ๋กœ๋””, ๋ฆฌ๋“ฌ, ํ…œํฌ, ๊ณก ๊ตฌ์กฐ, ๋ณด์ปฌ๊ณผ ๋ฐ˜์ฃผ์˜ ํฐ ์กฐํ™”๊ฐ€ ๋‹ด๊ธด๋‹ค. ์ฆ‰, ๋จผ์ € ๋…ธ๋ž˜์˜ ์ „์—ญ ์„ค๊ณ„๋„๋ฅผ ๋งŒ๋“ ๋‹ค.

  2. Track-Specific LM
    Mixed Semantic LM์˜ hidden state๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฐ›์•„ ๋ณด์ปฌ ํ† ํฐ๊ณผ ๋ฐ˜์ฃผ ํ† ํฐ์„ ๋ณ‘๋ ฌ๋กœ ์˜ˆ์ธกํ•œ๋‹ค. ์ด๋ ‡๊ฒŒ ํ•˜๋ฉด interleaved dual-track ๋ฐฉ์‹์ฒ˜๋Ÿผ ์‹œํ€€์Šค ๊ธธ์ด๋ฅผ ํฌ๊ฒŒ ๋Š˜๋ฆฌ์ง€ ์•Š์œผ๋ฉด์„œ๋„, ๋ณด์ปฌ๊ณผ ๋ฐ˜์ฃผ์˜ ์„ธ๋ถ€ ์งˆ๊ฐ์„ ๋”ฐ๋กœ ๋ณต์›ํ•  ์ˆ˜ ์žˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ Music Codec์ด ์ด ํ† ํฐ๋“ค์„ ์‹ค์ œ ์˜ค๋””์˜ค๋กœ ๋ณต์›ํ•œ๋‹ค. ์ธ์ฝ”๋”๋Š” mixed token, vocal token, accompaniment token์„ ๋งŒ๋“ค๊ณ , ๋””์ฝ”๋”๋Š” diffusion transformer์™€ VAE decoder๋ฅผ ์ด์šฉํ•ด 48kHz ์˜ค๋””์˜ค ํŒŒํ˜•์„ ๋ณต์›ํ•œ๋‹ค. ๋…ผ๋ฌธ์˜ Figure 1์€ ์ „์ฒด ๊ตฌ์กฐ๋ฅผ, Figure 2๋Š” Mixed Semantic LM๊ณผ Track-Specific LM์˜ ์—ฐ๊ฒฐ์„, Figure 3์€ Music Codec์˜ mixed/dual-track ์ฒ˜๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ๊ณต๊ฐœ ๋ฌธ์„œ์—๋Š” ์›๋ณธ ๊ทธ๋ฆผ์„ ์‹ฃ์ง€ ์•Š์•˜์ง€๋งŒ, ํ•ต์‹ฌ์€ โ€œ์ „์—ญ ๊ณ„ํš โ†’ ํŠธ๋ž™๋ณ„ ์„ธ๋ถ€ํ™” โ†’ diffusion ๋ณต์›โ€์ด๋ผ๋Š” ์„ธ ๋‹จ๊ณ„๋กœ ์ดํ•ดํ•˜๋ฉด ๋œ๋‹ค.

๋ฐฉ๋ฒ•๊ณผ ์‹คํ—˜ ์„ค์ •

ํ›ˆ๋ จ์€ ์„ธ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง„๋‹ค.

1. ๋ฏธํ•™ ์กฐ๊ฑด๋ถ€ ์‚ฌ์ „ํ•™์Šต

๋จผ์ € Mixed Semantic LM์„ ๋Œ€๊ทœ๋ชจ ์Œ์•… ๋ฐ์ดํ„ฐ๋กœ ํ•™์Šตํ•œ๋‹ค. ๋…ผ๋ฌธ์€ ์•ฝ 50๋งŒ ์‹œ๊ฐ„ ๊ทœ๋ชจ์˜ ๋…ธ๋ž˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ์„ค๋ช…ํ•œ๋‹ค. ์ด๋•Œ ์ž๋™ ์Œ์•… ๋ฏธํ•™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ•ด ๊ฐ ๊ณก์„ musicality tier๋กœ ๋‚˜๋ˆ„๊ณ , ๊ทธ tier๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋„ฃ๋Š”๋‹ค. ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์ง€๋Š” ๊ฒƒ๋งŒ์œผ๋กœ๋Š” ๊ณ ํ’ˆ์งˆ ์„ ํ˜ธ๊ฐ€ ์ƒ๊ธฐ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋ธ์ด โ€œ์ข‹์€ ์Œ์•…์„ฑโ€๊ณผ ์—ฐ๊ฒฐ๋œ ์กฐ๊ฑด์„ ํ•™์Šตํ•˜๋„๋ก ๋งŒ๋“  ๊ฒƒ์ด๋‹ค.

2. decoupled progressive post-training

๊ทธ๋‹ค์Œ Mixed Semantic LM์„ ์„ ํ˜ธ์— ๋งž๊ฒŒ ์กฐ์ •ํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ์ค‘์š”ํ•œ ์ ์€ ์—ฌ๋Ÿฌ ๋ชฉํ‘œ๋ฅผ ํ•œ ๋ฒˆ์— ์„ž์–ด ์ตœ์ ํ™”ํ•˜์ง€ ์•Š๋Š”๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

  • SFT๋Š” ์ƒ์œ„ 0.5% ์ˆ˜์ค€์˜ ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ๋กœ ์ถœ๋ ฅ ๋ถ„ํฌ๋ฅผ ์ขํ˜€ ๊ธฐ๋ณธ ํ’ˆ์งˆ์„ ์˜ฌ๋ฆฐ๋‹ค.
  • ๋Œ€๊ทœ๋ชจ offline DPO๋Š” ๊ฐ€์‚ฌ ์ •๋ ฌ, ํ”„๋กฌํ”„ํŠธ ์ผ์น˜, hallucination ๊ฐ์†Œ ๊ฐ™์€ controllability๋ฅผ ๊ฐœ์„ ํ•œ๋‹ค.
  • closed-loop semi-online DPO๋Š” ์ ์ง„์ ์œผ๋กœ ์—…๋ฐ์ดํŠธ๋˜๋Š” generator๊ฐ€ ๋งŒ๋“  ์ƒˆ ์ƒ˜ํ”Œ์„ ์‚ฌ์šฉํ•ด musicality๋ฅผ ๋” ๋Œ์–ด์˜ฌ๋ฆฐ๋‹ค.

๋…ผ๋ฌธ์˜ ์ฃผ์žฅ์€, ์Œ์•…์„ฑยท๊ฐ€์‚ฌ ์ •๋ ฌยทํ”„๋กฌํ”„ํŠธ ์ผ์น˜๋ฅผ ๋™์‹œ์— ๋ฐ€์–ด๋ถ™์ด๋ฉด gradient conflict๊ฐ€ ์ƒ๊ธฐ๊ธฐ ์‰ฝ๊ธฐ ๋•Œ๋ฌธ์—, ๋จผ์ € ์ œ์–ด์„ฑ์„ ์•ˆ์ •ํ™”ํ•œ ๋’ค ์Œ์•…์„ฑ์„ ๊ฐœ์„ ํ•˜๋Š” ์ˆœ์„œ๊ฐ€ ๋” ๋‚ซ๋‹ค๋Š” ๊ฒƒ์ด๋‹ค.

3. modular extension

๋งˆ์ง€๋ง‰์œผ๋กœ Mixed Semantic LM์€ ๊ณ ์ •ํ•˜๊ณ  Track-Specific LM์„ ํ•™์Šตํ•ด ๋ณด์ปฌ๊ณผ ๋ฐ˜์ฃผ์˜ ์„ธ๋ถ€ ์Œ์งˆ์„ ๋ณด๊ฐ•ํ•œ๋‹ค. ์ด ๋‹จ๊ณ„์—์„œ๋Š” ์‹ค์ œ mixed token๋งŒ ์“ฐ์ง€ ์•Š๊ณ , ์ ์€ diffusion step์œผ๋กœ ์ผ๋ถ€๋Ÿฌ ๋‚ฎ์€ ํ’ˆ์งˆ์˜ ์˜ค๋””์˜ค๋ฅผ ๋งŒ๋“  ๋’ค ๋‹ค์‹œ mixed token์„ ์ถ”์ถœํ•˜๋Š” acoustic augmentation๋„ ์‚ฌ์šฉํ•œ๋‹ค. Track-Specific LM์ด ํ๋ฆฟํ•œ ์ „์—ญ ๊ณ„ํš์—์„œ ๋” ์„ ๋ช…ํ•œ ๋ณด์ปฌยท๋ฐ˜์ฃผ ์„ธ๋ถ€๋ฅผ ํšŒ๋ณตํ•˜๋„๋ก ํ›ˆ๋ จํ•˜๋Š” ์…ˆ์ด๋‹ค.

๋ชจ๋ธ ๊ทœ๋ชจ๋„ ์ž‘์ง€ ์•Š๋‹ค. ๋…ผ๋ฌธ์€ LeLM์ด ์•ฝ 4B ํŒŒ๋ผ๋ฏธํ„ฐ์ด๋ฉฐ, diffusion model์ด ์•ฝ 700M ํŒŒ๋ผ๋ฏธํ„ฐ๋ผ๊ณ  ์„ค๋ช…ํ•œ๋‹ค. Mixed Semantic LM์€ 36-layer Transformer์ด๊ณ , Track-Specific LM์€ 12-layer Transformer๋‹ค. ํ•™์Šต์—๋Š” 64๊ฐœ์˜ NVIDIA H20 GPU๊ฐ€ ์‚ฌ์šฉ๋˜์—ˆ๋‹ค.

์ฃผ์š” ๊ฒฐ๊ณผ

1. open-source ๊ธฐ์ค€์„ ๋ณด๋‹ค ์ „๋ฐ˜์ ์œผ๋กœ ๊ฐ•ํ–ˆ๋‹ค

์ „๋ฌธ๊ฐ€ 20๋ช…์ด ์ค‘๊ตญ์–ด 100๊ณก, ์˜์–ด 100๊ณก์„ ํ‰๊ฐ€ํ•œ MOS ์‹คํ—˜์—์„œ LeVo 2๋Š” ๋น„๊ตํ•œ ๋ชจ๋“  open-source ์‹œ์Šคํ…œ๋ณด๋‹ค ๋†’์€ ์ ์ˆ˜๋ฅผ ๋ณด์˜€๋‹ค. ๋น„๊ต ๋Œ€์ƒ์—๋Š” YuE, DiffRhythm 2, ACE-Step 1.5, HeartMuLa, ๊ธฐ์กด LeVo๊ฐ€ ํฌํ•จ๋œ๋‹ค. Overall Musicality, Melody, Arrangement, Structure, ๋ณด์ปฌ ์Œ์งˆ, ๋ฐ˜์ฃผ ์Œ์งˆ ๋“ฑ ์—ฌ์„ฏ ์ฃผ๊ด€ ์ง€ํ‘œ ๋ชจ๋‘์—์„œ open-source ๊ธฐ์ค€์„ ๋ณด๋‹ค ์šฐ์„ธํ–ˆ๋‹ค.

์ƒ์šฉ ์‹œ์Šคํ…œ๊ณผ ๋น„๊ตํ•˜๋ฉด Suno v5์™€ Mureka v8์ด ์—ฌ์ „ํžˆ ์—ฌ๋Ÿฌ ์ง€ํ‘œ์—์„œ ์•ž์„œ์ง€๋งŒ, LeVo 2๋Š” Melody, Arrangement, Accompaniment Sound Quality, Structure์—์„œ ๊ทธ ๊ฒฉ์ฐจ๋ฅผ ์ขํ˜”๋‹ค๊ณ  ๋ณด๊ณ ํ•œ๋‹ค. ๋˜ํ•œ ๋…ผ๋ฌธ ์‹คํ—˜์—์„œ๋Š” MiniMax Music 2.5+๋ณด๋‹ค ์ฃผ๊ด€ ์ฒญ์ทจ ์ง€ํ‘œ ์ „๋ฐ˜์—์„œ ๋†’๊ฒŒ ๋‚˜์™”๋‹ค.

2. ๊ฐ€์‚ฌ ์ •๋ ฌ๊ณผ ๊ฐ์ • ์ œ์–ด๋„ ๊ฐœ์„ ๋๋‹ค

๊ฐ๊ด€ ํ‰๊ฐ€์—์„œ LeVo 2๋Š” open-source ์‹œ์Šคํ…œ ์ค‘ ๊ฐ€์žฅ ๋‚ฎ์€ Phoneme Error Rate์ธ 8.55%๋ฅผ ๊ธฐ๋กํ–ˆ๋‹ค. ์ด๋Š” ๊ฐ€์‚ฌ๋ฅผ ์ž˜๋ชป ๋ถ€๋ฅด๊ฑฐ๋‚˜ ๋‹จ์–ด๋ฅผ ์‚ฝ์ž…ยท์‚ญ์ œํ•˜๋Š” ๋ฌธ์ œ๊ฐ€ ์ค„์—ˆ๋‹ค๋Š” ์˜๋ฏธ๋‹ค. ๊ฐ์ • ์ œ์–ด ์ ์ˆ˜๋Š” 8.72๋กœ, ๋น„๊ตํ•œ ์ƒ์šฉยท๊ณต๊ฐœ ์‹œ์Šคํ…œ์„ ํ†ตํ‹€์–ด ๊ฐ€์žฅ ๋†’์€ ๊ฐ’์œผ๋กœ ๋ณด๊ณ ๋œ๋‹ค.

๋‹ค๋งŒ ์žฅ๋ฅด ์ œ์–ด์™€ ์•…๊ธฐ ์ƒ์„ฑ ์ •ํ™•๋„์—์„œ๋Š” ACE-Step 1.5๋ณด๋‹ค ๋‚ฎ์•˜๋‹ค. ๋…ผ๋ฌธ์€ ์ด ์ฐจ์ด๋ฅผ ACE-Step 1.5๊ฐ€ ๋งค์šฐ ์ •๋ฐ€ํ•œ ๋Œ€๊ทœ๋ชจ annotation pipeline์„ ์‚ฌ์šฉํ•œ ๋ฐ์„œ ์˜จ ๊ฒƒ์œผ๋กœ ํ•ด์„ํ•œ๋‹ค. ์ฆ‰ LeVo 2๊ฐ€ ๋ชจ๋“  ์ œ์–ด ์ง€ํ‘œ์—์„œ ์ตœ๊ณ ๋ผ๋Š” ๋œป์€ ์•„๋‹ˆ๋‹ค.

3. ์„ธ ๋‹จ๊ณ„ ํ•™์Šต์ด ๋ˆ„์ ์ ์œผ๋กœ ์„ฑ๋Šฅ์„ ์˜ฌ๋ ธ๋‹ค

Table II์˜ ablation์€ ํ›ˆ๋ จ ๋‹จ๊ณ„๊ฐ€ ํ•˜๋‚˜์”ฉ ์ถ”๊ฐ€๋  ๋•Œ ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€ ๋ณด์—ฌ์ค€๋‹ค. ์‚ฌ์ „ํ•™์Šต๋งŒ ํ–ˆ์„ ๋•Œ๋ณด๋‹ค SFT ํ›„ ์ „์ฒด ์ฒญ์ทจ ํ’ˆ์งˆ์ด ์˜ฌ๋ผ๊ฐ€๊ณ , offline DPO ํ›„ PER๊ฐ€ 10.59%์—์„œ 9.19%๋กœ ์ค„์–ด๋“ ๋‹ค. semi-online DPO๋Š” musicality, melody, arrangement๋ฅผ ์ถ”๊ฐ€๋กœ ๋†’์ธ๋‹ค. ๋งˆ์ง€๋ง‰ modular extension์€ ๋ณด์ปฌยท๋ฐ˜์ฃผ ์Œ์งˆ์„ ๋Œ์–ด์˜ฌ๋ฆฌ๋ฉด์„œ PER๋ฅผ 8.55%๊นŒ์ง€ ๋‚ฎ์ถ˜๋‹ค.

์ด ๊ฒฐ๊ณผ๋Š” ๋…ผ๋ฌธ์˜ ์„ค๊ณ„ ์ฒ ํ•™๊ณผ ๋งž๋ฌผ๋ฆฐ๋‹ค. ์ œ์–ด์„ฑ๊ณผ ์Œ์•…์„ฑ์„ ํ•œ ๋ฒˆ์— ์ตœ์ ํ™”ํ•˜๊ธฐ๋ณด๋‹ค, ๋จผ์ € ๊ธฐ๋ณธ ํ’ˆ์งˆ์„ ์ขํžˆ๊ณ , ์ œ์–ด์„ฑ์„ ์•ˆ์ •ํ™”ํ•˜๊ณ , ๊ทธ๋‹ค์Œ ์Œ์•…์„ฑ์„ ํ™•์žฅํ•˜๊ณ , ๋งˆ์ง€๋ง‰์œผ๋กœ ํŠธ๋ž™๋ณ„ ์Œ์งˆ์„ ๋ณด๊ฐ•ํ•˜๋Š” ์ˆœ์„œ๊ฐ€ ํšจ๊ณผ์ ์ด์—ˆ๋‹ค๋Š” ์ฃผ์žฅ์ด๋‹ค.

4. architecture ablation์—์„œ ๊ณ„์ธต ๊ตฌ์กฐ์˜ ์ค‘์š”์„ฑ์ด ๋“œ๋Ÿฌ๋‚ฌ๋‹ค

Track-Specific LM์„ ์ œ๊ฑฐํ•˜๋ฉด ๋ณด์ปฌยท๋ฐ˜์ฃผ ์Œ์งˆ๊ณผ ๊ตฌ์กฐ ์ง€ํ‘œ๊ฐ€ ํฌ๊ฒŒ ๋–จ์–ด์กŒ๋‹ค. delay pattern์„ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ๋Š” PER๊ฐ€ 47.10%๋กœ ๊ธ‰๊ฒฉํžˆ ๋‚˜๋น ์กŒ๋‹ค. ์ด๋Š” ๋‹จ์ˆœํžˆ โ€œ๋ณด์ปฌ ํ† ํฐ๊ณผ ๋ฐ˜์ฃผ ํ† ํฐ์„ ๋”ฐ๋กœ ์˜ˆ์ธกํ•œ๋‹คโ€๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ•˜์ง€ ์•Š๊ณ , Mixed Semantic LM์˜ ๋ฌธ๋งฅ์„ Track-Specific LM์ด ์ ์ ˆํžˆ ์ฐธ์กฐํ•˜๋Š” ์—ฐ๊ฒฐ ๊ตฌ์กฐ๊ฐ€ ์ค‘์š”ํ•˜๋‹ค๋Š” ๋œป์ด๋‹ค.

๋˜ํ•œ ๋ฏธํ•™ tier tag์™€ musicality-aware CFG๋ฅผ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ ์ฃผ๊ด€์  ์Œ์•…์„ฑ ์ง€ํ‘œ๊ฐ€ ๋–จ์–ด์กŒ๋‹ค. ์ž๋™ ๋ฏธํ•™ ํ‰๊ฐ€๊ฐ€ ์™„๋ฒฝํ•œ ์ธ๊ฐ„ ์ทจํ–ฅ์„ ๋Œ€์‹ ํ•œ๋‹ค๊ณ  ๋ณผ ์ˆ˜๋Š” ์—†์ง€๋งŒ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ๋Œ€๊ทœ๋ชจ noisy data์—์„œ ์Œ์•…์„ฑ prior๋ฅผ ์ฃผ์ž…ํ•˜๋Š” ์‹ค์šฉ์  ์‹ ํ˜ธ๋กœ ์“ฐ์˜€๋‹ค.

ํ•œ๊ณ„

๋…ผ๋ฌธ์ด ์ธ์ •ํ•˜๋Š” ํ•œ๊ณ„๋„ ๋ถ„๋ช…ํ•˜๋‹ค.

  • LeVo 2๋Š” open-source ๊ธฐ์ค€์„ ๋ณด๋‹ค ๊ฐ•ํ•˜์ง€๋งŒ, ์ตœ์ƒ์œ„ proprietary system๊ณผ๋Š” ์—ฌ์ „ํžˆ ์ฐจ์ด๊ฐ€ ์žˆ๋‹ค.
  • ํ•™์Šต ๋ฐ์ดํ„ฐ์™€ annotation ํ’ˆ์งˆ์— ํฌ๊ฒŒ ์˜์กดํ•œ๋‹ค. ํŠนํžˆ Qwen2-Audio ๊ธฐ๋ฐ˜ caption, lyric extraction, song structure parsing ๊ณผ์ •์˜ ์˜ค๋ฅ˜๊ฐ€ ๋ˆ„์ ๋  ์ˆ˜ ์žˆ๋‹ค.
  • ์žฅ๋ฅดยท์•…๊ธฐ ์ œ์–ด๋Š” ์ผ๋ถ€ ๊ฒฝ์Ÿ ์‹œ์Šคํ…œ๋ณด๋‹ค ๋‚ฎ๋‹ค. musicality๋ฅผ ๊ฐ•ํ™”ํ•˜๋Š” ํ‰๊ฐ€ยท์กฐ๊ฑดํ™”๊ฐ€ ์žฅ๋ฅด์™€ ์•…๊ธฐ ์ œ์–ด์— ํŽธํ–ฅ์„ ๋งŒ๋“ค ๊ฐ€๋Šฅ์„ฑ๋„ ablation์—์„œ ๋“œ๋Ÿฌ๋‚œ๋‹ค.
  • ์Œ์•… ์ƒ์„ฑ ๋ชจ๋ธ์€ ์ €์ž‘๊ถŒ๊ณผ ์ฐฝ์ž‘์ž ๊ถŒ๋ฆฌ ๋ฌธ์ œ๊ฐ€ ํฌ๋‹ค. ๋…ผ๋ฌธ์€ ์—ฐ๊ตฌ ๋ชฉ์ ๊ณผ ์ง€์‹์žฌ์‚ฐ๊ถŒ ์กด์ค‘์„ ๋ช…์‹œํ•˜์ง€๋งŒ, ๊ณต๊ฐœ ๋ชจ๋ธ์ด ์‹ค์ œ๋กœ ์–ด๋–ค ๋ฐ์ดํ„ฐ์™€ ์–ด๋–ค ์‚ฌ์šฉ ํ™˜๊ฒฝ์—์„œ ์•ˆ์ „ํ•œ์ง€๋Š” ๋ณ„๋„์˜ ๊ฒ€ํ† ๊ฐ€ ํ•„์š”ํ•˜๋‹ค.
  • ํ‰๊ฐ€๋Š” 2026๋…„ 5์›” ์‹œ์ ์˜ ์ƒ์šฉ ์‹œ์Šคํ…œ๊ณผ ๋น„๊ตํ•œ ๊ฒฐ๊ณผ๋‹ค. ์ƒ์šฉ ์Œ์•… ์ƒ์„ฑ ์„œ๋น„์Šค๋Š” ๋น ๋ฅด๊ฒŒ ๋ฐ”๋€Œ๋ฏ€๋กœ, ์‹œ๊ฐ„์ด ์ง€๋‚˜๋ฉด ์ƒ๋Œ€ ์ˆœ์œ„๊ฐ€ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ๋‹ค.

์™œ ์ค‘์š”ํ•œ๊ฐ€

LeVo 2์˜ ์˜๋ฏธ๋Š” โ€œ๋˜ ํ•˜๋‚˜์˜ ์Œ์•… ์ƒ์„ฑ ๋ชจ๋ธโ€์ด๋ผ๊ธฐ๋ณด๋‹ค, ๋…ธ๋ž˜ ์ƒ์„ฑ ๋ฌธ์ œ๋ฅผ ๊ตฌ์กฐ์ ์œผ๋กœ ๋‚˜๋ˆ  ํ’€์—ˆ๋‹ค๋Š” ๋ฐ ์žˆ๋‹ค. full-length song generation์€ ์žฅ๊ธฐ ๊ตฌ์กฐ, ๊ฐ€์‚ฌ ์ •๋ ฌ, ๋ณด์ปฌยท๋ฐ˜์ฃผ ์Œ์งˆ, ํ”„๋กฌํ”„ํŠธ ์ œ์–ด, ์ธ๊ฐ„์ด ๋“ฃ๋Š” ์Œ์•…์„ฑ์ด๋ผ๋Š” ์—ฌ๋Ÿฌ ๋ชฉํ‘œ๊ฐ€ ์ถฉ๋Œํ•˜๋Š” ๋ฌธ์ œ๋‹ค. LeVo 2๋Š” ์ด ๋ชฉํ‘œ๋“ค์„ ํ•˜๋‚˜์˜ ์†์‹ค์ด๋‚˜ ํ•˜๋‚˜์˜ ํ† ํฐ ํ‘œํ˜„์— ๋ชจ๋‘ ๋ฐ€์–ด ๋„ฃ์ง€ ์•Š๊ณ , ๋ชจ๋ธ ๊ตฌ์กฐ์™€ ํ•™์Šต ์ˆœ์„œ์—์„œ ๋ถ„๋ฆฌํ•œ๋‹ค.

์ด ์ ‘๊ทผ์€ ์Œ์•… ์ƒ์„ฑ๋ฟ ์•„๋‹ˆ๋ผ ๋‹ค๋ฅธ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ ์ƒ์„ฑ์—๋„ ์ฐธ๊ณ ํ•  ๋งŒํ•˜๋‹ค. ์ „์—ญ ์˜๋ฏธ ๊ณ„ํš๊ณผ modality-specific detail์„ ๋ถ„๋ฆฌํ•˜๊ณ , post-training์—์„œ๋„ ์ œ์–ด์„ฑ๊ณผ ์„ ํ˜ธ ํ’ˆ์งˆ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ๋‹ค๋ฃจ๋Š” ๋ฐฉ์‹์€ ๊ธด ์‹œํ€€์Šคยท๊ณ ํ’ˆ์งˆ ์ถœ๋ ฅยท์ธ๊ฐ„ ์„ ํ˜ธ๊ฐ€ ํ•จ๊ป˜ ํ•„์š”ํ•œ ์˜์—ญ์—์„œ ๋ฐ˜๋ณต๋  ์ˆ˜ ์žˆ๋Š” ์„ค๊ณ„ ํŒจํ„ด์ด๋‹ค.

ํ—ท๊ฐˆ๋ฆฌ์ง€ ๋ง์•„์•ผ ํ•  ์ 

  • LeVo 2๋Š” ํ…์ŠคํŠธ๋งŒ์œผ๋กœ ์งง์€ BGM์„ ๋งŒ๋“œ๋Š” ๋ชจ๋ธ์ด ์•„๋‹ˆ๋ผ, ๊ฐ€์‚ฌยท๋ณด์ปฌยท๋ฐ˜์ฃผ๊ฐ€ ํฌํ•จ๋œ full-length song generation์„ ๊ฒจ๋ƒฅํ•œ๋‹ค.
  • ๋…ผ๋ฌธ์—์„œ LeVo 2๊ฐ€ ๋ชจ๋“  ์ƒ์šฉ ์‹œ์Šคํ…œ์„ ์ด๊ธด๋‹ค๊ณ  ์ฃผ์žฅํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค. open-source ๊ธฐ์ค€์„ ์—๋Š” ๊ฐ•ํ•˜์ง€๋งŒ Suno v5, Mureka v8 ๊ฐ™์€ proprietary system์€ ์—ฌ์ „ํžˆ ์—ฌ๋Ÿฌ ์ง€ํ‘œ์—์„œ ์•ž์„ ๋‹ค.
  • ์ž๋™ ๋ฏธํ•™ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์ธ๊ฐ„ ์ทจํ–ฅ์„ ์™„์ „ํžˆ ๋Œ€์ฒดํ•˜๋Š” ๋„๊ตฌ๊ฐ€ ์•„๋‹ˆ๋‹ค. ๋…ผ๋ฌธ์—์„œ๋„ ์ „๋ฌธ๊ฐ€ ์ฒญ์ทจ ํ‰๊ฐ€๋ฅผ ๋ณ„๋„๋กœ ์ˆ˜ํ–‰ํ•œ๋‹ค.
  • DPO๋ฅผ ์ผ๋‹ค๋Š” ์ ๋งŒ์ด ํ•ต์‹ฌ์€ ์•„๋‹ˆ๋‹ค. ๋” ์ค‘์š”ํ•œ ๊ฒƒ์€ SFT, offline DPO, semi-online DPO๋ฅผ ์„œ๋กœ ๋‹ค๋ฅธ ๋ชฉํ‘œ์— ๋งž๊ฒŒ ์ˆœ์ฐจ์ ์œผ๋กœ ๋ฐฐ์น˜ํ–ˆ๋‹ค๋Š” ์ ์ด๋‹ค.
  • ๊ณต๊ฐœ๋œ ์ˆ˜์น˜๋Š” ๋…ผ๋ฌธ์ด ์„ค์ •ํ•œ ๋ฐ์ดํ„ฐ, ํ‰๊ฐ€ ์‹œ์ , ๋น„๊ต ์‹œ์Šคํ…œ ๋ฒ„์ „์— ์˜์กดํ•œ๋‹ค. ์Œ์•… ์ƒ์„ฑ ์„œ๋น„์Šค๋Š” ๋น ๋ฅด๊ฒŒ ์—…๋ฐ์ดํŠธ๋˜๋ฏ€๋กœ ์‹œ๊ฐ„์ด ์ง€๋‚œ ๋’ค์—๋Š” ๋ณ„๋„ ์žฌํ‰๊ฐ€๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ด€๋ จ ๋ฌธ์„œ