LeVo 2๋ ๊ฐ์ฌ, ์ฅ๋ฅดยท๊ฐ์ ยท์ ๊ธฐ ํ๋กฌํํธ, ์ ํ์ ์ค๋์ค ํ๋กฌํํธ๋ฅผ ๋ฐ์ ์์ฑ๋ ๊ธธ์ด์ ๋ ธ๋๋ฅผ ์์ฑํ๋ ค๋ ๋ ผ๋ฌธ์ด๋ค. ๋จ์ํ ๋ฐฐ๊ฒฝ์์ ์์ฑ์ด ์๋๋ผ, ๋ณด์ปฌ๊ณผ ๋ฐ์ฃผ๊ฐ ํจ๊ป ์์ง์ด๋ โ๋ ธ๋โ๋ฅผ ๋์์ผ๋ก ํ๋ค. ๋ ผ๋ฌธ์ ๋ฌธ์ ์์์ ๋ช ํํ๋ค. ์ ์ฒด ๋ ธ๋์ ๋ฉ๋ก๋ยท๋ฆฌ๋ฌยท๊ตฌ์กฐ๋ฅผ ์ค๋ ์ ์งํ๋ ค๋ฉด ์ ์ญ์ ์ธ ๊ณํ์ด ํ์ํ์ง๋ง, ๋ณด์ปฌ๊ณผ ๋ฐ์ฃผ์ ์์ยท๋ฐ์ยท์ง๊ฐ์ ์ด๋ฆฌ๋ ค๋ฉด ํธ๋๋ณ ์ธ๋ถ ํํ๋ ํ์ํ๋ค. LeVo 2๋ ์ด ๋์ ํ๋์ ํ ํฐ์ด์ ์ต์ง๋ก ๋ชฐ์๋ฃ์ง ์๊ณ , ๊ณ์ธต์ ์ผ๋ก ๋๋์ด ๋ชจ๋ธ๋งํ๋ค.
ํ ์ค๋ก ๋งํ๋ฉด
LeVo 2๋ ํผํฉ ํ ํฐ์ผ๋ก ๋ ธ๋ ์ ์ฒด์ ๊ตฌ์กฐ๋ฅผ ๋จผ์ ๊ณํํ๊ณ , ๋ณด์ปฌยท๋ฐ์ฃผ ํ ํฐ์ ๋ณ๋ ฌ๋ก ์ธ๋ถํํ ๋ค, diffusion ๊ธฐ๋ฐ Music Codec์ผ๋ก 48kHz ์ ์ฒด ๋ ธ๋๋ฅผ ๋ณต์ํ๋ ํ์ด๋ธ๋ฆฌ๋ LLM-Diffusion ๋ ธ๋ ์์ฑ ํ๋ ์์ํฌ๋ค.
๋ฐฐ๊ฒฝ: ์ ์ด ๋ฌธ์ ๊ฐ ์ค์ํ๊ฐ
์์ ์์ฑ๊ณผ ๋ ธ๋ ์์ฑ์ ๋น์ทํด ๋ณด์ด์ง๋ง ๋์ด๋๊ฐ ๋ค๋ฅด๋ค. ๊ธฐ์ ๊ณก๋ง ๋ง๋ค ๋๋ ์ฅ๋ฅด, ๋ฆฌ๋ฌ, ์ ๊ธฐ ์ง๊ฐ, ์ฅ๊ธฐ ๊ตฌ์กฐ๊ฐ ์ค์ํ๋ค. ์ฌ๊ธฐ์ ๋ณด์ปฌ์ด ๋ค์ด๊ฐ๋ฉด ๋ฌธ์ ๊ฐ ๋ ๋ณต์กํด์ง๋ค. ๊ฐ์ฌ์ ๋ฐ์์ด ๋ง์์ผ ํ๊ณ , ๋ณด์ปฌ ๋ฉ๋ก๋์ ๋ฐ์ฃผ๊ฐ ์ด๊ธ๋์ง ์์์ผ ํ๋ฉฐ, ํ ๊ณก ์ ์ฒด์์ verse์ chorus ๊ฐ์ ๊ตฌ์กฐ๊ฐ ์์ฐ์ค๋ฝ๊ฒ ์ด์ด์ ธ์ผ ํ๋ค.
๊ธฐ์กด ์ ๊ทผ์๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๊ธด์ฅ์ด ์์๋ค.
์ฒซ์งธ, Jukebox ๊ณ์ด์ฒ๋ผ ๋ณด์ปฌ๊ณผ ๋ฐ์ฃผ๊ฐ ์์ธ ์ค๋์ค์์ ๋ฝ์ mixed token์ ์์ธกํ๋ฉด ์ ์ฒด์ ์ธ ์กฐํ๋ ์ก๊ธฐ ์ฝ๋ค. ํ์ง๋ง ๋ณด์ปฌ๊ณผ ๋ฐ์ฃผ๊ฐ ์๋ก๋ฅผ ๊ฐ๋ฆฌ๋ acoustic masking ๋๋ฌธ์ ์ธ๋ถ ์์ง์ด ์ ํ๋ ์ ์๋ค.
๋์งธ, YuE๋ SongGen์ฒ๋ผ ๋ณด์ปฌ ํ ํฐ๊ณผ ๋ฐ์ฃผ ํ ํฐ์ ๋ฐ๋ก ๋ค๋ฃจ๋ฉด ๊ฐ ํธ๋์ ์ธ๋ถ ํ์ง์ ์ข์์ง ์ ์๋ค. ๊ทธ๋ฌ๋ ํ ํฐ์ด์ด ๊ธธ์ด์ง๊ณ , ๋ณด์ปฌ๊ณผ ๋ฐ์ฃผ๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์์ธกํ ์๋ก ๋ ์ฌ์ด์ ํ์๊ณผ ๊ตฌ์กฐ์ ์ผ๊ด์ฑ์ด ํ๋ค๋ฆด ์ ์๋ค.
LeVo 2๋ ์ด trade-off๋ฅผ โํ๋๋ฅผ ๊ณ ๋ฅด๋ ๋ฌธ์ โ๊ฐ ์๋๋ผ โ์ญํ ์ ๋๋๋ ๋ฌธ์ โ๋ก ๋ณธ๋ค. ์ ์ญ ๊ตฌ์กฐ์ ํธ๋๋ณ ์ธ๋ถ ๋ฌ์ฌ๋ฅผ ์๋ก ๋ค๋ฅธ ๋ชจ๋์ ๋งก๊ธฐ๋, ๋ ๋ชจ๋์ด ๊ฐ์ ๋ ธ๋๋ฅผ ํฅํด ํ๋ ฅํ๋๋ก ์ค๊ณํ๋ค.
ํต์ฌ ์์ด๋์ด
LeVo 2์ ์ค์ฌ์๋ LeLM์ด๋ผ๋ ๊ณ์ธต์ ์ธ์ด ๋ชจ๋ธ์ด ์๋ค. LeLM์ ๋ ๋ถ๋ถ์ผ๋ก ๋๋๋ค.
-
Mixed Semantic LM
ํผํฉ ํ ํฐ์ ์์ธกํ๋ค. ๋ ผ๋ฌธ์ ์ด ํผํฉ ํ ํฐ์ ์ผ์ข ์ โ์์ ์ ์์ฌ chain-of-thoughtโ์ฒ๋ผ ์ค๋ช ํ๋ค. ์ฌ๊ธฐ์๋ ๋ฉ๋ก๋, ๋ฆฌ๋ฌ, ํ ํฌ, ๊ณก ๊ตฌ์กฐ, ๋ณด์ปฌ๊ณผ ๋ฐ์ฃผ์ ํฐ ์กฐํ๊ฐ ๋ด๊ธด๋ค. ์ฆ, ๋จผ์ ๋ ธ๋์ ์ ์ญ ์ค๊ณ๋๋ฅผ ๋ง๋ ๋ค. -
Track-Specific LM
Mixed Semantic LM์ hidden state๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฐ์ ๋ณด์ปฌ ํ ํฐ๊ณผ ๋ฐ์ฃผ ํ ํฐ์ ๋ณ๋ ฌ๋ก ์์ธกํ๋ค. ์ด๋ ๊ฒ ํ๋ฉด interleaved dual-track ๋ฐฉ์์ฒ๋ผ ์ํ์ค ๊ธธ์ด๋ฅผ ํฌ๊ฒ ๋๋ฆฌ์ง ์์ผ๋ฉด์๋, ๋ณด์ปฌ๊ณผ ๋ฐ์ฃผ์ ์ธ๋ถ ์ง๊ฐ์ ๋ฐ๋ก ๋ณต์ํ ์ ์๋ค.
๋ง์ง๋ง์ผ๋ก Music Codec์ด ์ด ํ ํฐ๋ค์ ์ค์ ์ค๋์ค๋ก ๋ณต์ํ๋ค. ์ธ์ฝ๋๋ mixed token, vocal token, accompaniment token์ ๋ง๋ค๊ณ , ๋์ฝ๋๋ diffusion transformer์ VAE decoder๋ฅผ ์ด์ฉํด 48kHz ์ค๋์ค ํํ์ ๋ณต์ํ๋ค. ๋ ผ๋ฌธ์ Figure 1์ ์ ์ฒด ๊ตฌ์กฐ๋ฅผ, Figure 2๋ Mixed Semantic LM๊ณผ Track-Specific LM์ ์ฐ๊ฒฐ์, Figure 3์ Music Codec์ mixed/dual-track ์ฒ๋ฆฌ ๊ตฌ์กฐ๋ฅผ ๋ณด์ฌ์ค๋ค. ๊ณต๊ฐ ๋ฌธ์์๋ ์๋ณธ ๊ทธ๋ฆผ์ ์ฃ์ง ์์์ง๋ง, ํต์ฌ์ โ์ ์ญ ๊ณํ โ ํธ๋๋ณ ์ธ๋ถํ โ diffusion ๋ณต์โ์ด๋ผ๋ ์ธ ๋จ๊ณ๋ก ์ดํดํ๋ฉด ๋๋ค.
๋ฐฉ๋ฒ๊ณผ ์คํ ์ค์
ํ๋ จ์ ์ธ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋ค.
1. ๋ฏธํ ์กฐ๊ฑด๋ถ ์ฌ์ ํ์ต
๋จผ์ Mixed Semantic LM์ ๋๊ท๋ชจ ์์ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ค. ๋ ผ๋ฌธ์ ์ฝ 50๋ง ์๊ฐ ๊ท๋ชจ์ ๋ ธ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค๊ณ ์ค๋ช ํ๋ค. ์ด๋ ์๋ ์์ ๋ฏธํ ํ๊ฐ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํด ๊ฐ ๊ณก์ musicality tier๋ก ๋๋๊ณ , ๊ทธ tier๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฃ๋๋ค. ๋จ์ํ ๋ฐ์ดํฐ๊ฐ ๋ง์์ง๋ ๊ฒ๋ง์ผ๋ก๋ ๊ณ ํ์ง ์ ํธ๊ฐ ์๊ธฐ์ง ์๊ธฐ ๋๋ฌธ์, ๋ชจ๋ธ์ด โ์ข์ ์์ ์ฑโ๊ณผ ์ฐ๊ฒฐ๋ ์กฐ๊ฑด์ ํ์ตํ๋๋ก ๋ง๋ ๊ฒ์ด๋ค.
2. decoupled progressive post-training
๊ทธ๋ค์ Mixed Semantic LM์ ์ ํธ์ ๋ง๊ฒ ์กฐ์ ํ๋ค. ์ฌ๊ธฐ์ ์ค์ํ ์ ์ ์ฌ๋ฌ ๋ชฉํ๋ฅผ ํ ๋ฒ์ ์์ด ์ต์ ํํ์ง ์๋๋ค๋ ๊ฒ์ด๋ค.
- SFT๋ ์์ 0.5% ์์ค์ ๊ณ ํ์ง ๋ฐ์ดํฐ๋ก ์ถ๋ ฅ ๋ถํฌ๋ฅผ ์ขํ ๊ธฐ๋ณธ ํ์ง์ ์ฌ๋ฆฐ๋ค.
- ๋๊ท๋ชจ offline DPO๋ ๊ฐ์ฌ ์ ๋ ฌ, ํ๋กฌํํธ ์ผ์น, hallucination ๊ฐ์ ๊ฐ์ controllability๋ฅผ ๊ฐ์ ํ๋ค.
- closed-loop semi-online DPO๋ ์ ์ง์ ์ผ๋ก ์ ๋ฐ์ดํธ๋๋ generator๊ฐ ๋ง๋ ์ ์ํ์ ์ฌ์ฉํด musicality๋ฅผ ๋ ๋์ด์ฌ๋ฆฐ๋ค.
๋ ผ๋ฌธ์ ์ฃผ์ฅ์, ์์ ์ฑยท๊ฐ์ฌ ์ ๋ ฌยทํ๋กฌํํธ ์ผ์น๋ฅผ ๋์์ ๋ฐ์ด๋ถ์ด๋ฉด gradient conflict๊ฐ ์๊ธฐ๊ธฐ ์ฝ๊ธฐ ๋๋ฌธ์, ๋จผ์ ์ ์ด์ฑ์ ์์ ํํ ๋ค ์์ ์ฑ์ ๊ฐ์ ํ๋ ์์๊ฐ ๋ ๋ซ๋ค๋ ๊ฒ์ด๋ค.
3. modular extension
๋ง์ง๋ง์ผ๋ก Mixed Semantic LM์ ๊ณ ์ ํ๊ณ Track-Specific LM์ ํ์ตํด ๋ณด์ปฌ๊ณผ ๋ฐ์ฃผ์ ์ธ๋ถ ์์ง์ ๋ณด๊ฐํ๋ค. ์ด ๋จ๊ณ์์๋ ์ค์ mixed token๋ง ์ฐ์ง ์๊ณ , ์ ์ diffusion step์ผ๋ก ์ผ๋ถ๋ฌ ๋ฎ์ ํ์ง์ ์ค๋์ค๋ฅผ ๋ง๋ ๋ค ๋ค์ mixed token์ ์ถ์ถํ๋ acoustic augmentation๋ ์ฌ์ฉํ๋ค. Track-Specific LM์ด ํ๋ฆฟํ ์ ์ญ ๊ณํ์์ ๋ ์ ๋ช ํ ๋ณด์ปฌยท๋ฐ์ฃผ ์ธ๋ถ๋ฅผ ํ๋ณตํ๋๋ก ํ๋ จํ๋ ์ ์ด๋ค.
๋ชจ๋ธ ๊ท๋ชจ๋ ์์ง ์๋ค. ๋ ผ๋ฌธ์ LeLM์ด ์ฝ 4B ํ๋ผ๋ฏธํฐ์ด๋ฉฐ, diffusion model์ด ์ฝ 700M ํ๋ผ๋ฏธํฐ๋ผ๊ณ ์ค๋ช ํ๋ค. Mixed Semantic LM์ 36-layer Transformer์ด๊ณ , Track-Specific LM์ 12-layer Transformer๋ค. ํ์ต์๋ 64๊ฐ์ NVIDIA H20 GPU๊ฐ ์ฌ์ฉ๋์๋ค.
์ฃผ์ ๊ฒฐ๊ณผ
1. open-source ๊ธฐ์ค์ ๋ณด๋ค ์ ๋ฐ์ ์ผ๋ก ๊ฐํ๋ค
์ ๋ฌธ๊ฐ 20๋ช ์ด ์ค๊ตญ์ด 100๊ณก, ์์ด 100๊ณก์ ํ๊ฐํ MOS ์คํ์์ LeVo 2๋ ๋น๊ตํ ๋ชจ๋ open-source ์์คํ ๋ณด๋ค ๋์ ์ ์๋ฅผ ๋ณด์๋ค. ๋น๊ต ๋์์๋ YuE, DiffRhythm 2, ACE-Step 1.5, HeartMuLa, ๊ธฐ์กด LeVo๊ฐ ํฌํจ๋๋ค. Overall Musicality, Melody, Arrangement, Structure, ๋ณด์ปฌ ์์ง, ๋ฐ์ฃผ ์์ง ๋ฑ ์ฌ์ฏ ์ฃผ๊ด ์งํ ๋ชจ๋์์ open-source ๊ธฐ์ค์ ๋ณด๋ค ์ฐ์ธํ๋ค.
์์ฉ ์์คํ ๊ณผ ๋น๊ตํ๋ฉด Suno v5์ Mureka v8์ด ์ฌ์ ํ ์ฌ๋ฌ ์งํ์์ ์์์ง๋ง, LeVo 2๋ Melody, Arrangement, Accompaniment Sound Quality, Structure์์ ๊ทธ ๊ฒฉ์ฐจ๋ฅผ ์ขํ๋ค๊ณ ๋ณด๊ณ ํ๋ค. ๋ํ ๋ ผ๋ฌธ ์คํ์์๋ MiniMax Music 2.5+๋ณด๋ค ์ฃผ๊ด ์ฒญ์ทจ ์งํ ์ ๋ฐ์์ ๋๊ฒ ๋์๋ค.
2. ๊ฐ์ฌ ์ ๋ ฌ๊ณผ ๊ฐ์ ์ ์ด๋ ๊ฐ์ ๋๋ค
๊ฐ๊ด ํ๊ฐ์์ LeVo 2๋ open-source ์์คํ ์ค ๊ฐ์ฅ ๋ฎ์ Phoneme Error Rate์ธ 8.55%๋ฅผ ๊ธฐ๋กํ๋ค. ์ด๋ ๊ฐ์ฌ๋ฅผ ์๋ชป ๋ถ๋ฅด๊ฑฐ๋ ๋จ์ด๋ฅผ ์ฝ์ ยท์ญ์ ํ๋ ๋ฌธ์ ๊ฐ ์ค์๋ค๋ ์๋ฏธ๋ค. ๊ฐ์ ์ ์ด ์ ์๋ 8.72๋ก, ๋น๊ตํ ์์ฉยท๊ณต๊ฐ ์์คํ ์ ํตํ์ด ๊ฐ์ฅ ๋์ ๊ฐ์ผ๋ก ๋ณด๊ณ ๋๋ค.
๋ค๋ง ์ฅ๋ฅด ์ ์ด์ ์ ๊ธฐ ์์ฑ ์ ํ๋์์๋ ACE-Step 1.5๋ณด๋ค ๋ฎ์๋ค. ๋ ผ๋ฌธ์ ์ด ์ฐจ์ด๋ฅผ ACE-Step 1.5๊ฐ ๋งค์ฐ ์ ๋ฐํ ๋๊ท๋ชจ annotation pipeline์ ์ฌ์ฉํ ๋ฐ์ ์จ ๊ฒ์ผ๋ก ํด์ํ๋ค. ์ฆ LeVo 2๊ฐ ๋ชจ๋ ์ ์ด ์งํ์์ ์ต๊ณ ๋ผ๋ ๋ป์ ์๋๋ค.
3. ์ธ ๋จ๊ณ ํ์ต์ด ๋์ ์ ์ผ๋ก ์ฑ๋ฅ์ ์ฌ๋ ธ๋ค
Table II์ ablation์ ํ๋ จ ๋จ๊ณ๊ฐ ํ๋์ฉ ์ถ๊ฐ๋ ๋ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ณํ๋์ง ๋ณด์ฌ์ค๋ค. ์ฌ์ ํ์ต๋ง ํ์ ๋๋ณด๋ค SFT ํ ์ ์ฒด ์ฒญ์ทจ ํ์ง์ด ์ฌ๋ผ๊ฐ๊ณ , offline DPO ํ PER๊ฐ 10.59%์์ 9.19%๋ก ์ค์ด๋ ๋ค. semi-online DPO๋ musicality, melody, arrangement๋ฅผ ์ถ๊ฐ๋ก ๋์ธ๋ค. ๋ง์ง๋ง modular extension์ ๋ณด์ปฌยท๋ฐ์ฃผ ์์ง์ ๋์ด์ฌ๋ฆฌ๋ฉด์ PER๋ฅผ 8.55%๊น์ง ๋ฎ์ถ๋ค.
์ด ๊ฒฐ๊ณผ๋ ๋ ผ๋ฌธ์ ์ค๊ณ ์ฒ ํ๊ณผ ๋ง๋ฌผ๋ฆฐ๋ค. ์ ์ด์ฑ๊ณผ ์์ ์ฑ์ ํ ๋ฒ์ ์ต์ ํํ๊ธฐ๋ณด๋ค, ๋จผ์ ๊ธฐ๋ณธ ํ์ง์ ์ขํ๊ณ , ์ ์ด์ฑ์ ์์ ํํ๊ณ , ๊ทธ๋ค์ ์์ ์ฑ์ ํ์ฅํ๊ณ , ๋ง์ง๋ง์ผ๋ก ํธ๋๋ณ ์์ง์ ๋ณด๊ฐํ๋ ์์๊ฐ ํจ๊ณผ์ ์ด์๋ค๋ ์ฃผ์ฅ์ด๋ค.
4. architecture ablation์์ ๊ณ์ธต ๊ตฌ์กฐ์ ์ค์์ฑ์ด ๋๋ฌ๋ฌ๋ค
Track-Specific LM์ ์ ๊ฑฐํ๋ฉด ๋ณด์ปฌยท๋ฐ์ฃผ ์์ง๊ณผ ๊ตฌ์กฐ ์งํ๊ฐ ํฌ๊ฒ ๋จ์ด์ก๋ค. delay pattern์ ์ ๊ฑฐํ์ ๋๋ PER๊ฐ 47.10%๋ก ๊ธ๊ฒฉํ ๋๋น ์ก๋ค. ์ด๋ ๋จ์ํ โ๋ณด์ปฌ ํ ํฐ๊ณผ ๋ฐ์ฃผ ํ ํฐ์ ๋ฐ๋ก ์์ธกํ๋คโ๋ง์ผ๋ก ์ถฉ๋ถํ์ง ์๊ณ , Mixed Semantic LM์ ๋ฌธ๋งฅ์ Track-Specific LM์ด ์ ์ ํ ์ฐธ์กฐํ๋ ์ฐ๊ฒฐ ๊ตฌ์กฐ๊ฐ ์ค์ํ๋ค๋ ๋ป์ด๋ค.
๋ํ ๋ฏธํ tier tag์ musicality-aware CFG๋ฅผ ์ ๊ฑฐํ์ ๋ ์ฃผ๊ด์ ์์ ์ฑ ์งํ๊ฐ ๋จ์ด์ก๋ค. ์๋ ๋ฏธํ ํ๊ฐ๊ฐ ์๋ฒฝํ ์ธ๊ฐ ์ทจํฅ์ ๋์ ํ๋ค๊ณ ๋ณผ ์๋ ์์ง๋ง, ์ด ๋ ผ๋ฌธ์์๋ ๋๊ท๋ชจ noisy data์์ ์์ ์ฑ prior๋ฅผ ์ฃผ์ ํ๋ ์ค์ฉ์ ์ ํธ๋ก ์ฐ์๋ค.
ํ๊ณ
๋ ผ๋ฌธ์ด ์ธ์ ํ๋ ํ๊ณ๋ ๋ถ๋ช ํ๋ค.
- LeVo 2๋ open-source ๊ธฐ์ค์ ๋ณด๋ค ๊ฐํ์ง๋ง, ์ต์์ proprietary system๊ณผ๋ ์ฌ์ ํ ์ฐจ์ด๊ฐ ์๋ค.
- ํ์ต ๋ฐ์ดํฐ์ annotation ํ์ง์ ํฌ๊ฒ ์์กดํ๋ค. ํนํ Qwen2-Audio ๊ธฐ๋ฐ caption, lyric extraction, song structure parsing ๊ณผ์ ์ ์ค๋ฅ๊ฐ ๋์ ๋ ์ ์๋ค.
- ์ฅ๋ฅดยท์ ๊ธฐ ์ ์ด๋ ์ผ๋ถ ๊ฒฝ์ ์์คํ ๋ณด๋ค ๋ฎ๋ค. musicality๋ฅผ ๊ฐํํ๋ ํ๊ฐยท์กฐ๊ฑดํ๊ฐ ์ฅ๋ฅด์ ์ ๊ธฐ ์ ์ด์ ํธํฅ์ ๋ง๋ค ๊ฐ๋ฅ์ฑ๋ ablation์์ ๋๋ฌ๋๋ค.
- ์์ ์์ฑ ๋ชจ๋ธ์ ์ ์๊ถ๊ณผ ์ฐฝ์์ ๊ถ๋ฆฌ ๋ฌธ์ ๊ฐ ํฌ๋ค. ๋ ผ๋ฌธ์ ์ฐ๊ตฌ ๋ชฉ์ ๊ณผ ์ง์์ฌ์ฐ๊ถ ์กด์ค์ ๋ช ์ํ์ง๋ง, ๊ณต๊ฐ ๋ชจ๋ธ์ด ์ค์ ๋ก ์ด๋ค ๋ฐ์ดํฐ์ ์ด๋ค ์ฌ์ฉ ํ๊ฒฝ์์ ์์ ํ์ง๋ ๋ณ๋์ ๊ฒํ ๊ฐ ํ์ํ๋ค.
- ํ๊ฐ๋ 2026๋ 5์ ์์ ์ ์์ฉ ์์คํ ๊ณผ ๋น๊ตํ ๊ฒฐ๊ณผ๋ค. ์์ฉ ์์ ์์ฑ ์๋น์ค๋ ๋น ๋ฅด๊ฒ ๋ฐ๋๋ฏ๋ก, ์๊ฐ์ด ์ง๋๋ฉด ์๋ ์์๊ฐ ๋ฌ๋ผ์ง ์ ์๋ค.
์ ์ค์ํ๊ฐ
LeVo 2์ ์๋ฏธ๋ โ๋ ํ๋์ ์์ ์์ฑ ๋ชจ๋ธโ์ด๋ผ๊ธฐ๋ณด๋ค, ๋ ธ๋ ์์ฑ ๋ฌธ์ ๋ฅผ ๊ตฌ์กฐ์ ์ผ๋ก ๋๋ ํ์๋ค๋ ๋ฐ ์๋ค. full-length song generation์ ์ฅ๊ธฐ ๊ตฌ์กฐ, ๊ฐ์ฌ ์ ๋ ฌ, ๋ณด์ปฌยท๋ฐ์ฃผ ์์ง, ํ๋กฌํํธ ์ ์ด, ์ธ๊ฐ์ด ๋ฃ๋ ์์ ์ฑ์ด๋ผ๋ ์ฌ๋ฌ ๋ชฉํ๊ฐ ์ถฉ๋ํ๋ ๋ฌธ์ ๋ค. LeVo 2๋ ์ด ๋ชฉํ๋ค์ ํ๋์ ์์ค์ด๋ ํ๋์ ํ ํฐ ํํ์ ๋ชจ๋ ๋ฐ์ด ๋ฃ์ง ์๊ณ , ๋ชจ๋ธ ๊ตฌ์กฐ์ ํ์ต ์์์์ ๋ถ๋ฆฌํ๋ค.
์ด ์ ๊ทผ์ ์์ ์์ฑ๋ฟ ์๋๋ผ ๋ค๋ฅธ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ์๋ ์ฐธ๊ณ ํ ๋งํ๋ค. ์ ์ญ ์๋ฏธ ๊ณํ๊ณผ modality-specific detail์ ๋ถ๋ฆฌํ๊ณ , post-training์์๋ ์ ์ด์ฑ๊ณผ ์ ํธ ํ์ง์ ์์ฐจ์ ์ผ๋ก ๋ค๋ฃจ๋ ๋ฐฉ์์ ๊ธด ์ํ์คยท๊ณ ํ์ง ์ถ๋ ฅยท์ธ๊ฐ ์ ํธ๊ฐ ํจ๊ป ํ์ํ ์์ญ์์ ๋ฐ๋ณต๋ ์ ์๋ ์ค๊ณ ํจํด์ด๋ค.
ํท๊ฐ๋ฆฌ์ง ๋ง์์ผ ํ ์
- LeVo 2๋ ํ ์คํธ๋ง์ผ๋ก ์งง์ BGM์ ๋ง๋๋ ๋ชจ๋ธ์ด ์๋๋ผ, ๊ฐ์ฌยท๋ณด์ปฌยท๋ฐ์ฃผ๊ฐ ํฌํจ๋ full-length song generation์ ๊ฒจ๋ฅํ๋ค.
- ๋ ผ๋ฌธ์์ LeVo 2๊ฐ ๋ชจ๋ ์์ฉ ์์คํ ์ ์ด๊ธด๋ค๊ณ ์ฃผ์ฅํ๋ ๊ฒ์ ์๋๋ค. open-source ๊ธฐ์ค์ ์๋ ๊ฐํ์ง๋ง Suno v5, Mureka v8 ๊ฐ์ proprietary system์ ์ฌ์ ํ ์ฌ๋ฌ ์งํ์์ ์์ ๋ค.
- ์๋ ๋ฏธํ ํ๊ฐ ํ๋ ์์ํฌ๋ ์ธ๊ฐ ์ทจํฅ์ ์์ ํ ๋์ฒดํ๋ ๋๊ตฌ๊ฐ ์๋๋ค. ๋ ผ๋ฌธ์์๋ ์ ๋ฌธ๊ฐ ์ฒญ์ทจ ํ๊ฐ๋ฅผ ๋ณ๋๋ก ์ํํ๋ค.
- DPO๋ฅผ ์ผ๋ค๋ ์ ๋ง์ด ํต์ฌ์ ์๋๋ค. ๋ ์ค์ํ ๊ฒ์ SFT, offline DPO, semi-online DPO๋ฅผ ์๋ก ๋ค๋ฅธ ๋ชฉํ์ ๋ง๊ฒ ์์ฐจ์ ์ผ๋ก ๋ฐฐ์นํ๋ค๋ ์ ์ด๋ค.
- ๊ณต๊ฐ๋ ์์น๋ ๋ ผ๋ฌธ์ด ์ค์ ํ ๋ฐ์ดํฐ, ํ๊ฐ ์์ , ๋น๊ต ์์คํ ๋ฒ์ ์ ์์กดํ๋ค. ์์ ์์ฑ ์๋น์ค๋ ๋น ๋ฅด๊ฒ ์ ๋ฐ์ดํธ๋๋ฏ๋ก ์๊ฐ์ด ์ง๋ ๋ค์๋ ๋ณ๋ ์ฌํ๊ฐ๊ฐ ํ์ํ๋ค.