

Tongyi Lab на Alibaba представи PrismAudio, нова рамка за генериране на видео-към-аудио, фокусирана върху синтезирането на звуци от околната среда – като стъпки, вятър, дъжд и метални удари – които се привеждат точно в съответствие с визуалното съдържание, вместо да генерират диалог или глас зад кадър.
PrismAudio е първата рамка, която тясно интегрира обучението за засилване с логическата верига за генериране на звук от околната среда. По същество моделът е обучен да „мисли, преди да говори“, ръководен от четири различни механизма за оценка.
Система „четири учителя“ за аудио генериране
PrismAudio оценява генерираното аудио чрез четирима специализирани „учители“, всеки от които отговаря за различно измерение:
- Семантично подравняване: Гарантира, че звукът съответства на визуалното съдържание (напр. конски копита срещу вик на птица)
- Времева синхронизация: Проверява точното време между звук и движение
- Естетично качество: Оценява яснотата, богатството и цялостното изживяване при слушане
- Пространствена точност: Проверява дали посоката на звука съответства на позицията на екрана
Всяко измерение се оценява независимо с помощта на специални модели, включително MS-CLAP, Synchformer, Meta Audiobox Aesthetics и StereoCRW. Тези резултати се комбинират в унифициран сигнал за награда, което позволява на системата да балансира множество цели, вместо да преоптимизира за един показател.
„Първо помислете, а след това генерирайте“
За разлика от традиционните модели от край до край, които директно конвертират видео в аудио, PrismAudio въвежда междинна стъпка на разсъждение. Преди да генерира звук, моделът произвежда структурирани „бележки“, очертаващи:
- Какви звуци трябва да присъстват
- Кога трябва да започнат и да свършат
- Тяхната последователност и време
- Акустични характеристики (напр. рязко срещу дълбоко, близко срещу далечно)
- Пространствено позициониране и движение
Тези бележки формират план за действие стъпка по стъпка, като гарантират, че моделът генерира аудио въз основа на изрични разсъждения, а не на имплицитни догадки.
По-бързо обучение с подсилващо обучение
За да се справи с високите изчислителни разходи за обучение на дифузионни модели с обучение за укрепване, Tongyi Lab разработи оптимизиран подход за обучение, наречен Fast-GRPO. Чрез ограничаване на произволното вземане на проби само до критични етапи от процеса на генериране, методът значително подобрява ефективността.
Експерименталните резултати показват, че Fast-GRPO постига същото представяне само с 200 стъпки, за което традиционните методи изискват 600 стъпки.
Лек и с висока производителност
Със само 518 милиона параметъра, PrismAudio е сравнително лек в сравнение с моделите с много милиарди параметри. Той може да генерира 9 секунди аудио само за 0,63 секунди, предлагайки практичен баланс между производителност и ефективност.
Източник: IT Home
Source link
Like this:
Like Loading…
Нашия източник е Българо-Китайска Търговско-промишлена палaта