ИИ Microsoft способен имитировать голос человека по трехсекундному образцу

Overrated · 12 Янв 2023

Инженеры Microsoft представили модель искусственного интеллекта для преобразования текста в речь (text-to-speech) под названием VALL-E. Она способна имитировать голос человека, опираясь лишь на трехсекундный звуковой образец. Разработчики утверждают, что VALL-E может синтезировать аудио, где «выученный» голос что-либо говорит, при этом сохранив даже эмоциональную окраску.
Создатели называют VALL-E «языковой моделью нейронных кодеков» (neural codec language model) и полагают, что новинку можно будет использовать для работы высококачественных text-to-speech приложений, редактирования речи, когда запись речи может быть отредактирована и изменена из текстовой расшифровки (то есть человек «скажет» то, чего изначально не говорил), а также создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 (стоящая за нашумевшим ChatGPT).
VALL-E строится на базе технологии EnCodec, которую Meta анонсировала в октябре 2022 года. В отличие от других методов преобразования текста в речь, VALL-E генерирует дискретные коды аудиокодеков из текста и полученных акустических подсказок. По сути, VALL-E анализирует, как звучит человек, благодаря EnCodec разбивает эту информацию на дискретные компоненты (называемые «токенами») и использует обучающие данные, сопоставляя то, что «знает» о том, как бы звучал этот голос, если бы он произносил другие фразы за пределами трехсекундного образца.

Специалисты Microsoft обучали VALL-E синтезу речи на звуковой библиотеке LibriLight, которая содержит 60 000 часов англоязычной речи более чем 7 000 носителей (в основном взятых из общедоступных аудиокниг на LibriVox). Чтобы VALL-E показывала хороший результат, голос в трехсекундном образце должен быть похож на голос из этих обучающих данных.
На специальном сайте Microsoft приводит десятки примеров работы VALL-E. Интересно, что помимо сохранения тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» из аудиообразца. То есть, если сэмпл взят, к примеру, из телефонного звонка, версия VALL-E тоже может звучать как запись звонка, со всеми соответствующими искажениями и нюансами.
Так как VALL-E явно может использоваться для самых разных злоупотреблений и мошенничества, пока Microsoft не публикует исходный код своей разработки и отмечает, что в будущем можно создать модель для обнаружения аудиоконтента, сгенерированного при помощи VALL-E.

GrishkaLeps · 12 Янв 2023

Дипфейки выходят на новый уровень

Viktor94 · 12 Янв 2023

Такими темпами в колцентрах будут ИИ сидеть

HennisonVsop · 12 Янв 2023

Они могут не создавать новый ИИ хоть пару месяцев!1!!))

Embrin98 · 12 Янв 2023

GrishkaLeps написал(а):
Дипфейки выходят на новый уровень

Ждем кучу видео со знаменитостями на желто-черном сайте

CryptMan · 12 Янв 2023

Мне кажется зря они это так офишируют, я бы не стал

Torsten · 13 Янв 2023

В последнее время прогресс прям скакнул связи с этими новыми ИИ, такое ощущение что через пару лет они и людей заменят

Aleksich · 13 Янв 2023

Torsten написал(а):
В последнее время прогресс прям скакнул связи с этими новыми ИИ, такое ощущение что через пару лет они и людей заменят

Люди всегда смогут выполнять функцию обслуживания эти ИИ))

BlackBash · 13 Янв 2023

Если такое поставят на поток и эти боты будут названивать родственикам и говорить голосом их родных что им нужны деньги, то это мрак полный

ИИ Microsoft способен имитировать голос человека по трехсекундному образцу

Похожие темы