ИИ Microsoft способен имитировать голос человека по трехсекундному образцу

Overrated

Опытный user
Регистрация
10 Мар 2022
Сообщения
751
Реакции
81
Инженеры Microsoft представили модель искусственного интеллекта для преобразования текста в речь (text-to-speech) под названием VALL-E. Она способна имитировать голос человека, опираясь лишь на трехсекундный звуковой образец. Разработчики утверждают, что VALL-E может синтезировать аудио, где «выученный» голос что-либо говорит, при этом сохранив даже эмоциональную окраску.
Создатели называют VALL-E «языковой моделью нейронных кодеков» (neural codec language model) и полагают, что новинку можно будет использовать для работы высококачественных text-to-speech приложений, редактирования речи, когда запись речи может быть отредактирована и изменена из текстовой расшифровки (то есть человек «скажет» то, чего изначально не говорил), а также создания аудиоконтента в сочетании с другими генеративными моделями ИИ, такими как GPT-3 (стоящая за нашумевшим ChatGPT).
VALL-E строится на базе технологии EnCodec, которую Meta анонсировала в октябре 2022 года. В отличие от других методов преобразования текста в речь, VALL-E генерирует дискретные коды аудиокодеков из текста и полученных акустических подсказок. По сути, VALL-E анализирует, как звучит человек, благодаря EnCodec разбивает эту информацию на дискретные компоненты (называемые «токенами») и использует обучающие данные, сопоставляя то, что «знает» о том, как бы звучал этот голос, если бы он произносил другие фразы за пределами трехсекундного образца.

Overview.jpg
Специалисты Microsoft обучали VALL-E синтезу речи на звуковой библиотеке LibriLight, которая содержит 60 000 часов англоязычной речи более чем 7 000 носителей (в основном взятых из общедоступных аудиокниг на LibriVox). Чтобы VALL-E показывала хороший результат, голос в трехсекундном образце должен быть похож на голос из этих обучающих данных.
На специальном сайте Microsoft приводит десятки примеров работы VALL-E. Интересно, что помимо сохранения тембра и эмоционального тона говорящего, VALL-E также может имитировать «акустическое окружение» из аудиообразца. То есть, если сэмпл взят, к примеру, из телефонного звонка, версия VALL-E тоже может звучать как запись звонка, со всеми соответствующими искажениями и нюансами.
Так как VALL-E явно может использоваться для самых разных злоупотреблений и мошенничества, пока Microsoft не публикует исходный код своей разработки и отмечает, что в будущем можно создать модель для обнаружения аудиоконтента, сгенерированного при помощи VALL-E.
 

GrishkaLeps

Опытный user
Регистрация
13 Ноя 2021
Сообщения
608
Реакции
11
Дипфейки выходят на новый уровень
 

Viktor94

Участник клуба
Регистрация
17 Июн 2020
Сообщения
902
Реакции
15
Такими темпами в колцентрах будут ИИ сидеть
 

HennisonVsop

Опытный user
Регистрация
12 Мар 2021
Сообщения
685
Реакции
24
Они могут не создавать новый ИИ хоть пару месяцев!1!!))
 

Embrin98

Опытный user
Регистрация
27 Май 2021
Сообщения
780
Реакции
27
GrishkaLeps написал(а):
Дипфейки выходят на новый уровень
Ждем кучу видео со знаменитостями на желто-черном сайте
 

CryptMan

Опытный user
Регистрация
28 Апр 2022
Сообщения
612
Реакции
25
Мне кажется зря они это так офишируют, я бы не стал
 

Torsten

Опытный user
Регистрация
7 Ноя 2021
Сообщения
931
Реакции
112
В последнее время прогресс прям скакнул связи с этими новыми ИИ, такое ощущение что через пару лет они и людей заменят
 

Aleksich

Опытный user
Регистрация
11 Сен 2021
Сообщения
730
Реакции
22
Torsten написал(а):
В последнее время прогресс прям скакнул связи с этими новыми ИИ, такое ощущение что через пару лет они и людей заменят
Люди всегда смогут выполнять функцию обслуживания эти ИИ))
 

BlackBash

Опытный user
Регистрация
12 Авг 2020
Сообщения
612
Реакции
16
Если такое поставят на поток и эти боты будут названивать родственикам и говорить голосом их родных что им нужны деньги, то это мрак полный
 
Сверху Снизу