Нейросеть которая генерирует голос человека
Перейти к содержимому

Нейросеть которая генерирует голос человека

  • автор:

VALL-E: появилась нейросеть, воссоздающая голос человека

Фото: Shutterstock

В конце ноября 2022 года компания OpenAI представила универсальный чат-бот ChatGPT. Он умеет вести диалог, искать ошибки в коде, генерировать стихи, сценарии, финансовый анализ, резюме технических статей, научных концепций, прогнозы, а также спорить или, наоборот, избегать спорных тем с пользователем. ChatGPT работает как чат в диалоговом окне, а пользоваться нейросетью можно бесплатно. Для этого нужно зарегистрироваться на сайте OpenAI.

Ранее, в ноябре 2022-го политическую партию в Дании возглавил искусственный интеллект Лидер Ларс, а в августе генеральным директором китайской компании-разработчика онлайн-игр стал виртуальный человекоподобный робот с искусственным интеллектом Тан Ю.

Фото:Freepik

Несмотря на развитие искусственного интеллекта и его успехи в различных областях деятельности, люди не останутся без работы. По мере автоматизации ручного труда будут все более востребованы специалисты для создания и обслуживания роботизированных систем во многих сферах производства.

Нейросеть от Microsoft способна подделать голос любого человека

image

Для создания образца голоса, нейросети хватит всего трехсекундного образца.

Недавно стало известно о том, что новая нейросеть VALL-E от корпорации Microsoft способна подделывать голос конкретного человека вплоть до интонаций. Об этом пишет ArsTechnica. Как сообщается, полученный образец VALL-E разбивает на мельчайшие фрагменты и сравнивает их с уже имеющейся базой данных. Обладая информацией о том, как в разных ситуациях звучат голоса других людей, нейросеть «предполагает», как в тех же ситуациях будет звучать голос «донора». VALL-E обучали на библиотеке LibriLight, содержащей 60 тысяч часов англоязычной речи более чем от 7 тысяч человек. Для системы достаточно записи продолжительностью три секунды, чтобы получить высококачественную подделку. Издание отмечает, что голос имитируется очень достоверно, у него сохраняется тембр и верная эмоциональная окраска оригинала. Согласно заявлению Microsoft, VALL-E не будет распространяться в открытом доступе по соображениям безопасности, чтобы нейросетью не воспользовались мошенники.

Нейросеть Microsoft имитирует голос по 3-секундному образцу

Microsoft представила модель искусственного интеллекта VALL-E, которая преобразует текст в речь, точно имитируя голос человека. Для образца достаточно записи длительностью всего 3 секунды. При этом ИИ сохраняет эмоциональную окраску речи образца, рассказывает 3DNews.

Нейросеть может предложить несколько вариантов необходимого текста с голосом на образце. Причём она не только придаёт голосу на генерируемой записи нужный эмоциональный окрас, но и имитирует «акустическое окружение». Например, если исходная запись была сделана с телефонного разговора, то и результат будет напоминать разговор по телефону.

Авторы проекта говорят, что система будет полезна при разработке приложений для высококачественного преобразования текста в речь и при создании аудиоконтента в сочетании с другими ИИ-генераторами вроде GPT-3. Но также признают, что её можно использовать для редактирования аудиозаписи по расшифровке — модель может «заставить» человека произносить слова, которых он никогда в реальности не говорил. Из-за опасности злоупотреблений технологией Microsoft не раскрывает код VALL-E для экспериментов, поэтому все желающие протестировать её не смогут.

SO-VITS-SVC: Нейросеть, которая меняет голоса

So-VITS-SVC (SoftVC VITS Singing) – это инновационная нейросеть, разработанная командой SVC-Develop-Team, способная генерировать высококачественные вокальные партии в песнях.

Применение генеративно-состязательных сетей (GAN) и визуально-информационных трансформеров (VIT) обеспечивает максимально точный синтез голоса.

So-VITS-SVC отлично подходит для создания вокальных партий в различных жанрах, включая поп, рок, рэп и другие. Для использования этой нейросети необходимо предоставить аудиофайл без вокала, на основе которого будет синтезироваться новая вокальная партия.

Это позволяет как создавать новые композиции, так и улучшать качество уже существующих записей.

Одной из главных характеристик So-VITS-SVC является высокое качество вокальных партий, которое достигается благодаря применению VIT, позволяющего обрабатывать информацию о музыке в виде изображений.

Более того, данная нейросеть способна адаптировать фразировку, интонацию и тембр оригинального трека, что позволяет создать более естественную вокальную партию.

Еще одним преимуществом So-VITS-SVC является возможность управлять генерируемым вокалом с помощью различных параметров, таких как скорость, громкость, тональность и эмоциональность. Такой подход дает пользователю больше гибкости и контроля над конечным результатом.

Применение So-VITS-SVC может оказаться весьма полезным для музыкантов, занимающихся написанием новых композиций, аранжировкой уже существующих песен или же для создания кавер-версий.

Кроме того, данная нейросеть может быть использована в профессиональной области, например, для проведения сведения и мастеринга музыкальных произведений.

Как начать использовать нейросеть?

Для использования So-VITS-SVC необходимо загрузить и установить соответствующий пакет на компьютер. После этого можно воспользоваться готовым интерфейсом для загрузки аудиофайлов и настройки параметров синтеза вокала.

Однако для работы с этой нейросетью могут потребоваться дополнительные знания в области обработки звука и музыкального производства.

Самая популярная нейросеть 2023 года. ChatGPT-бот в Telegram предоставляет простой и бесплатный способ взаимодействия с ИИ, без необходимости регистрации, использования VPN и дополнительных номеров — ССЫЛКА.

Этот бот отличается от других тем, что не требует оплаты за использование и может быть использован в любом количестве — пользуйтесь на здоровье.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *