Новинка от Baidu воспроизведет любой голос за мгновения

Китайский онлайн-гигант Baidu представил одну из своих последних разработок в области искусственного интеллекта – систему, которая может хорошо сымитировать голос любого человека всего лишь за несколько мгновений. Технология основана на искусственной нейронной сети. Она обладает возможностью достаточно точно передать голос, проанализировав совсем коротенький фрагмент речи. Более того, система наделена способностью добавлять в голос определенные нотки, например, акцент.

Ранее выпущенные версии этой уникальной программы были способны клонировать речь, имея для анализа более продолжительный исходный материал. Так, система, разработанная в Baidu Deep Voice в прошлом году, воспроизводила человеческий голос, прослушав его полчаса. В то же время, для аналогичной новинки VoCo от команды разработчиков компании Adobe для тех же целей требовалось только 20 минут. Однако даже это было не пределом: канадская технология Lyrebird для имитации речи нуждалась всего лишь в одной минуте голосового образца. Последняя новинка от Baidu ставит новый рекорд, клонируя голос, прослушав его несколько секунд.

Подобные технологии, которые сегодня выглядят, скорее, как развлечения, имеют очень широкие перспективы практического применения уже в ближайшем будущем. Их можно использовать для того, чтобы вернуть способность разговаривать людям, которые по каким-то причинам ее утратили. Машина, говорящая голосом мамы или папы, успокоит непоседливого ребенка, прочитает ему сказку перед сном. При этом родители могут быть где-то очень далеко и не иметь возможности даже сделать звонок. Словом, выбор полезных возможностей у данной технологии очень обширен.

Эту же систему имитации речи можно применить в процессе разработки новейших персональных голосовых помощников, придать им человеческое звучание голоса.

К сожалению, на сегодняшний день технология еще не совершенна, имеет свои недоработки, которые потенциально могут привести к ее не совсем законному применению и даже интеллектуальному мошенничеству. Так, по информации New Scientist, программа создала голос, который успешно (практически в 100 процентах случаев) обманул систему распознавания речи. При этом качество воспроизводимых голосов пользователями оценивается не очень высоко (примерно три балла из четырех).

На сегодняшний день разработка нейронных сетей позволяет создавать программы, которые имеют способность имитировать либо изменять человеческие лица на видеозаписях. Это с большим успехом применяют создатели порнофильмов, заменяя лица актеров на лица известных людей. И если сегодня это можно расценивать как шутку или развлечение, то уже в скором будущем программы замены лиц в комбинации с голосовыми имитаторами могут использоваться для создания «фейкового» контента на просторах Мировой паутины. Людей смогут вводить в заблуждение очень простым образом, показывая, как какой-то известный человек (политик, например) будет говорить вещи, которые он в реальности не произнес бы.

Уже сейчас не составляет особого труда обмануть людей даже с помощью простого Photoshop. Если делать это с применением инструментов искусственного интеллекта, то страшно подумать даже, к каким последствиям в перспективе это может привести.

Комментирование и размещение ссылок запрещено.

Комментарии закрыты.