Нас больше нельзя будет узнать по голосу

16.01.2018

Технологии всё ближе к идеальной имитации голоса.

В 2018 году опасения по поводу ложных новостей станут игрушкой, по сравнению с новыми технологиями, которые научатся имитировать человеческий голос. Это создаст настоящий кошмар для служб безопасности. Что еще хуже, это частично лишит каждого из нас уникальности. Но компании, университеты и правительства уже работают яростно, чтобы декодировать человеческий голос в разработке своих приложений. Задачи варьируются от лучшей интеграции интернета вещей до оптимизации взаимодействия людей и машин.

На данный момент, широко развёрнутые проекты по изучению голосовых технологий есть у ряда стран (США, Китай, Эстония) и у таких ИТ гигантов, как Google, Amazon, Apple и Facebook.

На самом деле уже не так сложно создать искусственный голос, затем смоделировать и воспроизвести слова и фразы. Уровень, которого достигли в области машинного воспроизведения речи уже не первый год воспринимается как данность (вспомните Siri от Apple, Алису от Яндекс). Создание естественно звучащего голоса - это алгоритм, который намного сложнее и дороже.

Любой патологоанатом признает, человеческий голос гораздо больше, чем вибрации вокального аккорда. Эти вибрации вызваны выходом воздуха из наших лёгких, что заставляет наши голосовые связки раскрыться. Этот процесс производит уникальный, как отпечаток пальца, звук. Уникальность так же даётся за счет интонации - о которой мы редко задумываемся. Эти аспекты нашей речи являются ситуационными, часто подсознательными, и они имеют значение для слушателя. Они говорят нам, когда такую фразу, как «Вау, это что-то!» следует воспринимать как подлую, саркастическую, любящую или равнодушную. Эта проблема объясняет использование emoji в текстовых сообщениях. Они необходимы, чтобы придать тексту необходимый оттенок.

Именно такая деталь, как интонация, и стояла на пути звуковых инженеров. Технически, звуки уже давно легко раскладываются на составные, легко воспроизводимые компьютером. Проект Adobe Voco разрабатывает то, что по существу является Photoshop звуковых волн. Он работает, заменяя осциллограммы пикселей, чтобы создать что-то, что звучит естественно. Компания делает ставку на то, что, если имеется достаточное количество записей речи человека, дальше потребуется не более чем копирование и вставка параметров в новый файл. Первоначальные результаты Adobe от Voco являются жуткими, но впечатляющими. Если у вас достаточно образцов, хранящихся в вашей библиотеке данных, вы можете заставить кого угодно сказать что угодно.

Технологические компании и инвесторы делают ставку на идею, что эти системы в конечном итоге будут иметь огромную коммерческую ценность. Однако даже до того, как эта ситуация возникнет, этот особый тип технологии будет представлять большую угрозу. В сумме с графическими редакторами это откроет бесконечные возможности для обмана и в частной жизни, и публично.

Мы больше не сможем доверять ни глазам, ни ушам.