Спасти голос Стивена Хокинга

30.03.2018

Шестидесятидвухлетний инженер Эрик Дорси из Пало-Альто смотрел ночью телевизор, когда ему начали приходить сообщения о том, что Стивен Хокинг умер. Он включил новости и увидел ролики со знаменитым физиком и его неизменным роботизированным голосом — голосом, над которым Дорси столько времени работал в молодости, и который много лет спустя помогал спасти от исчезновения.

Впервые Дорси и Хокинг встретились 30 лет назад. В марте 1988 года Хокинг посетил Калифорнийский университет во время своего трёхдневного лекционного тура.

В 46 лет Хокинг уже был известен благодаря своим открытиям в области квантовой физики и теории чёрных дыр, но впереди его ждала ещё бóльшая слава. Через неделю должен был выйти его бестселлер «Краткая история времени», и калифорнийцам не терпелось увидеть британского профессора из Кембриджа. Они занимали все места в аудиториях во время его лекций и вылавливали его на обедах. Хокинг передвигался по зданию и между этажами на своём инвалидном кресле с сиденьем из бордовой овчины. Он усмехался, оставляя позади журналистов и медсестер.

Когда он хотел что-то сказать, то раздавался роботизированный голос, который звучал из серой коробки позади кресла. Речевой синтезатор, коммерческий продукт под названием CallText 5010, тогда был в новинку и ещё не успел стать его фирменным атрибутом; Хокинг начал пользоваться им три года назад после того, как боковой амиотрофический склероз лишил его дара речи. С помощью мимической мышцы щеки Хокинг выбирал фрагменты текста на экране, и CallText преобразовывал текст в речь. В начале одной из лекций Хокинг пошутил на этот счёт: «Проблема лишь в том, что из-за этого голоса у меня американский акцент».

     Стивен Хокинг на церемонии, посвященной пятидесятилетию НАСА. Фото: Пол Алерс 
Стивен Хокинг на церемонии, посвященной пятидесятилетию НАСА. Фото: Пол Алерс 

Часть этой поездки Дорси сопровождал Хокинга в качестве эксперта по голосу, чтобы объяснять журналистам его принцип работы. Он работал в Кремниевой долине, в компании, которая создала CallText 5010 — аппаратную плату с двумя компьютерными чипами, на которых было установлено специальное программное обеспечение.

В свои 32 года жизнерадостный Дорси был скромным, но целеустремлённым человеком. Он начал работать в Speech Plus в качестве стажёра. Его привлекла миссия компании по предоставлению помощи инвалидам и немым; теперь он возглавлял команду инженеров, и по меньшей мере 20 000 строк его собственного кода содержались в CallText — продукте, который подарил голос самому знаменитому учёному своей эпохи.

«Мы всё ближе и ближе к ответам на вечные вопросы. Зачем мы здесь? Откуда мы пришли? Спасибо за внимание», — сказал Хокинг в конце своей лекции.

По завершении калифорнийского тура физик вручил Дорси свою новую книгу с автографом (в виде отпечатка большого пальца на обложке).

Хокинг вернулся в Кембридж, а Дорси — в Калифорнию.

Двадцать шесть лет спустя их пути снова пересеклись.

Фото: Лиз Хафалиа
Фото: Лиз Хафалиа

Это был золотой век технологий. Появился интернет. Кремниевая долина разбогатела, обанкротилась и снова разбогатела. Apple, Amazon, Facebook, Google, Uber.

Тем временем Дорси ушёл из Speech Plus, которая обанкротилась и была распродана другим компаниям. Он женился и завёл детей. Присоединился к буддийскому храму. В конечном итоге Дорси покинул отрасль речевых технологий и стал главным инженером в компании TiVo, которая занималась разработкой видеорекордеров.

Дорси понимал, что технологии быстро развиваются. «Каждый год выходит новый «Айфон». Всё очень быстро пропадает на дне мусорной корзины истории», — говорит он. 

Поэтому, когда в 2014 году ему пришло письмо из Кембриджского университета, он был удивлён. Автором письма был технический ассистент Хокинга Джонатан Вуд, который отвечал за коммуникационные системы профессора.

Вуд поведал ему нечто невероятное, и сперва Дорси трудно было поверить в это: Хокинг до сих пор пользуется речевым синтезатором CallText 5010, который последний раз обновляли в 1986 году. На протяжении 30 лет он так и не сменил технологию голоса. Хокингу нравился именно этот голос, альтернативы его не устраивали. Но устройство устарело «морально» и физически. Если синтезатор сломается, то его знаменитый голос исчезнет навсегда.

Вуд полагал, что эту проблему можно решить, если реализовать устаревшую технологию в новом ПО, каким-то образом переместить речевой синтезатор 30-летней давности на современный ноутбук — без изменений в голосе. Годами он с коллегами искал разные подходы. О чём подумал Дорси?

Устройство 30-летней давности? О, Боже.

Это будет непросто. Возможно, им придётся поднять старый исходный код. Возможно, им придётся отыскать оригинальные чипы и руководства к ним. Купить их нельзя, компаний не существует. Решение проблемы может означать проведение археологических раскопок в эпохе древних технологий.

Но речь шла о Стивене Хокинге.

«Давай сделаем это», — сказал Дорси.

     Патти Прайс и Эрик Дорси. Фото: Майкл Мейкор
Патти Прайс и Эрик Дорси. Фото: Майкл Мейкор

Поэт Лонгфелло когда-то написал, что человеческий голос — это «орган души». Наш голос лучше всего выражает нашу сущность, а малейшие перемены в интонации могут изменить значение слов — но компьютеру сложно их уловить. Вы произносите фразу, и интонация меняется в зависимости от того, делаете ли вы утверждение или задаёте вопрос. Вы делаете это на автомате, но компьютеру приходится угадывать смысл.

Современные искусственные голоса вроде Сири полагаются на заранее созданные голосовые библиотеки. Актёры записывают множество слов и слогов, а программа сортирует их и составляет из них предложения. Но 30 лет назад компьютеры могли воспроизводить только «образцовую» версию человеческого голоса, говорит специалист по распознаванию речи и лингвист из Пало-Альто Патти Прайс.

В то время она работала постдоком в лаборатории Денниса Клатта при Массачусетском технологическом институте. Высокого и тощего Клатта, любителя оперы из Висконсина, можно назвать крёстным отцом голоса Хокинга. Он пропускал рентгеновские лучи через собственно горло, чтобы измерить форму гортани в процессе издания различных звуков, а затем разработал голосовую программу — «модель Клатта» — основанную на его же голосе.

Компания Speech Plus взяла модель Клатта, усовершенствовала её и коммерциализировала в различных продуктах, в том числе и в CallText 5010. Дорси написал к нему алгоритм, который контролировал интонацию, повышение и понижение голоса в словах и предложениях. Speech Plus продала около 1000 образцов CallText, несмотря на то, что многие пользователи жаловались, что голос слишком роботизированный.

Но Хокингу он понравился.

Образец голос Хокинга 1986 года

Голос и правда звучал чересчур «роботизировано», но профессор ценил его за простоту понимания: он был «шумоустойчивым», объясняет Прайс. На графике его звуковые волны больше похожи на ряд плато, чем на крутые скалы человеческих голосов, с их резкими колебаниями. Гладкие склоны голоса Хокинга пробивались сквозь шум в амфитеатрах и лекционных залах. Он часто начинал свои лекции с фразы: «Всем меня слышно?», и зрители с энтузиазмом кричали: «Да!»

«Его было приятно слушать», — говорит Прайс.

«Он очень внятный. Вы можете слушать его на протяжении долгого времени без чувства раздражения», — говорит Дорси.

Единственное, что не устраивало Хокинга, это отсутствие британского акцента.

Шли годы, и речевые синтезаторы становились всё более естественными на слух, благодаря быстрым чипам и дешёвым хранилищам. Хокингу ничего не мешало усовершенствовать свой прибор. В 1996 году технологическая компания из Массачусетса под названием Nuance, которая приобрела остатки Speech Plus, обновила CallText с помощью усовершенствованного программного кода. Звук голоса стал более полным и быстрым, менее роботизированным, с более короткими паузами между предложениями — по мнению инженеров, это был очевидный прогресс.

Они отправили образец голоса Хокингу, полагая, что тот обрадуется. Но нет. Хокинг сказал, что интонация отличается. Поэтому предпочел использовать голос образца 1986 года, с алгоритмом интонации Дорси.

Образец голос Хокинга 1996 года

«Я использую его, потому что ещё не слышал голос, который бы мне понравился больше, а также потому что он стал частью моей личности», — однажды сказал он. Его голос мог звучать мягче, однако тогда он не был бы похож сам на себя.

«Стив считал своё оборудование частью тела. Обновить его ПО или железо значило, что придётся физически изменить его», — рассказывает главный технический ассистент Хокинга Джонатан Вуд.

Примерно с 2009 года Вуд и несколько сотрудников Кембриджского университета попытались отделить голос Хокинга от отказывающего устройства CallText. В группу входили: Питер Бени, компьютерный гуру университета, Павел Возняк, местный студент инженерного факультета, и опытный инженер-электронщик из Intel Марк Грин, который давно был знаком с Хокингом.

Сперва они думали настроить современный искусственный голос типа Сири, чтобы он звучал как голос Хокинга. Но системы, на базе которых работает Сири, полагаются на огромную вычислительную мощность интернет-облаков, а Хокинг не всегда может иметь доступ к интернету. Бени попытался иначе подойти к решению этой проблемы. Он написал эмулятор для CallText — в сущности, программу, которая заставит современный ПК думать, что это старая версия CallText. Однако представленные им образцы голоса не очень понравились Хокингу.

     Создать карусель   Стивен Хокинг в 1997 году
Создать карусель Стивен Хокинг в 1997 году

В 2014 году, когда Кембридж связался с Дорси, команда рассматривала третий вариант: добыть исходный код CallText, который теперь принадлежал Nuance, и портировать его на ноутбук Хокинга. Пересадить старый голос в новое тело.
Возможно ли это? Дорси не знал. Всё зависело от того, сможет ли он найти исходный код, или хотя бы добыть информацию, которая позволила бы ему перепроектировать исходный код.

Он написал своим коллегам, которых не видел 30 лет. Дорси поинтересовался, не завалялись ли у них платы, чипы или руководства от старого устройства. Один нашёл плату у себя в гараже. Другие отыскали запылившиеся схемы.

Это было похоже на сумасшедший квест по поиску старых технологий. Но люди изо всех сил пытались помочь. «Целью было спасти его голос», — говорит Дорси. «Стоило обратиться к кому-то и сказать: «Мне нужна твоя помощь, чтобы спасти голос Стивена Хокинга», как все сразу рвались в бой».

Вскоре специалист по распознаванию речи Патти Прайс стала близким соратником Дорси. Она училась у крёстного отца голоса Хокинга, была экспертом по анализу аудиообразцов, сравнивая их и используя аудиоотпечатки, чтобы определить, как они были созданы.

Археологический квест Дорси по поиску старого кода не увенчался успехом. Компания Nuance не смогла отыскать исходный код CallText 1986 года. Однако им удалось найти код из обновленной версии 1996 года на резервной кассете в бельгийском офисе. Спустя несколько месяцев работы инженеры Nuance запустили код и отправили серию аудиоматериалов команде Хокинга, настроив программу так, чтобы она соответствовала версии 1986 года.

Забагованная версия голоса Хокинга с эмулятора

Однако это не сработало. Голос был похож, но не идеален. Хокинг отметил небольшие изменения, которые не замечали другие. «Это похоже на то, как мы узнаем голос матери. Когда вы слышите её по телефону, ей стоит сказать два слога, и вы тотчас же поймёте, она это или нет», — говорит Прайс.

Другая проблема заключалась в том, что код принадлежал Nuance. Хокинг всегда стремился быть единственным владельцем собственного голоса. Если бы команда не использовала голос, который принадлежал компании, то у Хокинга было больше контроля.

Поэтому им пришлось вернуться к ранним наработкам: эмулировать CallText, подобно тому, как ПК эмулирует старые игры Nintendo, которые вышли из продажи.

Разумеется, CallText намного сложнее Nintendo. Он работал на базе двух чипов Intel и NEС, устаревших и имеющих очень сложную взаимосвязь. Создание эмуляторов требовало героических подвигов в программировании, интуиции и высокотехнологичной хирургии. Чипы извлекли с запасной платы CallText с помощью пинцета и отвёртки. Бени пришлось создавать эмулятор для чипа Intel с нуля. Отдельный эмулятор для NEC позаимствовали у опенсорсного эмулятора Nintendo под названием Higan.

     Создать карусель
Создать карусель

Осталось всё это совместить. Это было похоже на сборку пазла в тёмной комнате. Один чип передавал другому пакеты каждые 10 миллисекунд. Почему? Что было в них?

Ничего не получалось. Некоторые аудиообразцы были настолько ужасны, что никто не осмелился их включать Хокингу.

Однако незадолго до Рождества 2017 года эмулятор наконец-то начал издавать звуки, похожие на голос, который они так долго искали. И хотя у устройства возникали сбои, по словам Прайс, голос совпадал с голосом Хокинга как на слух, так и по форме волны. Единственное различие заключалось в том, что отсутствовали аналоговые шумы. «Этот образец голоса была очищен от шума предыдущей версии», — говорит Прайс.

Когда Бени впервые услышал его на компьютере, то подумал, что он звучит слишком по-американски. Однако это было слуховая иллюзия. Бени осознал, что, возможно, сам мысленно добавлял голосу Хокинга британский акцент.

Тестовая версия голоса Хокинга

На протяжении следующих нескольких недель в Кембридже и Пало-Альто продолжались работы по отладке нового голоса. Разработчики скармливали ему фрагменты старых выступлений Хокинга, образцы текстов, наполненные случайными запятыми, и слушали, что получится.

17 января команда решила, что готова продемонстрировать новый голос Хокингу. Вуд, Возняк и Бени отправились в его дом в Кембридже и включили ему образцы голоса на ноутбуке. К радости и облегчению команды, Хокинг дал свое благословение. Это был его голос.

Им всё еще нужно было перенести голос на ПК, поэтому Вуд временно загрузил версию голоса на мини-компьютер Raspberry Pi. Он думал, что Хокингу захочется испытать свой голос в повседневной жизни, а Pi — самое подходящее устройство для этого.

26 января Вуд привез Pi домой к Хокингу и спросил хочет ли тот попробовать его. Хокинг поднял брови, что означало «да».

Команда поместила Pi в небольшой чёрный ящик позади кресла Хокинга и подключила его к синтезатору речи. Затем они отключили CallText. Впервые за 33 года Хокинг мог говорить без него.

Вуд с нетерпением ждал реакции Хокинга.

Финальная версия голоса Хокинга. 2018 год.

«Мне нравится», — сказал Хокинг.

На протяжении следующих недель Хокинг продолжал общаться через эмулятор и Raspberry Pi с друзьями и коллегами. «Было очень приятно преподнести ему результат многих лет работы и усилий многих людей», — говорит Вуд.

Остался лишь последний штрих. Сделать так, чтобы забагованная ПК-версия работала нормально. После нескольких изменений в коде им наконец-то удалось избавиться от багов.

«Мы практически избавились от всех технических преград. Наконец-то многие могли вздохнуть с облегчением, потому что программа работала», — говорит Дорси.

Но в феврале Хокинг внезапно заболел.

По словам Вуда, Хокинг продолжал пользоваться эмулятором до конца своих дней. Он мог общаться со своими близкими и опекунами благодаря новому ПО на Raspberry Pi. Какими бы ни были его последние слова, он произнёс их с помощью новой версии своего голоса. Все участники проекта понимали, что Хокинг может не прожить достаточно долго, чтобы насладиться работой эмулятора. Он и раньше болел, но всегда выздоравливал. 

В 2014 году, когда Вуд впервые связался с Дорси, Хокингу было 72 года. Тем не менее, они решили, что CallText может выйти из строя за 6 месяцев, в то время, как Хокинг может дожить до 80 лет.

     Создать карусель
Создать карусель

Дорси опечален смертью Хокинга, и в то же время несколько разочарован. На протяжении многих лет они с командой корпели над устройством, которое прекрасно работало, и теперь оказалось, что всё зря.

Однако в то же время Дорси вновь на некоторое время стал тем юношей, который хотел использовать технологии для свершения добрых дел и помощи людям. Много лет назад, работая над алгоритмом интонации для CallText, он и представить себе не мог, что его разработка станет фирменной чертой научного гения — для всего мира и для него самого.

Технологии стремительно развиваются. Большинство машин выходят из строя, и когда мы умираем, наши голоса умирают вместе с нами. Голос Хокинга — исключение.

Оригинальные платы CallText были переданы его семье, как и новый эмулятор, который можно будет портировать на будущие платформы, когда они будут созданы. 

Хокинг знаменит своим атеизмом, он скептически относился к загробной жизни. Однажды он сказал: «У нас есть только одна жизнь, чтобы оценить грандиозное строение этой Вселенной, и я чрезвычайно благодарен за это». Однако нет никаких препятствий для того, чтобы его голос продолжал жить дальше.

Оригинал: San Francisco Chronicle

Автор: Джейсон Фагон

Перевод: Александр Лоскутов

Редактор: Тамара Беркович