Освободите место, его займет искусственный интеллект. Каким профессиям люди обучают роботов прямо сейчас

В «Яндексе» уверены, что искусственный интеллект сделает жизнь человека лучше. Ему не придется заниматься рутинной работой, а прибыль коммерческих предприятий за счет оптимизации процессов возрастет. Их не пугают сюжеты фантастических голливудских фильмов и повсеместная слежка. Почему - в интервью 66.RU рассказывает глава службы компьютерного зрения компании Александр Крайнов.

За полвека искусственный интеллект научился разговаривать с человеком, различать человека и обыгрывать человека в игру го. Как ни странно, именно последнее достижение машины наиболее ценно для развития и популяризации науки.

Компьютерные симуляторы давно лучше человека играют в интеллектуальные настольные игры — нарды или шахматы. Если в 1989 году Гарри Каспаров в партии из двух блицев легко обыграл шахматную программу Deep Thought, то через семь лет российский гроссмейстер уступил ее усовершенствованной версии. Го долгое время оставалась последним непокоренным бастионом, но недавно пал и он: матч AlphaGo с самым титулованным профессиональным игроком Ли Седолем завершился со счетом 4:1.

В основе этой разработки стоят нейросети — самая быстропрогрессирующая область создания искусственного интеллекта. Технология имитирует поведение нейронных сетей в головном мозге человека. Если упростить, то обучение нейросетей похоже на обучение двухлетнего ребенка: взрослые показывают малышу много картинок, называя те предметы, которые изображены на них. Через некоторое время он выделяет закономерности и сам способен отличить, например, яблоко от груши.

Бум произошел за счет огромных вычислительных мощностей компьютеров и большого количества размеченных данных в интернете. Этого достаточно, чтобы искусственный интеллект постепенно «умнел». Кажется, что искусственный разум когда-нибудь разовьется до такой степени, что сможет обходиться без человека и начнет ядерную войну. На фобии параноиков разработчики ИИ отвечают, что свободная воля суперкомпьютера вписывается в жесткие рамки алгоритмов и математических моделей, а алгебраическое понятие «формула» никогда не будет соседствовать с определением «целеполагание» из психологии. Как в любом учебнике.

В авангарде разработок нейросеть-сервисов в России стоит «Яндекс». Мы встретились с руководителем службы компьютерного зрения компании Александром Крайновым, часто выступающим на российских и мировых научпоп-конференциях, и поговорили с ним о философии, футурологии и немного о математике.

Фото: предоставлено компанией "Яндекс"
Фото: предоставлено компанией "Яндекс"

— В бытность моего студенчества большой популярностью пользовалась платформа Last.fm. Если кто не помнит, это сайт, куда загружается любимая музыка, а сервис предлагает похожие треки. Плюс на сайтах интернет-магазинов часто встречается рубрика «Вместе с этим товаром пользователи берут…». Мы уже тогда пользовались нейросетями?

— Нейронные сети тогда, конечно, уже существовали. Они появились в шестидесятые годы. Тут надо сказать, что это один из видов машинного обучения, способ составить формулу и провести по ней какие-то вычисления. Для одних задач нейросети хороши, для других — не очень.

Именно для рекомендательных сервисов нейросети работают не лучшим образом, поскольку там мало факторов принятия решения (от силы 15–20) и они очень неоднородны: возраст, пол, жанр, страна и так далее.

Нейронная сеть максимально эффективна тогда, когда у нас много факторов и они максимально однородны: пиксели изображения, акустический сигнал и т.д.

— Наверное, я, гуманитарий, пожалею о своем вопросе, но как это все работает?

— Любая нейросеть состоит из нескольких слоев, а слой — из множества нейронов. Есть входной слой, есть множество промежуточных — выходной. Каждый нейрон — это математическая формула, которая совершает преобразование над полученной информацией. Цель этих изменений — обобщить то, что нужно обобщить, и разделить то, что нужно разделить, для корректной работы. Нейроны каждого последующего слоя связаны с нейронами предыдущего.

Возьмем распознавание речи. Оцифрованный акустический сигнал многократно модифицируется, проходя через слои. Цель этих модификаций — обобщить то, что нужно обобщить, и разделить то, что нужно разделить, для надежного распознавания фонем.

То есть все типовые произношения одной фонемы (звуковое представление буквы) должны быть преобразованы в максимально близкие значения.

При этом машина сама подбирает формулу преобразования аудиосигнала путем внутреннего перебора. Таким образом, нейросеть получает одну матрицу на входе и выдает другую на выходе.

После этого используется языковая модель: вероятность последовательностей фонем для, например, русского языка. Человек ведь тоже исходя из контекста понимает, что сказано, даже если он не расслышал часть слова.

— Чему за 50 лет научились нейросети?

— Лучше всего они справляются с задачами распознавания изображений (статических или динамических) и речи. Последняя большая история, связанная с нейросетями, — это анализ и генерация текста, перевод и голосовые помощники.

— Правильно ли я понимаю, что сейчас для разработчиков главный вызов — это сделать адекватный перевод текста с возможностью конвертации звука в текст или наоборот?

— Да. Но он уже решен. Можно понимать друг друга без проблем. Хотя есть к чему стремиться. Например, к уровню профессионального переводчика.

— А когда робот вытеснит из этой профессии человека?

— Сложно сказать. Скоро точно исчезнут плохие переводчики-ремесленники. Думаю, останется литературный перевод, когда надо сохранить конкретные фразы или идиомы. В некоторых случаях надо переводить не дословно, а с подбором синонимических образов. А в документах или научных статьях важно оставить термины, как есть (если нет строгого аналога).

— В каких сферах еще будет использоваться искусственный интеллект?

— В банках давно используется. Появится в медицине, хоть это и очень зарегулированная сфера, судопроизводстве. Хорошее судебное решение — максимально беспристрастное. А использование машин исключает, во-первых, эмоции, во-вторых, коррупционную составляющую.

Что еще? Самодвижущиеся машины, диалоговые системы. Думаю, недолго осталось композиторам, которые пишут примитивные попсовые песенки или фоновую музыку, и поэтам-графоманам.

— Журналисты?

— Смотря какие. Нейросети никогда не справятся с тем, чтобы найти тему, создать новостной сюжет, повернуть тему, эмоционально подсветить. С другой стороны, есть задача собрать дайджест, обработать пресс-релиз. Такие функции, конечно, в будущем отдадут роботам. Мало того, они и сейчас уже местами используется для этих задач.

Вообще искусственные нейронные сети эффективнее человека: а) в выполнении однообразных узких задач; б) в выполнении задач, для которых у нас достаточно размеченных данных.

Врач по рентгеновскому снимку определяет, сломана кость или нет. Это не только профессиональный навык, но и профессиональный опыт. Если накопилась база из десятков тысяч снимков, где есть перелом, то машина будет выполнять эту узкоспециализированную задачу эффективнее человека. Она ведь может накопить «опыт» не меньший, чем у человека, а опыт человека в других областях тут никак не помогает.

— У многих людей (даже не самых глупых) есть страхи, связанные с ИИ. Главный визионер планеты Земля Илон Маск считает, что цивилизация в опасности и нужно ограничить сферы применения ИИ.

— В этом отношении я согласен с Марком Цукербергом чуть больше, чем полностью (создатель Facebook считает, что ИИ сделает жизнь лучше, — прим. 66.RU). Человек, который хорошо представляет себе, что происходит внутри нейронной сети, вряд ли будет высказывать такие опасения. Нейронная сеть — это формула, которая принимает четкие понятные данные на входе и предлагает решение на выходе. Как и любая другая формула, она не может решать иные задачи. Формула решения квадратного уравнения не может покупать продукты в магазине или захватывать Вселенную. Не надо подозревать теорему Пифагора в замысливании злодейства. Это даже звучит абсурдно.

Человек четко сформулировал нейросети задачу и дал четкие критерии измерения. Не может быть цели всех победить, может быть цель оптимизировать отдельный параметр.

— Например?

— Например, беспилотный автомобиль. Не может быть формулировки «доехать до места назначения самым лучшим образом». Значит, нам надо ее переформулировать. О! Доехать максимально быстро. Но тогда — это езда по тротуарам, нарушения ПДД и скоростного режима. Мы вводим новые данные, но тогда может оказаться, что движение будет дерганным. Окей, вносим еще одну поправку: движение без резких разгонов и торможений. Дальше мы создаем пенальтизацию (штраф) за каждый дорожный инцидент, и чем меньше будет штрафных баллов, тем лучше нейросети справились с задачей. И в результате мы получаем четкую метрику, по которой мы сможем оценивать результат работы.

— То есть ошибки все-таки могут возникать?

— В любом машинном обучении, в том числе в нейросетях, есть такое понятие, как hard negative — примеры, на которых алгоритм дает явно неверный результат. То есть произошла комбинация переменных, не заложенных в изначальном обучении. Это чем-то похоже на оптические иллюзии у человека. Есть понятные методики, как это исключить. Например, сделать комбинацию из двух систем, которые учились на разных данных. Работает одна формула, которая лучше принимает решение, а вторая страхует, если ей кажется, что что-то идет не так.

— Если речь идет о дорожной обстановке, то цена ошибки резко возрастает.

— Наша первая мысль, когда беспилотный автомобиль собьет на дороге человека, — надо запретить. Но если мы проанализируем сухую статистику и выясним, что автомобиль под управлением робота попадает в аварии, допустим, в 10 раз реже человека, мы ведь не запретим водить человеку.

С водителем проще, поскольку мы у него можем отобрать права и посадить в тюрьму. А у алгоритма нет понятия экземпляра за рулем, формула везде одна и та же. Что делать? Нужно обозначить приемлемый безаварийный наезд. Если он соблюдается — внедряем уравнение, нет — забываем.

Да, это звучит невероятно цинично. В нашем гуманистическом обществе такие оценки не приняты. Значит, должно что-то поменяться в сознании. Должно пройти время, чтобы мы поняли, что на беспилотных автомобилях ездить безопаснее.

— Понятно, что у компьютера нет морали. Тогда чем будет руководствоваться беспилотный автомобиль в критической ситуации, когда ему необходимо сделать выбор, кого сбить — женщину или ребенка?

— В каждый конкретный момент времени алгоритм решает не кого сбить, а в какую сторону повернуть и какую педаль нажать. Это решение зависит от того, в каком случае функция ошибки меньше. Если программист назначил одинаковую оценку ошибки, то беспилотник сделает выбор, исходя из меньшей вероятности кого-то сбить. Если авторы алгоритма, оптимизируя функцию, не внесли в нее жизнь водителя, то алгоритм пожертвует его жизнью. Просто это не приведет к увеличению ошибки.

Фото: moralmachine.mit.edu
Фото: moralmachine.mit.edu

Так что этический выбор стоит не перед формулой, а перед разработчиком. А шире — перед обществом. А общество ссылается на закон. Что такое закон? Это закрепленное в обществе представление о том, что такое плохо, а что хорошо. А к беспилотникам отношения у нас еще толком не выработалось. Поэтому если сравнивать технологическую, эмоциональную и правовую готовности, то первая далеко впереди.

— Да, и речь сейчас не только про транспортные средства. Человеку неприятно, когда робот собирает про него сведения: перемещения, слежки… Внутренне некомфортно.

— Когда только появились пластиковые карты, многие опасались, что все их траты будут напоказ. Кто-то до сих пор принципиально пользуется только наличными, это их дело. Для большинства ситуация упростилась. Тенденция — жизнь напоказ в соцсетях. А скажем, камеры помогают превентивно бороться с преступниками. Никто не следит за каким-то конкретным человеком, нужно очень сильно проявить себя в жизни.

— Несколько лет как популярны голосовые ассистенты. Голосовые помощники научились хоть как-то поддерживать разговор и обращаться к сторонним сервисам. А какие еще функции в процессе развития технологий смогут выполнять виртуальные помощники?

— В любых голосовых помощниках есть два важных момента: general conversation (свободное общение на отвлеченную тему) и решение конкретных сценариев. Первая часть очень тяжелая, и она будет развиваться медленнее, пока это, действительно, только развлечение. Что касается решения сценариев, то дело не в технологиях, а в трудозатратах и целесообразности. Создание одного сценария от другого отличается слабо.

Предположим, у нас есть сценарий заказа такси. Чтобы его реализовать, нужно научиться узнавать все фразы, которые этот сценарий вызывают. Чтобы понять, откуда нам надо доехать, нужно заполнить соответствующие поля. Мы создаем шаблоны — типовые словосочетания, из которых мы можем извлечь нужные данные, а нейросеть учится на незнакомых фразах понимать смысл. Дальше есть диалоговый модуль, в котором вообще нет места никаким нейронным сетям, который понимает, что если на вход было приветствие, нужно что-то ответить из заготовленного набора.

В общем, почти так же, как в мобильных приложениях сейчас, только команды отдаются голосом. Или, например, заказ еды в ресторане — то же самое. Принцип — один и тот же. Если вы спросите у строителя, как он строит дом, он вам расскажет. А как улицу? Да так же! Только дома расположим в ряд и озадачимся общей инфраструктурой.

— Я не представляю, как вы зарабатываете на general conversation. Наверное, это такая имиджевая штука. А какие еще есть возможности конвертировать нейросети в деньги?

— Зарабатывать нужно не на нейросетях. Нейросети — это ведь лишь инструмент, который решает какую-то пользовательскую задачу. Мне кажется, что такой подход, как «у меня есть молоток, и как бы мне заработать?», не очень действенен. Эффективнее посмотреть, какие есть потребности, и исходя из этого решать, использовать молоток, пилу или грабли. То есть зарабатывать нужно не нейросетях, а на продуктах.

Если взглянуть в прошлое (этот пример я привожу довольно часто)… Выходит научная статья «Алгоритм переноса стиля». Когда мы берем изображение в одном стиле, прогоняем через преобразователь, и получается изображение в другом стиле. Потом выходит материал, как этого добиться быстро. Дальше выпускают Prisma — мобильное приложение. Параллельно на рынке появляются несколько похожих продуктов, но о них никто не знает. Потому что научная статья дойдет до продакшна, когда разработчик выполнит массу инженерной работы, красиво упакует идею.

Нейросети могут быть полезны и традиционно консервативным областям — крупным транспортным или металлургическим предприятиям, у которых огромные доходы и огромные расходы, и весь бизнес строится на небольшой дельте. В этом случае оптимизация даже одного процента серьезно увеличивает чистую прибыль.

— Компьютер выиграл в го лучшего игрока. И это событие наглядно продемонстрировало миру, что нейросети — мощная штука. Почему это произошло?

— От множества других игр го отличается тем, что при простых правилах игра невероятно сложная. Вариантов развития там больше, чем атомов во Вселенной. И в обозримом будущем никакие вычислительные мощности не смогут просчитать все ходы. Именно поэтому в игре сочетается расчет и интуиция. Расчет позволяет просчитать несколько вариантов на несколько ходов вперед, а интуиция позволяет выбрать лучшие варианты для расчета. Выбирая ход, человек руководствуется чувством гармонии. Я склонен думать, что наша интуиция — это основанная на нашем опыте способность делать предсказание вероятности того или иного исхода.

— Интуиция — это ведь архетипичное человеческое свойство. Как нейронная сеть училась играть?

— Сделали две нейросети. Первая предсказывала следующий ход в партии. Загрузили множество сыгранных в интернете партий, и система научилась находить некие шаблоны, т. е. ходы, которые наиболее типичны в подобных ситуациях (при том, что каждый раз ситуация заметно отличается от ранее сыгранных — партии в го не повторяются).

В качестве положительного примера брались позиции сильных игроков, отрицательного — случайные позиции или позиции проигравших. В результате нейросети не научились делать однозначно лучший ход, но создали набор наиболее реалистичных гипотез, которые можно проверять.

Дальше нам нужно оценить позицию на доске, понять, у кого сейчас преимущество. Второй нейросети на вход давали сведения о ситуации на доске, знания о том, чей сейчас ход, и исход партии. Тогда машина научилась предполагать, кто выиграет. Конечно, эти данные очень «шумные»: у игрока может быть выигрышная позиция, но он проиграл из-за провального хода. Но если взять десятки тысяч партий, то можно найти закономерности. Т. е. все как у человека: вначале появляется мысль, куда сходить, потом происходит оценка полученной в результате предполагаемого хода позиции.

В машинном обучении всегда нужно много данных. В го было сыграно много партий, но ведь нужны не случайные, а сыгранные сильнейшими профессионалами. А их относительно мало. Разработчики сделали так, что программа стала играть сама с собой и накапливать объем.

В философском смысле го — модель нашей жизни. Все, что нас окружает, что с нами происходит, подчиняется физическим законам и, значит, просчитывается. Но поскольку вычислить все невероятно сложно, то мы заменяем расчет какими-то обобщениями, создаем паттерны и схемы. Для упрощения мы оперируем понятием, что Солнце всходит на Востоке, но ведь на самом деле Солнце ниоткуда не всходит, а Земля кружится вокруг него.

То же самое в го. Теоретически все позиции, ходы, интуицию можно заменить расчетом. Но на практике компьютер заменяет это абстрактными понятиями, поскольку даже у него не хватает вычислительных ресурсов на полный расчет всей партии.

*****

P.S. «Если компьютер сможет превзойти в шахматах лучшего из лучших, это будет означать, что ЭВМ в состоянии сочинять самую лучшую музыку, писать самые лучшие книги», — сказал Гарри Каспаров 1989 году после своей победы над шахматной программой.