Говорит и показывает «Яндекс.Станция»

22.06.2018

По меркам российского рынка умного дома появление смарт-колонки «Яндекс.Станция» — безусловно, событие года. «Теле-Спутник» разобрался, почему это важно и что у «Яндекс.Станции» внутри и снаружи.

«Это первая “железка”, сделанная в “Яндексе”», — открыл новую страницу в развитии холдинга руководитель группы компаний «Яндекс» Аркадий Волож 29 мая на конференции Yet another Conference. В своем движении на аппаратный рынок через остановку «Смарт-колонки» «Яндекс» не одинок. Собственный умный динамик уже давно разрабатывает Facebook, по слухам, в этом же направлении движется Spotify, вслед за Amazon, Google и Apple на рынок также вышли маститые производители акустических систем.

Прорыв года

Все дело в том, что, по данным аналитической компании Canalys, умные колонки по-прежнему являются самым быстрорастущим сегментом потребительской электроники в мире. В первом квартале их глобальные продажи выросли на 210% по сравнению с аналогичным периодом прошлого года, до 9 млн единиц.

Juniper Research ожидает, что смарт-колонками, такими как Amazon Echo, Google Home и Sonos One, будут к 2022 году оснащены 55% всех американских жилых домов и квартир. Число домохозяйств США, в которых будут использоваться умные динамики с голосовым управлением, превысит к 2022 году 70 млн, а общее число установленных смарт-колонок с голосовым контролем достигнет 175 млн. При этом с точки зрения потребительских технологий важным здесь является масштаб проникновения голосовых интерфейсов: каждый владелец смартфона в США будет в 2022 году использовать в среднем три устройства с голосовым помощником (Voice Assistant).

Именно голосовые помощники и соответствующие облачные платформы становятся главным драйвером индустрии массового умного дома: огромное количество домашних смарт-устройств уже поддерживают интеграцию с популярными голосовыми интерфейсами, и большинство экспертов в области smart home не сомневаются, что за голосовым управлением в умных домах — будущее. Смарт-колонки приближают это будущее, прививая вкус к говорящим интерфейсам миллионам пользователей.

А что в России? До появления голосового помощника «Яндекса» «Алиса» мы фактически были изолированы от глобального тренда. Ведь ни одна из смарт-колонок, лидирующих в мире по продажам, официально в России не продается, а главные мировые голосовые помощники до сих пор не русифицированы (правда, в феврале в Google обещали русифицировать Assistаnt «в ближайшие месяцы»). Ни Google Home, в первом квартале 2018 года впервые занявший первое место по поставкам смарт-колонок (3,2 млн), ни Amazon Echo (2,5 млн), ни Alibaba с устройством Tmall Genie (1,1 млн) в России не просто официально не представлены, но и не вызывают столь же массового интереса, как за рубежом, где они превратились не только в рыночные, но и в культурные феномены.

Совсем не обязательно, что умная колонка «Яндекс.Станция» с голосовым помощником «Алиса» станет рыночным бестселлером. Нет данных, какой объем продаж и, соответственно, выпуска запланирован компанией. Глава Mobile Review Эльдар Муртазин считает, что на старте продаж речь идет о тиражах в несколько тысяч экземпляров. «В “Яндексе” так верят в свою колонку, что заказали на заводе огромный тираж. Такой огромный, что закачаешься. Угадаете? Подсказка: JBL Extreme в таком объеме продается в РФ за 5 дней в среднем», — написал он в Facebook.

Но главное здесь — начать. Уровень популярности устройства на начальном этапе будет зависеть от цены и активности маркетинга, в долгосрочной перспективе — от создания экосистемы сервисов и устройств, совместимых с «Алисой» и сопутствующими платформами «Яндекса». У компании в России пока нет конкурентов, правда, и интерес к подобным устройствам и сценариям их использования в умном доме пока ограничивается техногиками.

Как «Станция» работает с видео

В корпоративном блоге «Яндекса» уточняется, что колонка построена на платформе Yandex.IO, включающей два компонента. Первый — главная плата с процессором Quad-core ARM Cortex-A53, обрабатывающая аудио, в том числе голосовые команды, и, что не менее важно, видео. На фото ниже видно, что внизу платы расположен HDMI-разъем, через который «Станция» подключается к телевизору. «”Яндекс.Станция” — это первое в мире устройство с голосовым помощником, которое подключается к телевизору напрямую и работает без пульта, только на голосовом управлении», — поясняет директор «Яндекса» по экспериментальным продуктам Константин Круглов. Согласно техническим характеристикам главной платы устройства, оно поддерживает видео Full HD 1080p.

Возможность подключения cтанции к телевизору через HDMI позволяет говорить о принципиально ином позиционировании устройства, нежели у зарубежных аналогов. Да, у Amazon Echo Show есть 7-дюймовый сенсорный дисплей 1024х600 пикселей, но эта смарт-колонка ориентирована на использование в качестве видеомессенджера, возможности выводить видео на телевизор у нее нет. Да и с точки зрения доступности видеоконтента Echo Show станции уступает: колонка поддерживает видеостриминг онлайн-кинотеатра Amazon и только.

Станция в этом смысле более всеядна: «Если подключить устройство к телевизору, показывает кино, сериалы и видеоролики, которые находит в Интернете, на «КиноПоиске» или у партнеров — сейчас это сервисы ivi и “Амедиатека”», — утверждает «Яндекс» в пресс-релизе. Остается открытым вопрос, будет ли смарт-колонка находить в Сети и показывать пиратский контент, но и объем легального видео, доступный с ее помощью, делает ее использование вполне оправданным.

В описании устройства уточняется, что смарт-колонка по голосовой команде ищет видео «с хорошим качеством», кроме того, «Алиса» будет работать и как интерфейс рекомендательного сервиса — колонку можно попросить посоветовать, что посмотреть. В компании уверяют, что при использовании станции в качестве источника видеоконтента ее звук будет лучше, чем у штатных динамиков телевизора, при этом пользователь сможет голосом управлять как воспроизведением фильма или сериала (например, поставить на паузу), так и звуком («громче», «тише»).

Процесс выбора видеоконтента «Яндекс.Станцией» с помощью голосового помощника «Алиса» описывает глава управления машинного интеллекта разработчика Михаил Биленко на страницах издания The Bell: «Поставь “Игру престолов”» или «Поставь видео с котиками».

К слову, перед тем как в прошлом году присоединиться к разработке «Алисы» и «Станции» в «Яндексе», Михаил Биленко жил в США и возглавлял в Microsoft команду Machine Learning Algorithms. Microsoft развивает собственный голосовой помощник — Cortana, который также используется как в смарт-колонках, так и в устройствах, воспроизводящих видео. Так, в начале июня 2018 года стало известно, что Cortana будет интегрирована в популярной игровой приставке Xbox One.

Стоит упомянуть и о еще одной недавней зарубежной новости, помогающей понять технологический и маркетинговый контекст, в котором развиваются голосовые помощники в индустрии стриминг-видео. Уже после анонса «Яндекс.Станции» Amazon объявил о том, что новый сет-топ-бокс Amazon Fire TV Cube с поддержкой 4К получит микрофоны и функционал умной колонки Echo. Таким образом, можно говорить о продвижении голосовых интерфейсов по всем рыночным фронтам: если «Яндекс» превращает свою колонку в сет-топ-бокс, то Amazon, наоборот, делает из весьма мощной телевизионной приставки подобие умного спикера, оснащая его микрофонной матрицей и помощником Alexa.

Краткая спецификация:
Quad-core ARM Cortex-A53 @ 1 GHz (12000 MIPS)
RAM: 1 GB DDR3 SDRAM
Flash storage: 8 GB eMMC
WiFi: 802.11 b/g/n/ac, dualband, MIMO 2x2
Bluetooth: BLE 4.1 with A2DP support
Video: HDMI 1.4 + CEC. FullHD support (1080p)
Audio input: 16-channel digital audio capturing (I2S with TDM)
Audio output: 3-channel digital D-class amplifier 30 W + 2x10 W

Голос в матрице

Выбор процессора в «Яндексе» объясняют не только поддержкой стримингового видео в Full HD, но и необходимостью обработки голосовых команд: «Мы выбрали ARM Cortex-A53 не только из-за тяжелой задачи воспроизведения потокового видео, но и для работы с голосом. Со стороны может показаться, что никаких особых нагрузок здесь нет: записывайте весь аудиопоток с микрофона и транслируйте его в облако, где волшебная нейросеть все распознает. Но это работает не так, а главная плата cтанции несет в себе целый стек технологий, который направлен на улучшение распознавания голоса».

Для точного восприятия речи и правильной интерпретации команд в колонке «Яндекса» использован второй важнейший конструктивный элемент — микрофонная матрица собственной разработки: «Один простой микрофон не справляется с задачей, но если взять несколько и заставить их работать согласованно, по принципу фазированных антенных решеток, то получим хороший направленный микрофон. Так и в cтанции используется микрофонная матрица из семи микрофонов: один в центре и шесть по окружности. Причем они подключены к отдельному контуру питания, и когда вы нажимаете кнопку Mute на корпусе, микрофоны физически обесточены». К слову, в Amazon Echo также семь микрофонов, у модели Show — восемь.

Распознавание речи cтанции, как и у ее старших собратьев — облачное, поскольку, как поясняют в «Яндексе», это «крайне ресурсоемкий процесс». Но до активации ключевыми словами «Алиса» или «Яндекс» российская колонка воспринятый микрофонами звук в облако не отправляет. В то же время распознавание ключевых слов без обращения к сети в cтанции построено на технологии Phrase Spotting (голосовая активация). «Мы обучаем небольшую нейронную сеть находить в потоке шума конкретные ключевые слова, например “Алиса”. Для этого требуется порядка 100 тыс. записей на каждое слово, причем для различных акустических условий — тихая комната, работающий телевизор в фоне и т.д. Более того, для cтанции нам потребовалось собирать эти записи вновь, а не использовать те, которые остались после запуска “Алисы” для смартфонов», — уточняют создатели смарт-колонки. Нейросеть, обученная для голосовой активации, способна распознать лишь несколько слов, но зато работает быстро и встроена в само устройство.

Другой алгоритм, Direction of Arrival, определяет направление на источник речи. «Как только направление речи определено, микрофонная матрица “разворачивается” в этом направлении и направляет на него “луч”. Технология Beamforming позволяет выделить звук, приходящий с целевого направления, подавляя звуки, приходящие с других направлений. На этом же этапе работают алгоритмы Noise Suppression (шумоподавление) и De-reverberation (устранение реверберации)», — говорят разработчики. Благодаря алгоритму Acoustic Echo Cancellation устройство воспринимает речь даже на фоне проигрываемой им самим музыки, и все эти технологии «зашиты» локально на главной плате платформы IO.

И только прошедший через все этапы очистки и выделения речи сигнал отправляется в облако «Яндекса» для полноценного распознавания нейросетями. В компании обращают особое внимание на то, что в любой момент микрофоны можно обесточить одной кнопкой — на физическом уровне, так, что не воспринимаются даже слова-активаторы. Это в теории должно успокоить тех, кто опасается, что «Алиса» всегда транслирует услышанное прямиком «куда следует».

Примут ли «Яндекс.Станцию» аудиофилы

В «Яндексе» уверяют, что cтанция — «еще и история про хороший звук». Суммарная мощность трехканального усилителя в D-классе — 50 Вт, в нижнечастотном диапазоне работает динамик диаметром 85 мм с диффузором вниз, нагруженный на два пассивных излучателя диаметром 95 мм. Два твиттера диаметром 20 мм могут работать в стереорежиме. «Для аудиофилов мы предусмотрели возможность снять кожух — тогда треки будут звучать без малейших искажений», — замечают создатели колонки. В Институте интегральных схем общества Фраунгофера лицензированы права на технологию улучшения качества звука (Voice Quality Enhancement).

На любителей качественного звука ориентирована и более дорогая версия Google Home — Max с двумя НЧ/СЧ-драйверами диаметром 114 мм с большим ходом двойной катушки и двумя твиттерами, а также Apple Homepod c излучающим вверх низкочастотным 4-дюймовым динамиком и семью высокочастотниками. Но по факту истинные аудиофилы, согласно обзорам в зарубежных СМИ, продолжают воротить нос от всех смарт-динамиков, соглашаясь лишь на модели от Sonos, да и то с оговорками. Но для массовой аудитории качество звука «Яндекс.Станции» будет более чем приемлемым, а возможность запускать голосом проигрывание любимых треков без ограничений, возможно, станет решающим фактором при покупке. Музыку на умной колонке «Яндекса» можно воспроизводить и с телефона или ноутбука по Bluetooth, без подключения к сети.

Внутри «Яндекс.Станции»:
- Два твитера мощностью 10 ватт и диаметром 20 мм
- Один вуфер мощностью 30 ватт и диаметром 85 мм
- Два пассивных излучателя диаметром 95 мм.
Габариты 14х14х23 см, суммарная мощность 50 ватт, диапазон частот от 50 до 20 000 Гц, отношение сигнал/шум 96 дБ.

Вокруг «Станции»

По данным компании, устройство будет стоить в рознице 9990 рублей, продажи стартуют летом 2018 года. На 10 июня точная дата появления колонки в рознице еще не названа, при этом потенциальные пользователи могут оставить заявку на уведомление о старте продаж. Очевидно, это сделано для оценки платежеспособного спроса и составления адекватной производственной программы. Но уже сейчас компания запустила стимулирующую маркетинговую программу: каждый владелец колонки получит год бесплатной подписки на сервис «Яндекс.Музыка», год просмотра фильмов на «КиноПоиске» без рекламы и другие возможности подписки «Яндекс.Плюс», а также подписку на три месяца в «Амедиатеке» и на два месяца — в онлайн-кинотеатре ivi.

Запуская «Яндекс.Станцию», в компании делают шаг к созданию полноценной цифровой экосистемы сервисов, которая складывается вокруг голосовых помощников за рубежом. Речь здесь идет как об управлении устройствами умного дома (и «Алиса» в ближайшем будущем будет способна включить свет, стиральную машину или микроволновку), так и о коммерческих сервисах — заказе билетов, доставке еды из ресторанов или продуктов из онлайн-магазинов. Этой весной «Яндекс» запустил платформу «Яндекс.Диалоги» — с ее помощью сторонние разработчики могут добавлять голосовому помощнику новые навыки — фактически это прикладные коммерческие сервисы от множества поставщиков.

Из слов Михаила Биленко следует, что целиком перенести на российский рынок маркетинговое позиционирование умных колонок лидеров в этой области — Google или Amazon — не удастся. «Нужды рынков очень разные. Если посмотреть, как маркетируется умная колонка в Северной Америке, то там самый популярный сценарий — это управление умным домом: людям рассказывают, как с ее помощью выключать у себя на другом этаже свет. И это сценарии, которые в России для абсолютного большинства людей пока нерелевантны. Нам нужны другие вещи», — подчеркивает глава управления машинного интеллекта «Яндекса».

В компании признаются, что не знают, какие именно «вещи» вокруг российской колонки окажутся самыми востребованными у потребителей. Но верят создатели «Станции» «и в музыку, и в видео, и в телесмотрение, и в умный дом». «Везде любят музыку, но в России, действительно, много меломанов», — уточняет один из рыночных фокусов Михаил Биленко. Но телезрителей у нас еще больше, а это означает, что именно уникальная для смарт-колонок способность «Яндекс.Станции» непосредственно воспроизводить найденный в сети видеоконтент может определить ее рыночную судьбу.