158 305 subscribers

Как новый алгоритм Дзена влияет на показы статей: итоги Дзен-понедельника, часть 3

7,1k full reads
Иллюстрация Сони Коршенбойм
Иллюстрация Сони Коршенбойм

На Дзен-понедельнике в Краснодаре менеджер службы поддержки Яндекс.Дзена Николай Муравьев объяснил, как работает алгоритм Альфа Центавра и как он влияет на работу авторов.

Азы: как работает Дзен

Алгоритмы и классификаторы Дзена анализируют интересы пользователей: например, какие сайты они просматривают, на какие статьи кликают и что ищут в поисковиках. Обрабатывая эти данные, Дзен формирует ленту пользователя таким образом, чтобы в ней были собраны материалы, интересные именно ему. Мы постоянно улучшаем эту систему, и в марте запустили новый алгоритм Альфа Центавра. Теперь Дзен еще точнее подбирает публикации пользователям и продолжает учиться дальше. Качественные публикации в Дзене стали получать больше внимания, а нишевые каналы — быстрее набирать аудиторию.

На что мы смотрим

Мы постоянно что-то меняем ради удобства пользователей, чтобы платформа Дзен росла и становилась качественней. Поэтому мы совершенствуем методы определения интересов, скорость формирования ленты и классификаторы качества контента.

Как новый алгоритм Дзена влияет на показы статей: итоги Дзен-понедельника, часть 3

Перед полноценным запуском алгоритма мы всегда оцениваем, как обновления влияют на пользовательские метрики потребления контента:

✅ Время, которое читатели тратят на Дзен. Чем лучше материалы сервис подбирает каждому посетителю, тем больше времени читатели проводят в нем.

✅ Число кликов пользователей в Дзене. Если обновление хорошее, то число кликов растёт, а значит алгоритм хорошо подбирает материалы для читателя.

✅ Привлекательность постов. Рост CTR (click-through rate — показатель кликабельности) у материалов означает, что рекомендации стали более точно попадать в цель.

✅ Количество лайков и дизлайков.

Что изменила Альфа-Центавра

С внедрением Альфы Центавра начал расти CTR — это значит, что мы стали лучше попадать в интересы пользователей.

К сожалению, в процессе тестирования мы обнаружили, что этот рост снижал показы качественного контента. В целом это объяснимо: более «жёлтые» материалы всегда будут иметь больший CTR.

Чтобы это исправить, мы внедрили в Альфу Центавру дополнительный фактор. Теперь алгоритм учитывает качество каждой публикации. Тем самым мы абсолютно осознанно снизили кликабельность, но эта стратегия сработала: лента с бóльшим количеством качественных материалов получает больше лайков.

Как новый алгоритм Дзена влияет на показы статей: итоги Дзен-понедельника, часть 3

Скорость и качество работы алгоритма

В начале работа алгоритма состояла из двух этапов.

✅ Система отбирала из почти миллиона публикаций тысячу статей, которые тематически соответствовали интересам аудитории. Алгоритм искал корреляции между наиболее характерными деталями статьи и другими материалами, который прочитал пользователь, а также анализировал его подписки и историю посещений. Это называется неполное сравнение.

✅ Потом из тысячи публикаций алгоритм формировал набор статей, которые показывали пользователю. Это было уже более глубокое сравнение: публикации сравнивались между собой и с интересами пользователя.

Но и в таком подходе была проблема: данные обрабатывались быстро, и алгоритм иногда упускал важные параметры.

В Альфу Центавра мы добавили так называемый k-NN index. Он нужен для того, чтобы легче и быстрее обнаруживать похожие между собой материалы. Теперь с помощью этого подхода система гораздо быстрее признает целые кластеры публикаций нерелевантными для пользователей и не показывает им эти статьи.

Месяц с Альфой Центавра: первые результаты

Во-первых, публикации в лентах пользователей стали разнообразнее. Теперь горячие новости меньше отвлекают от длинных и качественных историй. Но это не значит, что пользователь совсем перестал видеть новости, просто теперь не зависящий от повестки контент показывается в ленте чаще. И у таких материалов теперь гораздо больше шансов позже добрать просмотры, которые они разово, на старте, «проиграли» хайповым новостям и сюжетам. А раньше система запоминала, что такие материалы менее кликабельные, из-за чего они меньше рекомендовались.

Во-вторых, из-за того что лента стала более разнообразной, а качество публикаций теперь в приоритете, растет конкуренция между каналами. Но мы обнаружили, что динамика трафика изменилась: охваты постов могут сперва резко взлететь, а потом резко упасть. С одной статьей это может происходить несколько раз.

К сожалению, текущий инструмент статистики приспособлен под сбор данных по отдельным публикациям, а важно оценивать картину целиком — как суммарно рекомендуется канал, а не отдельные статьи. Поэтому я бы советовал смотреть отчёт «посещаемость» из Яндекс.Метрики, отфильтровав посетителей так, как показано на картинке.

Как новый алгоритм Дзена влияет на показы статей: итоги Дзен-понедельника, часть 3

Наши планы

✅ В ближайшее время мы намерены исправить ситуацию, когда показы скачут то вверх, то вниз. Попробуем увеличить продолжительность более активного периода рекомендаций статей.

✅ Кроме того, мы обновим раздел статистики для авторов, чтобы они могли в любой момент видеть полную и объективную картину охватов и посещений своих каналов.

❗️ Полностью трансляцию апрельского Дзен-понедельника смотрите тут.