Найти в Дзене
Дзеномания

Как помочь алгоритму Яндекс.Дзен определить тематику статьи?

Все ругают алгоритм Яндекс Дзена за то, что он неверно подбирает аудиторию. А еще, говорят, что теги в Дзене - бесполезная штука. А еще много чего говорят и пишут на заборах. Алгоритм выдает то, чем вы его кормите - он не часть нейронной сети, с фантастическим развитием, а набор программ, которые считывают информацию и обрабатывают, как могут.

Покажу на примере, как алгоритм Яндекс.Дзена определяет тематику. Возьмем для примера Полезные статьи о Яндекс.Дзен - перед публикацией я прописал ей теги:

теги в яндекс дзене
теги в яндекс дзене

Через пару апдейтов статистики появились темы, и самое главное, в списке присутствовали те темы, которые я указал.

темы в яндекс дзене
темы в яндекс дзене

Но есть один ньюанс. Заголовок статьи был не таким, как сейчас, а таким - Полезные статьи для авторов Яндекс.Дзен. После этого, статья была переименована на текущее название - Полезные статьи о Яндекс.Дзен, и ситуация изменилась.

Исчезло слово «авторов» в заголовке и пропали темы: Копирайтинг, Интернет и Полезные советы. Я пошел дальше и изменил описание статьи, заменив фразу "Сборник статей," на "Полезные советы авторам,".

карточка яндекс дзен статьи
карточка яндекс дзен статьи

И добавил к тегам «пропащие» темы и одну новую для закрепления результата:

-5

И получили новый набор тем. Появился блог, а полезные советы приказали долго жить.

-6

После этого я отправлял неоднократно статью на публикацию и заметил, что ядро Тем статьи не меняется (в моем случае - это Яндекс Дзен, IT и Яндекс), а другие темы появляются иногда в случайном виде. Выглядит это так, будто тему читают разные люди и по своему восприятию выбирают доступные варианты.

результат от новой редакции. Добавился снова Интернет
результат от новой редакции. Добавился снова Интернет

Проведя еще ряд экспериментов и анализ семантического ядра статей, а также сравнивая с результатами выдачи тем, можно смело говорить, что набор под статьей в Яндекс Дзене прямо зависит от частоты ключевых слов. И никаких нейронных сетей.

Самая популярная пара ключевых слов - ядро. Остальные попадают в этот список, неким случайным образом из менее популярных.

(полагаю, когда частота у нескольких слов/фраз одинаковая, то выбор между ними происходит случайным образом).

И на это можно влиять путем ввода ключевых, нужных слов в статье, в заголовке и в описании. Анализируйте семантическое ядро и редактируйте текст так, чтобы ядро было нужной тематики.

Единственное на что нельзя повлиять - это на "нейронную сеть" алгоритма, которая подставляет «ошибочно» сходные темы. К примеру если будет идти речь про Вконтакте, то может появиться и тема ютуб.
Но, так ли это неправильно?

-8