«Властелин колец» Толкина изучили математики СПбГУ на авторство

Исследователи Санкт-Петербургского государственного университета и Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде (Израиль) создали новые подходы компьютерного исследования для определения авторства и стиля текстов. Их метод основан на моделировании динамического процесса написания, сообщает пресс-служба СПбГУ.

Такой подход уже позволил ученым сделать анализ произведений Джона Толкина, Айзека Азимова, Артура Кларка, а также других известных писателей. Исследователи увидели изменения стилей писателей. Результаты последней работы научной группы опубликовал журнал Pattern Recognition издательского дома Elsevier.

Анализу математики подвергли известные литературные произведения: цикл научно-фантастических романов Айзека Азимова «Основание», Джона Голсуорси «Сага о Форсайтах», роман в трех томах Джона Толкина «Властелин колец» и другие произведения. Ранее авторы методы анализа изучили произведения Джоан Роулинг (цикл книг про Гарри Поттера).
Математические методы позволяют исследователям увидеть изменения особенностей стиля писателя.

В своей работе исследователи сравнили 3 книги из цикла «Властелин колец» Джона Толкина с двумя другими его произведениями — «Хоббитом» и «Сильмариллионом». Метод точно определил, что первая повесть была написана тем же автором произведений, именно этот автор и создал трилогию, а вот «Сильмариллион» отличается по стилю. Объяснение этому - книга была издана уже после смерти писателя, а сборник мифов и легенд Средиземья дорабатывал уже сын Джона Толкина — Кристофер Толкин.

Исходными данными для представленного в статье метода моделирования динамического процесса написания текстов являются не только последовательности символов текста и слова, а еще и последовательности N-грамм (связанных цепочек символов).

Новый метод определяет своеобразные «частотные характеристики» авторского стиля, которые имеют аналогию с частотами физических волн. Теперь авторы нового метода запланировали изучить и произведения русской литературы. Новый метод можно применять при анализе текстов на разных языках как на латинском алфавите, так и на кириллице и арабской графике.

Исследователи подчеркивают, что новый метод поможет анализировать и неструктурированные тексты, например, при обработке массивов данных на диспетчерских пультах или в кол-центрах при работе с клиентами. Метод позволяет определять тексты написанные человеком от текстов, написанных компьютером.