Как машинное обучение помогает в работе с договорами

Анализировать сотни документов силами юристов – дорого и неэффективно. ML найдет «отклонения» в текстах договоров за секунды. Как это работает, рассказывают специалисты Digital Design.

Термин «машинное обучение», он же «ML» (Machine Learning) или «глубокое обучение» DLN (Deep Learning) еще не так давно использовался в сугубо академической среде, «население» которой едва ли насчитывало несколько сотен ученых, разбросанных по избранным университетам и лабораториям. Но к 2012 году машинное обучение вышло на передний план как перспективное технологическое направление.

Говоря простым языком, основная задача ML - обучение компьютеров путем передачи аппаратно-программным комплексам какого-то сугубо ограниченного набора знаний с возможностью их последующего накопления. Практическая потребность в ML возникла в связи с тем, что сегодня огромное количество входных данных и возможных решений становится слишком велико для анализа с помощью традиционных заранее запрограммированных систем.

ML основано на вычислительных и статистических принципах, объединяет самые разные подходы, включая теорию вероятностей, статистику, логику, вычислительную оптимизацию, поисковые методы и много чего еще. Область применения ML на данный момент распространяется на широкий круг приложений, среди которых обработка всех возможных видов данных (текст, видео, аудио), прогнозирование, распознавание образов, добыча данных (data mining), экспертные системы, робототехника и даже игры. Но нас, как поставщиков прикладных приложений, в первую очередь интересует, как ML поможет нам в решении конкретных бизнес-задач. Например, для такого почитаемого в нашей компании направления, как документооборот.

В последние годы компетенция по теме «Машинное обучение в документообороте» накапливается, что называется, по экспоненте, но реальных практических результатов, как в России, так и за рубежом, до недавнего времени было ничтожно мало. Специалисты «Научной лаборатории» Digital Design решили принять вызов и более полутора лет занимались поиском такой задачи, которая могла дать реальное бизнес-вэлью клиентам нашей компании.

Подойдя к исследованию рынка с точки зрения «В чем боль нашего клиента?», выяснили следующее: большинство компаний финансового сектора – банки, страховые компании (а это 3,81% от экономики России), объединяет проблема ежедневной обработки неимоверного количества юридических документов. В первую очередь – договоров. Продажа большинства финансовых инструментов населению (ипотека и иное залоговое кредитование, многие формы страхования) подразумевает предоставление физическим лицом значительного числа документов, в отношении которых требуется «потоковая» экспертиза их чистоты, отсутствия рисков и/или фрода. Например, в случае ипотеки – это договоры купли-продажи недвижимого имущества, договоры страхования недвижимости и заемщика, договоры оценки объекта и т.п.

Проводить скрупулезный анализ сотен страниц документов по каждой сделке силами сотен юристов слишком дорого и малоэффективно, так как у большинства сотрудников зачастую квалификация низкая, а ответственность – высокая. В результате документы либо долго обрабатываются, либо допускаются ошибки, а компании терпят убытки.

«В такой дихотомической ситуации почему бы не научить машину искать отклонения и «подсвечивать» их человеку?», – задались вопросом наши гениальные коллеги из «Научной лаборатории». Взять договорную базу клиента и натренировать алгоритм машинного обучения выделять аномалии в текстах загружаемых договоров. Так появилась идея под рабочим названием «Модуль интеллектуального анализа договоров», или попросту «Аномалии в договорах».

С чего мы начали. В качестве экспериментальных использовали две договорные базы: массив данных Digital Design и контракты, выгруженные с сайта http://zakupki.gov.ru. Текст договора извлекался из форматов .doc, .docx и .pdf. Всего было выгружено договоров: Digital Design – 10 000, http://zakupki.gov.ru – 170 000. Обработано (выделена структура): 2 000 и более 110 000 соответственно. Если вы сильно дружите с методами кластеризации, то упомяну, что в работе использовалась группа алгоритмов для перевода слов в вектора на базе Word2Vec.

Коротко о сути методологии, не вдаваясь в технологические подробности и тайну интеллектуальной собственности. На больших репрезентативных выборках выделяется единая структура для всех договорных документов, и эти юридические сущности последовательно сравниваются. После этого остается выделить разделы и «подсветить» в них аномалии. Определенные в ходе исследования типы аномалий могут быть следующими:

  • пункт/предложение, которое мы не наблюдали в аналогичных договорах, но наблюдаем в предложенном договоре​;
  • пункт/предложение, которое часто наблюдаем в аналогичных договорах, но в предложенном документе оно отсутствует​.

Что в нашем случае делает машина для выделения аномалий:

  • указывает на ранее не встречавшиеся пункты аналогичных договоров;
  • указывает на отсутствие типичных пунктов в аналогичных договорах.

А теперь о самом главном: чем же хорош разработанный нами подход для клиента?

Владельцу компании использование данной технологии поможет исключить финансовые и репутационные риски (связанные в основном с «закладками» в договорах) и значительно сократить трудозатраты. Управленцу – провести внутренний аудит, оценить проделанную сотрудниками работу и принятые ими решения, чтобы в дальнейшем предотвратить возможные риски по вине человеческого фактора. Ну а непосредственному исполнителю – снизить невнимательность, не пропустить потенциально опасную закладку в документе из-за «замыливания» глаза и в целом облегчить работу с документами.

Будем откровенны, что для начала это решение будет интересно, в первую очередь, крупным компаниям, чья база договоров каждого типа для обучения системы насчитывает не менее 10 000 документов. Но у нас далеко идущие планы. В будущем мы рассчитываем предлагать эту услугу в виде облачного решения и для среднего бизнеса. Клиенту, у которого еще нет необходимой договорной выборки, получается весьма выгодно, так как наша машина уже обучена и готова к работе. Таким образом, за небольшие деньги клиент сможет получить сервис высокоуровневого класса.

Ну что, вы с нами?