История о том как Telescope Analytics на Big Data замахнулся

20.01.2018

Для начала стоит объяснить что такое бизнес-аналитика, чем мы занимаемся и как это относится к Big Data. Бизнес -аналитика (Business Intelligence, BI) представляет собой анализ данных, генерируемых в ходе бизнес-процессов с целью повышения эффективности деятельности организации и автоматизации данных процессов.

Если перейти к конкретному примеру, то бизнес-аналитику можно проиллюстрировать на примере данных, собираемых в супермаркете. Ежедневно в больших супермаркетах регистрируются десятки тысяч транзакций с помощью кассовых аппаратов. Под транзакцией имеется ввиду факт покупки определенной корзины товаров. В чистом виде такие данные не могут быть каким - либо образом быть интерпретированы менеджментом для повышения эффективности бизнес-процессов в данном супермаркете. Однако в таких данных кроется важнейшая информация о предпочтениях потребителей. Именно на данном этапе в дело вступает бизнес-аналитика: аналитик агрегирует и представляет данные в такой форме, которая была бы пригодна для анализа. После этого все данные визуализируются, переводятся в удобные для человека графики, гистограммы и, возможно, дашборды. Но помимо описания тех процессов, которые уже произошли в организации, из данных с кассовых аппаратов можно извлечь очень полезные модели, например, модель, способную подсказать какие товары и в каком объеме необходимо закупить на следующий месяц, или, например, ассоциативные правила. Примером ассоциативного правила в данном случае будут правила, в которых будет содержаться информация о том, что клиенту стоит порекомендовать исходя из того что он уже купил или как стоит расположить товары на полке. Так ассоциативные правила позволяют продавать значительно больше, а значит повышать эффективность организации.

Условно всю бизнес-аналитику можно разделить на три направления:

1. Дескриптивная аналитика (descriptive analytics). Представляет собой описание тех процессов, которые уже произошли в организации. При этом основным инструментарием является визуализация данных процессов

2. Предикативная аналитика (predictive analytics). Данный раздел бизнес-аналитики позволяет строить различные математические модели, способные повысить эффективность деятельности организации. Например, ассоциативные правила, модели классификации, регрессии или кластеризации.

3. Прескриптивная аналитика (prescriptive analytics). Относительно сложный раздел, занимающийся поиском оптимальных решений. Причина сложности заключается в первую очередь в наименьшей детерминированности процесса решения подобных задач.

Теперь о том как бизнес-аналитика соотносится с Big Data. Ключевая идея Big Data не в том, чтобы анализировать принципиально большие данные, ибо небольшие организации могу собрать достаточное количество информации о своей деятельности, которые будут общим объемом в несколько десятков гигабайт. Идея состоит в том, чтобы подвергать аналитике не отдельные стороны деятельности компании, а рассматривать все направления деятельности организации в комплексе. Таким образом аналитике подвергаются все данные, которые собираются в ходе деятельности организации, а при недостаточности организуется сбор дополнительной информации или организации новых процессов сборов информации.

Именно по этой причине Big Data представляет такой интерес для крупных и средних компаний, ибо такой подход позволяет дать информацию менеджменту организации о всех сторонах деятельности организации, построить действительно качественные модели и делать обоснованные управленческие решения. Ключевая проблема с которой сталкиваются компании при реализации такого подхода - это отсутствие кадров и высокая себестоимость. Наиболее оптимальным решением данных проблем является аутсорсинг Big Data, что позволяет значительно снизить издержки и повысить качество аналитики.

Сама по себе аналитика больших данных - это очень трудная и дорогостоящая деятельность. Во-первых требуются значительные вычислительные мощности, также необходима соответствующая инфраструктура и конечно же квалифицированные кадры. По этой причине мы будет идти к Big Data поэтапно:

Этап 1. Подготовка базы (20.01.18 - 18.08.18). На данном этапе необходимо подготовить и чётко выстроить процедуру аналитики данных, создать необходимые скрипты, которые помогут автоматизировать часть работы, проработать формы отчетности. Также на данном этапе будут прорабатываться все правовые вопросы.

Этап 2. Пробный запуск (18.08.18 - 01.02.19). Второй этап предназначен для развития качества предоставляемых услуг, развития навыков команды, а также проверка гипотез относительно формы предоставляемых услуг.

Этап 3. Коммерческий запуск (01.02.19). В перспективе с этой даты члены команды должны будут начать получать вознаграждение за выполняемую работу, также на данном этапе должны увеличиться возможности по обработке данных ( лимит объема данных будет увеличен до 250 ГБ, также будет допускаться загрузка из 30 источников)

Этап 4. Переход к работе с большими данными. Это заключительный и целевой этап. Во-первых, не будет ограничений на объем данных и количество источников. Во-вторых, услуги будут оказываться на основании долгосрочных договоров об оказании услуг (аутсорсинг), то есть наш сервис должен будет работать как часть компании-партнера, при этом не являясь ее частью. Также будут оказываться услуги по построению систем сбора информации, что позволит с организаций полностью снять заботы, связанные с бизнес-аналитикой и оптимизацией бизнес-процессов.

Окончание каждого этапа будет сопровождаться отчетом о результатах работы. Также периодически мы будем публиковать результаты работы, а также интересные новости в нашем блоге.