Дата-сайентист и Специалист по большим данным — элита?

Раньше элитой в фирмах были программисты, теперь это data scientists (DS, дата-сайентисты, Специалисты по большим данным). Этот переход состоялся недавно. На волне «хайпа» в данную профессию потянулись многие и без математического бэкграунда.  Есть много бесплатных курсов по профессии от Яндекса, Физтеха, Coursera и edX (для понимающих английский язык, хотя на первом есть хороший курс на русском).

На самом деле дата-сайентисты, так же как и программисты занимаются обслуживанием бизнес-процессов организации. Понимание откуда организация берет деньги и как это поддерживать — это главное для специалиста. Бездумное использование нейронных сетей или трендовых алгоритмов само по себе не нужно никому. Никакой элитарности здесь нет.  А есть рутина по работе с данными —  поиск выбросов, проверка согласованности.

Обычные рабочие процессы для исследователя:

  • идентификация проблем поиска (совместно с разработчиками и менеджерами );
  • анализ существующих решений;
  • разработка новых наукоемких решений;
  • проведение экспериментов;
  • написание статей, описывающих эти решения и эксперименты.

А вот что обычно требуется для data scientists:

  • Высшее техническое образование;
  • актуальные знания хотя бы в одной из этих областей: Machine Learning, Data Mining, Information Retrieval, Natural Language Processing, Social Networks;
  • желание регулярно читать и анализировать научные публикации по этим темам;
  • навыки программирования — для реализации существующих и новых алгоритмов, проведения экспериментов и создания тестовых прототипов;
  • опыт прикладного применения математической статистики, в том числе работы с сильно зашумленными данными;
  • опыт разработки на C++, Python или похожих языках программирования;
  • отличный письменный и хороший устный английский язык.
  • опыт написания научных статей
  • опыт участия в международных научных конкурсах
  • опыт участия в международных научных конкурсах

Операции с данными очень важны в финтех, ритейле и других направлениях:

  • Классический» Data Mining – позволяет решать такие задачи, как кредитный скоринг, прогнозировать вероятность брака при производстве, рассчитывать вероятность клика пользователем по баннеру.
  • Text Mining – позволяет находить закономерности в тексте, автоматически определять его тематику, понимать по посту в социальной сети – был он окрашен позитивно или негативно.
  • Обработка изображений – позволяет находить образы на фото, распознавать текст на картинке, определять, есть ли у пациента рак, на основе анализа рентгеновского снимка – и многое другое. Здесь применяются нейросети и глубокое обучение.
  • Рекомендательные системы – задачи из этой области позволяют подобрать для пользователя фильм, книгу или товар, которые максимально соответствуют его интересам.
  • Обработка аудиосигнала

Большие данные стали новой нефтью. Особенно это заметно у гигантов ИТ (Яндекс, Гугл, Фейсбук).

Если Вам интересно ознакомиться с данным направлением вот хорошие отобранные курсы по Машинному обучению, Большим данным и DS:

В США, согласно O’Reilly Media, уровень зарплат Data Scientists может доходить до $138 тысяч в год и выше — в зависимости от уровня квалификации. Для сравнения, средняя зарплата программиста, по их же оценкам, составляет $65-80 тысяч в год. В России с каждым годом потребность в таких специалистах будет только повышаться, так как заявлен курс на цифровизацию всей экономики.

https://систематикус.рф

https://vk.com/nkosistema

https://ok.ru/anosistema