Мир, тонущий в данных: что грозит "поколению любителей котиков"

13 June 2018

Если вам интересна динамика мирового развития, то скажу одну интересную вещь: около 90% всей информации в мире создано за последние три года. Причём такая ситуация наблюдается уже на протяжении, как минимум, последнего десятилетия: мир, подобно безумному принтеру создаёт всё новые и новые данные буквально "из воздуха". Экспонента создания информации, на которую мы попали в момент прихода к нам информационного общества, несёт нас вверх и вперёд в неизведанное будущее.

Конечно, большая часть этих данных представляет из себя самый натуральный информационный мусор. Каждую минуту люди и боты посылают друг другу более 200 миллионов электронных писем, ставят 1,8 млн. "лайков" в сети Фейсбук, строчат более 300 000 твитов в Твиттере и загружают более полумиллиона фотографий в различные онлайн-сервисы.

Любая точка нашей планеты, где есть люди, неизбежно обрастает всё большим объёмом сопутствующей ей информации, пусть часто это и будут малохудожественные и бесполезные фотографии вида "я на морьке" или "мой котейка играет с коробкой". Тем не менее, от такого вала информации никуда не деться: нужные нам данные и знания находятся именно в нём, старые способы получения нужной информации в современном мире часто сбоят и оказываются малоэффективными.

Даже если вы ищите уникальный атлас XIX века с нужными вам картами, то вы, скорее всего, окунётесь в бескрайний мир глобальной сети в его поисках. Так как в противном случае вам надо будет, как минимум, поехать в Санкт-Петербург и каким-то образом получить доступ к специальным фондам нужных вам библиотек.

Проблема такого вала информации получила наименование Big Data (дословно: "большие данные"). Приход в наш мир big data вызвал к жизни и целое направление прикладного знания, нацеленное на работу с большими данными.

Специфику работы с big data определили пока что через "проблему четырёх V", которую на русский язык можно транслировать, как "четыре С".

Совокупность (англ. volume) - общий объём данных, который уже сейчас составляет экзабайты и зеттабайты накопленной информации.

Скорость (англ. velocity) - темп создания новых данных, когда их поток из единичного источника может достигать сотни терабайт за один лишь день.

Сложность (англ. variety) - разнообразие исходных данных, которое приходится приводить к некоему "общему знаменателю" для того, чтобы хоть как-то их каталогизировать и подвергнуть последующему анализу

Смутность (англ. veracity) - неопределённость исходных данных, которая влияет на их нечёткость в даже, казалось бы, 100% определённой цифровой форме.

Конечно, большая часть людей не ощущает на себе все этого "девятого вала" больших данных. С одной стороны, у любого индивидуума есть возможность создать свой личный "маня-мирок", в котором его индивидуальное восприятие будет отрезано от феномена big data. Никто ведь не удивляется тому, что в современном цифровом мире спокойно живут племена не просто не пользующиеся мобильной связью, но и не смотрящие телевизор. С другой стороны, пока что наряду с феноменом big data человечество успевает создавать "обрамляющие" его системы. Вопрос, скорее состоит в умении ими пользоваться. В противном случае вы рискуете попасть в ловушку "первой страницы поисковой выдачи Google", согласно которой 95% всех кликов по ссылкам поискового запроса приходятся именно на первую страницу результатов, а по первой ссылке переходят 70% сформулировавших запрос. Получается эдакая "добровольная цифровая цензура", завязанная на элементарную человеческую лень.

Но даже в том случае, если вы захотите припасть к живительному источнику стремительно накапливаемго человечеством знания, то вам надо быть готовым к тому, что вы можете просто утонуть в данных. В англоязычных источниках эта проблема именуется drinking from a firehose и переводится как "попытка напиться из гидранта".

В классической теории информации (которую, кстати, можно изучить и по бумажным книгам из начала информационной эпохи) попытка утоления жажды из такой тугой струи пожарного гидранта именуется несколько иначе: отделение полезного сигнала от шума.

При таком подходе весь совокупный вал сложных, скоростных и смутных исходных данных рассматривается вами, как некий "сырой сигнал", который вы должны уже сами разделить на "полезную составляющую" и "шум".

Только в этом случае ваша информационная жажда будет, вероятно, удовлетворена. Ну а если вы не научитесь пить из такого источника, то у меня для вас плохие новости: за бутылированную "питьевую воду" в мире будущего надо будет платить, причём платить достаточно дорого и постоянно.