О законе Парето, неравномерности и нестабильности

Как мы и обещали, рассказываем про распределения, богатые на экстремальные значения - такие, у которых даже дисперсия и матожидание могут быть не определены. В первую очередь, про распределение Парето.

Это распределение имеет непосредственное отношение к "правилу Парето", которое он исходно сформулировал сто лет назад как "80% доходов в Италии сосредоточены у 20% семей". С философской точки правило Парето говорит, что, когда речь идёт о социуме, многие распределения очень неравномерны. А математически это часто выражается как степенной закон: вероятность того, что случайная величина превысит порог t, убывает с ростом t, как t в какой-то отрицательной степени.

выглядит степенное распределение примерно так
выглядит степенное распределение примерно так

Самые разные распределения подчиняются степенному закону: число друзей у пользователей соцсетей, количество покупок различных товаров, частота использованя слов в языке, распределение размеров городов и массы звёзд, степень цитируемости научных статей... Это заставляет задуматься, а нет ли какого-то универсального механизма, объединяющего эти процессы, и создающего экстремально неравномерные распределения?

Подобный механизм описал задолго до Парето апостол Матфей: "ибо всякому имеющему дастся и приумножится, а у неимеющего отнимется и то, что имеет". Говоря современным языком, положительная обратная связь. Чем больше звезда, тем больше в неё падает космического мусора, и тем быстрее она растёт. Чем больше в группе подписчиков, тем больше её репостят, и тем быстрее приходят новые подписчики.

В экономике подобная закономерность называется "сетевой эффект": чем больше людей пользуются продуктом, тем более полезным становится этот продукт. Например, чем больше моих знакомых пользуются Телеграмом, тем больше мне хочется тоже им пользоваться. Благодаря этому эффекту небольшое количество мессенджеров (маркетплейсов, операционных систем, провайдеров связи...) завоёвывает практически весь рынок, а остальные (коих множество) довольствуются маленькими нишами.

За счёт чего в таких ситуациях "ломается" центральная предельная теорема? Она гласит, что распределение суммы большого количества примерно одинаковых и независимых факторов похоже на нормальное. Но распределение Парето обычно появляется там, где нарушается допущение о независимости: деньги притягивают деньги, френды - френдов, цитирования статьи - новые цитирования. Тот, у кого было на старте лишь незначительное преимущество, в итоге может за его счёт вырваться далеко вперёд.

содержание статьи в одной картинке
содержание статьи в одной картинке

Осталось объяснить, что значит "не существует матожидания (среднего)". Если говорить о генеральной совокупности, в которой действует формула функции распределения, это означает несходимость интеграла. Напомним, чтобы рассчитать матожидание, нужно усреднить все возможные значения X случайной величины по плотности f(X), то есть проинтегрировать величину X*f(X). Так вот, если показатель степени k из формулы Парето меньше 1, то этот интеграл равен бесконечности. То есть матожидание "неограниченно большое". 

С точки зрения выборочных оценок (статистик!) это означает нестабильность. Если матожидание существует, то действует закон больших чисел: ростом выборки среднее по этой выборке сходится всё ближе к постоянному значению (матожиданию), и возле него стабилизируется. Но если выборки берутся из распределения без матожидания, то стабилизации не происходит: с добавлением новых наблюдений среднее растёт скачками, и может расти неограниченно. 

Чтобы показать, как может выглядеть такое нестабильное усреднение, я взял список крупных городов России, и начал случайно отбирать из него всё новые города. Пока я отбирал первые 17, среднее население было стабильным, около 100 тысяч. Потом добавилась Рязань (там живут полмиллиона), и среднее по всей выборке сразу скакнуло до 130.  И стабильно где-то там было, пока 33-ей не добавилась Уфа (население чуть больше миллиона), и общее среднее прыгнуло к 165. Потом среднее скакнуло к 200, когда добавились Саратов и Казань, и ещё около 250 городов оно гуляло в районе этих 200 тысяч.  А когда казалось, что вот уже совсем среднее стабилизировалось, в выборку добавилась Москва, и среднее снова резко скакнуло, уже ближе к 300. И если бы в России было неограниченное количество городов, то и среднее по выборке продолжало бы так же неограниченно расти. Обобщаем полученный опыт: если вы имеете дело с распределением Парето, то аномальные объекты ("чёрные лебеди") могут внезапно появиться и резко изменить вам всю статистику. 

Коротенькие практические выводы из нашего рассказа: если возможны сетевые эффекты, то будьте избирательны (концентрируйтесь на самых важных запросах/клиентах/товарах/городах), и не слишком доверяйте средним значениям. Ну и вообще просто задумывайтесь о том, с каким распределением имеете дело. И да пребудет с вами power law!

P.S. Если статья пришлась вам по душе, вы можете подписаться на наш канал в Телеграме или группу ВК, или посмотреть видеолекции Матчасти.

#матчасть #математика #weirdMath #теорвер #распределения #fattail #pareto #powerlaw