2738 subscribers

Как правильно рассчитать и ПОНЯТЬ положительный или отрицательный статистический эффект от вакцинации.

566 full reads
The material mentions COVID-19. Trust verified information from expert sources — check out answers to questions about coronavirus and vaccinations from doctors, scientists and scientific correspondents.

Это график, который автор взял со страницы Яндекс-КВ-Статистика, показывает резкий скачок по числу заражений в Москве в течение последней недели. Пятая волна уже налицо, но пока в регионах РФ она проявилась не так резко. Москва, как всегда, опережает  регионы - больше сюда идет завоз вирусов из-за рубежа.
Это график, который автор взял со страницы Яндекс-КВ-Статистика, показывает резкий скачок по числу заражений в Москве в течение последней недели. Пятая волна уже налицо, но пока в регионах РФ она проявилась не так резко. Москва, как всегда, опережает регионы - больше сюда идет завоз вирусов из-за рубежа.

Предупреждение.

Уважаемые коллеги и дорогие читатели - подписчики канала "Думай. Человек"! Данная моя статья продолжает серию статей, которые я в последние дни посвятил теме "Омикрон среди вакцинированных". Возможно, что какие-то моменты в этой новой статье будут НЕ понятны читателям, которые не читали предыдущие статьи по этой теме... Данная статья написана "по мотивам обсуждения" предыдущих статей - построена на моем анализе комментариев, сделанных читателями.

Итак, давайте попробуем разобраться со следующим интересным, на мой взгляд, комментарием, который написан в жанре обычного информационного сообщения.

=============================================

Пользователь "АР" пишет (не даю здесь полное имя и фамилию комментатора, так как не успел согласовать с этим автором его разрешение на публикацию, цитирую без каких-либо своих правок) :

"Государственный институт сывороток Дании (Statens Serum Institut) в конце 2021 года опубликовал исследование, согласно которому за период с 21 ноября по 25 декабря наибольшее количество заражений новым штаммом «Омикрон» – 89,7 процента от общего числа случаев заболевания – пришлось именно на прошедших вакцинацию граждан". ( С )"

===========================================

Давайте с этим разбираться. Это характерный способ подачи статистической информации - вполне типичный. Сообщается только ОДИН числовой показатель в процентах - процент вакцинированных среди зараженных. Я уже на раз ставил здесь вопрос так: А может ли этот один показатель что-либо доказывать? - Мой ответ однозначный: НЕТ НЕ МОЖЕТ. Надо обязательно узнать, какой Фоновый Показатель, с которым данный показатель надо сравнивать. Что такое "фоновый показатель" (или "База сравнения", как ее еще называют)? -Вот с этим давайте и разберемся в этом конкретном случае.

Необходимо узнать, во-первых, а каков процент охвата населения Дании вакцинацией. К счастью, эти данные по разным странам мы легко находим в указанном выше разделе главной страницы Яндекса - "КВ-Статистика".

На этой странице Яндекса мы видим, что Дания находится на 21 месте в мире по доле вакцинированного населения, которая составляет почти 82% на 13 января 2022. Для сравнения Россия идет на этом сайте в десятом десятке - на 94 месте (47% охвата).
На этой странице Яндекса мы видим, что Дания находится на 21 месте в мире по доле вакцинированного населения, которая составляет почти 82% на 13 января 2022. Для сравнения Россия идет на этом сайте в десятом десятке - на 94 месте (47% охвата).

Ну вот теперь мы понимаем, что доля вакцинированных среди зараженных в Дании все-таки превышает долю вакцинированных по стране. Ведь есть страны, как мы видим, у которых процент охвата уже выше 90%, но это не Дания.

Далее считаем "добавочную вероятность", или иными словами дополнительный процент по числу заражений, которым "отличились" вакцинированные от общего уровня: 90% - 82% = 8%. Еще раз растолкуем, что именно означают эти дополнительные 8%. - Это отрицательный эффект от вакцинации, которая, как мы видим, не только не защищает от вируса "омикрон", приводит к РОСТУ числа заражений. Напомним, что именно "омикрон" отвечает за новую волну, которая началась в декабре 2021 и в Дании, как и во всей Европе; как мы уже знаем из опыта предыдущих волн, западно-европейские страны опережают Москву по началу новой волны примерно на 1 месяц, также как Москва опережает "российскую глубинку" примерно на полмесяца.

Но ... получить 8% - этого еще недостаточно для понимания ситуации. Мы ведь не знаем, много ли это или мало. Если за указанный период (огрубленно это декабрь-месяц) в Дании заболело много тысяч человек - это одна ситуация, а если это только одна сотня человек - это другая. Во втором случае (в случае малой выборки) различие в 8 человек можно было бы посчитать случайностью. Поэтому нам необходимо "добыть" информацию о том, а сколько именно зараженных оказалось в Дании и именно в период с 21 ноября по 25 декабря 2021 года.

График на DataLens является накопительным. Чтобы получить число заражений за какой-то период - надо кликнуть в точку на графике, соответствующую началу периода, снять информацию, а затем кликнуть в другую точку, соответствующую оконачанию периода. После этого подсчитать разность.
График на DataLens является накопительным. Чтобы получить число заражений за какой-то период - надо кликнуть в точку на графике, соответствующую началу периода, снять информацию, а затем кликнуть в другую точку, соответствующую оконачанию периода. После этого подсчитать разность.

Оказалось, что добыть эту информацию мы можем не только без поездки в Копенгаген, но и без знания датского языка (что было бы необходимо, чтобы "гулять по датским сайтам"). Яндекс на своих страницах информирует, что больше статистической информации по странам пользователи могут получить на специальных страницах, объединенных названием Яндекс Data Lens. Там можно по графикам отследить, сколько заразилось человек в каждой стране в любом интервале времени по дням пандемии. Там мне удалось найти, что в этом промежутке в Дании появилось: 692 тысячи минус 454 тысячи равно 238 тысяч больных КВ-19 (зараженных). Таким образом, на этом множестве в 238 тысяч эффект в виде дополнительных 8 процентов (округляем до целых) среди вакцинированных (90% минут 82%) означает, что вакцинация привела к появлению в Дании 19 тысяч дополнительных больных. То есть если бы вакцина совсем не "вредила" и было бы ПРОПОРЦИОНАЛЬНО больных среди вакцинированных и невакцинированных (пропорционально их доле среди населения страны), то было бы 195 тысяч больных среди вакцинированных (фоновое ожидаемое число больных), но получилось 214 тысяч, что на 19 тысяч больше.

Пояснение для пытливых. Вы сами можете все то же самое повторить, что сделал я. Вы можете найти эти данные на указанных мной страницах. А главное - можете сами рассчитать так называемое "фоновое, ожидаемое число заражений", умножив 238 тысяч на 0,82 (на долю вакцинированных в стране). Именно этот коэффициент заражения дает нам цифру 195 тысяч - фоновый показатель в натуральном выражении, то есть ожидаемое число зараженных при том условии, когда вакцинация дает "нулевой эффект" - не помогает, но и не "вредит" (не снижает уровень защищенности).

А ПРИЧИНЫ?

Но... для грамотной работы со статистикой, надо сделать еще одно интеллектуальное усилие: надо не просто получить "механическую цифру" (в виде добавочного процента), но постараться дать содержательное объяснение, то есть ПОНЯТЬ, как факторы могут объяснить появление этой цифры. Вот тут у нас, если себя не обманывать, на самом деле возникает не одна гипотеза ("вакцина вредит"), а две интерпретирующие гипотезы:

А) Вакцина повреждает иммунитет - укрепляя его в отношении штамма "дельта" (что в слабой степени было зафиксировано во многих странах), НО... снижает в отношении нового штамма - "омикрон" (разумеется, Дания - это лишь один из множества примеров, ибо незащищенность вакцинированных в отношении "омикрона" стало реальным фактом во множестве стран; со своими разными национальными особенностями по сбору статистики страны мало отличаются в одном - вакцинация НЕ защищает от заражения "омикроном", о чем я публиковал и анализовал здесь многочисленные графики по странам). Таким образом, возможный фактор А в нашем многофакторном анализе - это ФАКТОР ИММУНИТЕТА.

Б) гипотеза Б гласит: отрицательный эффект вакцинации связан не с особенностями взаимодействия вируса и вакцинированного организма, а с особенностями СОЦИАЛЬНОГО ПОВЕДЕНИЯ вакцинированных (вакцинированные, полагая, что они защищены, начинают вести себя менее осторожно - например, здороваться за руку и даже обниматься при встрече). Так что мы не можем отрицать возможный фактор Б - ФАКТОР ПОВЕДЕНИЯ. Кстати, если бы отрицательный эффект измерялся бы в десятках процентов (составлял бы 30-50 процентов). то мы точно должны были бы признать главным фактор А, но эффект в 8 процентов позволяет предположить, что работает негативно главным образом фактор Б - фактор поведения.

Вот так работают у настоящих ученых (не купленных никем) многофакторное мышление. Они не сужают поле возможных факторов - таких, которые могут объяснить полученный статистический факт. В данном случае я предложил всего 2 фактора, но в общем случае их может быть и больше двух. И все эти факторы могут влиять на ситуацию ПАРАЛЛЕЛЬНО, то есть одновременно и относительно независимо друг от друга.

ЗАКЛЮЧЕНИЕ

Поделюсь, дорогие читатели, своей "голубой мечтой". Дело в том, что журналисты (да и политики, которые мало отличаются от журналистов) во всех странах занимаются "ерундой" и вводят в заблуждение малопросвещенную публику: они пугают народ какой-то выхваченной из контекста одной цифрой - одним процентованным показателем. Пугают в ту или другую сторону (то пугают ваксеров, то пугают антиваксеров и собирают свои желанные "клики"). Услышав (или прочитав) цифру в размере "89,7% вакцинированных среди зараженных" люди, не вдумываясь, начинают паниковать - ошибочно полагают, что вред от вакцинации достигает чуть ли не 90%. При этом они напрочь забывают про так называемые "пропорции", которые требуется изучить хотя бы чуть-чуть в средней школе и на совсем забыть во взрослом возрасте. Надо не ограничиваться одной цифрой. но узнать "фоновый показатель". А вот как раз этот фоновый показатель журналисты нам не сообщают, и его приходится добывать.

Я показываю, как это надо делать - пытаюсь вооружить вас "удочкой", а не кормлю уже пойманной "рыбой", то есть готовыми выводами без методики их получения. Если из числа 2000 подписчиков моего канала (а сегодня мы достигли этого показателя) найдутся хотя бы 200 человек (заветные 10 процентов - верхний дециль), которые не только поймут статью, но научатся сами сравнивать целевой и фоновый показатели, то я был посчитал свою задачу выполненной. Понимаете меня? Если понимаете и смогли понять всю нехитрую процедуру так, что сможете ее повторить (перепроверить меня), то напишите, пожалуйста, сигнал "+1" в своем кратком комментарии. Я очень и очень Вас об этом прошу. Без этого мне трудно продолжать - без информации о том, что труд мой дает какой-то эффект.

Кое-кто считает, что мне за это платят. Не смешите меня, пожалуйста. У нас в стране за "удочку" никто не любит платить. Большинству подавай готовый рецепт ("рыбу"), ибо "удочка" еще не известно как сработает: может сработать против бизнес-интересов (или политических интересов) определенной платежеспособной элитной группы. Вот почему за "удочку" у нас не платят. Понятно?


СЕРДЕЧНОЕ СПАСИБО ВСЕМ, кто уже дал сигнал "+1" на мои прежние публикации.

P.S.

В этой статье я попытался описать "удочку" и произвести расчеты БЕЗ построения в явном виде так называемой ЧТС - "четырехклеточной таблицы сопряженности". Я убедился (еще раз в своей жизни), что даже простейшее дискретное пространство из четырех клеточек "2 на 2" не помогает большинству читателей, а, увы, только мешает ПОНЯТЬ. Впрочем, заполнить все четыре клеточки - добыть информацию о частоте всех четырех случаев - на самом деле очень непросто. Какие это четыре случая? Это:

А - число вакцинированных среди зараженных в стране,
В - число непривитых среди зараженных в стране,
С - число вакцинированированных среди избежавших заражение в стране,
D - число непривитых среди избежавших в стране.

Именно 4 показателя А-B-C-D позволяют применить строгие, научные методы оценки статистической значимости эффекта (коэффициент сопряженности) и сделать надежные выводы с точки зрения теории вероятности и матстатистики. Скажите, где у нас эти данные по РФ публикуются? Кто-нибудь назовет сайт, где есть частотные данные про А-B-C-D?

P.S.

Итак, именно эту статью - наиболее АРИФМЕТИЧЕСКУЮ, как вижу, уже ограничивают в количестве показов. В комментариях "группа ваксеров" открыто сформулировала свое намерение добиваться блокировки моих статей, воспринимая их как "математическую подтасовку" (или отдельные представители этой группы, выдающие себя за "уполномоченных"). Это всё позиционная (политическая), а не предметная критика, очевидно. Желательная предметная критика - это та, которая содержит опровержения либо входных данных, либо выкладок, которые я сделал на их основе. Я показал в статье все источники, которым воспользовался. Это сообщение моего читателя о том, что 89,7% из числа зараженных "омикроном" в Дании оказались вакцинированными. Остальное - это все данные из Яндекс-медстатистики. И я показал все источники, откуда их получил. До коли у нас буду доминировать люди с предубеждениями над людьми, которые занимают ИССЛЕДОВАТЕЛЬСКУЮ ПОЗИЦИЮ?! Надо бы дать свое отдельное имя для тех, кто выступает за "добровольную вакцинацию". Пока этого имени нет, возникает все время неправильное понимание, будто есть только две возможны позиции. Надо бы назвать умеренных "добровольцами", что ли? "Добровольцы" - это те, кто не примыкает ни к радикальным "ваксерам" (для которых все изначально и давно ясно, что надо 100 процентов людей принуждать), ни к радикальным "антиваксерам", которые только вылавливают в Интернете всевозможные данные о том, что вакцины вредны.

P.S.2

А вот пример возможной предметной критики, которую в явном виде я так и не дождался от комментаторов (вообще их число в этот раз оказалось ограниченным). Вполне возможно, что никакого негативного эффекта от вакцинации на самом деле в Дании НЕТ вовсе, то есть никаких дополнительных 19 тысяч, а есть артефакт (ложный факт) возрастной разнородности двух подмножеств - подмножества людей, которые прошли вакцинацию (это подмножество захватывает больше людей из молодых возрастных интервалов), и подмножества людей, которые оказались зараженными (это, весьма вероятно, более возрастная группа). Возможно, что в более возрастной группе доля вакцинированных выше, чем вообще в стране. Возможно, что более точный фоновый показатель равняется не 82 процентам, а именно 90 процентам (плюс-минус 3 процента - ошибка измерения). В этом случае мы должны будет сказать, что вакцина вовсе не вредна, а просто... не защищает и все.