РЭШ
483 subscribers

Пять типичных ошибок при анализе данных

366 full reads

Пять типичных ошибок при анализе данных

Анализ статистических данных сейчас используется повсеместно. Тем не менее, далеко не все выводы делаются корректно. Как отличить адекватные исследования от манипуляций в своем выступлении на Экономическом лектории Российской экономической школы рассказала профессор РЭШ Ольга Кузьмина.

Знание основных «ловушек» поможет разобраться, как правильно интерпретировать данные и делать выводы на их основе, каким исследованиям можно доверять и как быть уверенным в том, что определенная стратегия действительно имеет предполагаемый эффект. Ольга Кузьмина дает пять советов о том, как не попасть впросак.

1. «Не каждая корреляция является истинной»

Базовая мера статистической закономерности называется корреляцией. Например, «в странах с более высоким ВВП люди чувствуют себя счастливее» – это простая корреляция. Но статистические закономерности, которые выявляются таким образом, могут быть не только истинными, но и ложными. Вот один из примеров: годовые данные о числе людей, которые утонули в США в бассейнах, положительно коррелируют с числом фильмов, которые в том же году вышли с участием Николаса Кейджа.

«Ложные корреляции нередко можно найти и в менее абсурдных примерах – в частности, в финансовых данных или временных рядах. Поэтому даже если мы нашли некую статистическую взаимосвязь, это совершенно не значит, что рассматриваемые переменные каким-то осмысленным образом связаны друг с другом», говорит Ольга Кузьмина.

2. «Корреляция не равно причинно-следственная связь»

Принципиальное отличие корреляции от причинно-следственной связи заключается в том, что корреляция – это симметричная статистическая взаимосвязь, а причинно-следственная связь – это направленный эффект, оказываемый одной переменной на другую.

«Предположим, мы обнаружили, что люди с большим уровнем образования зарабатывают больше. Значит ли это, что это действительно происходит из-за того, что у этих людей более высокий уровень образования? Другой пример: допустим, что компании с большей долей женщин в совете директоров стоят больше. Но значит ли это, что они стоят больше именно из-за того, что женщины принимают более правильные и оптимальные решения?»

3. «Не каждая корреляция выживет при учете дополнительных факторов»

Простая корреляция не учитывает другие факторы, которые потенциально могут влиять на ситуацию. Причинно-следственная связь же предполагает, что влияние всех прочих факторов устранено. Статистическим учетом наблюдаемых факторов, которые потенциально могут объяснить корреляцию, занимается эконометрика.

«Возможно, есть какие-то другие факторы, объясняющие, почему люди с высшим образованием получают больше? Например, фактор способностей: люди, которые изначально более способны, больше хотят поступать в хорошие вузы. Поэтому, возможно, эта корреляция между образованием и зарплатами объясняется изначальным уровнем способностей».

4. «После» не значит «вследствие»

Не стоит слепо интерпретировать данные, полученные в результате сравнения «до» и «после», потому что «после» не значит «вследствие». Даже если нам кажется, что все учтенные факторы (фактор способностей, фактор мотивации) не изменились со временем – до поступления в вуз и после его окончания – мы могли не учесть другие причины изменения заработных плат во времени.

«Казалось бы, почему просто не сравнивать зарплаты до и после, и на основе этого не делать вывод о том, что образование действительно повлияло на зарплаты? Тем не менее, может быть много других причин, почему зарплаты росли со временем: менялся рынок труда, возраст человека, его интересы, опыт. Все это само по себе могло способствовать увеличению зарплаты, даже если бы человек не получил высшего образования».

5. «Ошибка выжившего»

Даже хороший эксперимент, а уж плохое исследование и подавно, может пострадать от отсева и его крайнего случая - «ошибки выжившего». В эту ловушку интерпретации данных попадают те, кто делает вывод об эффекте того или иного решения только на основе выборки данных, которая образовалась не случайным образом. Например, ошибочно делать выводы по данным только о тех фирмах, которые существуют сейчас – не учитывая тех, которые закрылись.

«Предположим, когда пришло время измерять зарплаты участников эксперимента об эффекте образования на зарплаты, с некоторыми из них не удалось связаться. Возможно, они эмигрировали в другую страну или ушли в теневой сектор. Если окажется, что эмигрировали те люди, для которых эффект от обучения был наивысшим, то оценка эффекта образования, учитывающая только оставшихся, будет заниженной. А если окажется, что в теневой сектор уходят те, для кого образование не возымело большого эффекта, то эффект, напротив, будет завышен. При этом ни в том, ни в другом случае мы не имеем данных, чтобы проверить, как именно судьба тех, кто не попал в выборку, повлияла на итоговые выводы – эффект «ошибки выжившего» может быть непредсказуем».

Выводы

Ключ к адекватному и полному исследованию – это стремление задаваться важными и интересными экономическими вопросами, а не отталкиваться от случайных корреляций и слепого перебора данных. Во-вторых, нужно уделять особое внимание дизайну исследования: то, как оно проводится, не менее важно, чем статистический и эконометрический анализ.

Около 30 лет назад в экономике произошла революция доверия, в результате которой распространился экспериментальный метод. «Золотой стандарт» современных исследований – это рандомизированный эксперимент, при котором участников делят на в экспериментальную и контрольную группу. В медицине так проводятся клинические испытания новых лекарств, а в маркетинге – А/Б тестирование (например, чтобы понять, какие из рекламных баннеров работают лучше).

В экономике экспериментальный метод не всегда возможен этически или слишком дорог. Поэтому исследователи стараются искать «случайности» в обычной жизни. Например, экономисты любят проверять данные на близнецах, которые родились в одно время в одной и той же семье и растут в одинаковой среде.

Учет всех этих советов, адекватная постановка научного вопроса и серьезный подход к дизайну исследования позволят избежать многих ошибочных выводов, связанных с анализом данных.

Видеозапись лекции Ольги Кузьминой. Презентацию можно скачать по ссылке.