Важную роль при исследовании взаимосвязей между статистическими выборками кроме корреляционного и дисперсионного анализа играет регрессионный анализ. Регрессия позволяет проанализировать воздействие на какую-либо зависимую переменную одной или более независимых переменных и позволяет установить аналитическую форму (модель) этой зависимости в виде аппроксимирующего полинома.
Если рассматривается зависимость между одной зависимой переменной Y и несколькими независимыми то речь идет о множественной линейной регрессии. В этом случае уравнение регрессии имеет вид:
где a1, a2, …, an - коэффициенты при независимых переменных, которые нужно вычислить (коэффициенты регрессии), a0 –константа.
При построении регрессионной модели важнейшими моментами являются оценка ее адекватности (эффективности) и значимости, на основании которых можно судить о возможности применения в практике полученной модели.
Мерой оценки адекватности регрессионной модели является коэффициент детерминации R2 (R-квадрат), который определяет, с какой степенью точности полученное уравнение регрессии аппроксимирует исходные данные.
Значимость регрессионной модели оценивается с помощью критерия Фишера (F – критерия). Если величина F – критерия значима (р < 0,05), то регрессионная модель является значимой.
В MS Excel можно аппроксимировать экспериментальные данные линейным уравнением до 16 порядка. Для вычисления коэффициентов регрессии служит инструмент Регрессия, который можно включить следующей последовательностью операций:
1. На ленте Данные в группе Анализ кликнуть на пиктограмме Анализ данных (Data Analysis).
2. В раскрывшемся окне диалога Анализ данных (Data Analysis) выбрать из списка строку Регрессия (Regression) – раскроется окно диалога Регрессия (Regression) .
3. В окне диалога Регрессия группе Вход (Input) в поле Входной интервал Y (Input Y Range) указать адресную ссылку на диапазон, содержащий значения зависимой переменной, а в поле Входной интервал Х ( (Input X Range) ) – ссылку на диапазон, содержащий значения независимых переменных, т.е. переменных влияние которых на зависимую переменную Y оценивается. Установить флажок Метки (Labels), если исходная таблица имеет названия столбцов и флажок Константа-ноль(Constant is Zero), если а0=0.
4. В группе Параметры выхода (Output Options)указать адресную ссылку на ячейку рабочего листа, которая будет являться верхней левой ячейкой результирующей таблицы.
5. Если необходимо получить визуальную картинку отличия экспериментальных точек от предсказанных регрессионной моделью, то установить флажок График подбора.
6. Если нужно получить график нормальной вероятности, то установить флажок График нормальной вероятности (Normal Probability Plots).
7. В выходном диапазоне после выполнения вычислений отображаются результаты дисперсионного анализа, коэффициенты регрессии, стандартная погрешность вычисления Y, среднеквадратичные отклонения, количество наблюдений, стандартные погрешности для коэффициентов.
Значения коэффициентов регрессии размещаются в столбце Коэффициенты:
• Y- пересечение a0;
• X1 - a1;
• X1 – a2 и т.д.
В столбце Р – Значение содержится оценка достоверности отличия соответствующих коэффициентов от нуля. Если P > 0,05, то коэффициент можно считать нулевым. Это означает, что соответствующая независимая переменная практически не влияет на зависимую переменную.
Значение R – квадрат определяет, с какой степенью точности регрессионное уравнение будет аппроксимировать экспериментальные данные. Если R – квадрат > 0,95, то точность аппроксимации высокая. При 0,8< R – квадрат < 0,95 аппроксимация удовлетворительная. В случае, когда R – квадрат <0,6, точность аппроксимации недостаточна и модель требует улучшения.
Кроме инструмента Регрессия в MS Excel для получения параметров уравнения регрессии есть функция ЛИНЕЙН и функция ТЕНДЕНЦИЯ для получения значения Y в требуемых точках.
Пример 1. Имеются статистические данные о затратах, связанных с рекламой по телевидению, с рекламой в интернет и объеме реализации продукции в рублях, приведенные в таблице.
Требуется найти регрессионные коэффициенты для независимых переменных Расходы на рекламу по телевидению и Расходы на рекламу в интернет на объем реализации продукции и построить уравнение регрессии.
Решение.
1. На рабочем листе в диапазон A1: C8 введем данные приведенной таблицы (рис. 3).
2. Включим инструмент Регрессия.
3. В открывшемся диалоговом окне Регрессия установим параметры (рис. 1):
· Входной интервал Y (Input Y Range) – диапазон C1:C8;
· Входной интервал X ( Input X Range )– диапазон A1:B8;
· Флажок Метки (Label);
· Выходной интервал (Output Range) – адрес D1;
· Флажок График нормальной вероятности (Normal Probability Plots);
· Флажок График остатков (Residual Plots) .
4. Кликнем на на кнопке ОК - в диапазон D1:L21 будет выведен результат регрессионного анализа (рис. 2).
Полученные результаты и их интерпретация:
Коэффициент детерминации R – квадрат = 0,974641 (аппроксимация высокая).
Значимость F = 0,000643 (р < 0,05- регрессионная модель значима).
Y – пересечение a0= 2102438,6.
a1 = 6,4004 – коэффициент при независимой переменной Затраты на рекламу по телевидению.
a2 = -54,068 - коэффициент при независимой переменной Затраты на рекламу в интернет.
С учетом полученных данных функциональная зависимость величины прибыли от затрат на рекламу запишется в виде полинома:
Y= 2102438,6 + 6,4004 X1 - 54,068 X2 (1),
где Х1 – величина затрат на рекламу по телевидению, Х2 – величина затрат на рекламу в интернет.
Используя полученное уравнение регрессии можно решить задачу оптимизации прибыли или спрогнозировать ожидаемую прибыль при другом распределении средств на рекламу.
Пример 2.
Организация может истратить на рекламу по телевидению и на рекламу в интернете 170000 рублей. Требуется оптимальным образом распределить затраты на различные виды рекламы с целью получения максимальной прибыли.
Решение
Для решения задачи используем полученное уравнение регрессии (1). Математическая модель:
Целевая функция: Y= 2102438,6 + 6,4004 X1 - 54,068 X2 > max.
Ограничения: X1 + X2 <= 170000, X1>= 0, X2 >=0.
Используя инструмент Поиск решения, решим задачу. Модель и результат решения приведены на рис. 3
Полученное решение говорит о том, что максимальная прибыль будет получена, если весь лимит средств, отводимых на рекламу, будет потрачен на рекламу по телевидению.