НАУЧНАЯ РАБОТА ПО ПРОВЕДЕНИЮ КОРРЕЛЯЦИОННО-РЕГРЕССИОННОГО АНАЛИЗА С ЦЕЛЬЮ ПРОГНОЗИРОВАНИЯ ДАЛЬНЕЙШИХ РЕЗУЛЬТАТОВ - Студенческий научный форум

VI Международная студенческая научная конференция Студенческий научный форум - 2014

НАУЧНАЯ РАБОТА ПО ПРОВЕДЕНИЮ КОРРЕЛЯЦИОННО-РЕГРЕССИОННОГО АНАЛИЗА С ЦЕЛЬЮ ПРОГНОЗИРОВАНИЯ ДАЛЬНЕЙШИХ РЕЗУЛЬТАТОВ

Виноградова Т.Н. 1
1Финансовый университет при Правительстве Российской Федерации
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Введение

Целью данной работы является исследование на основе имеющихся статистических данных за 10 месяцев влияния некоторых показателей на конечный объем реализованной продукции некоторой фирмой, а также проведение корреляционно-регрессионного анализа с целью прогнозирования на два месяца вперед.

Таблица исходных данных представлена ниже (Таблица 1).

Таблица 1. Исходные данные

Y

Х1

X2

X3

X4

Объем реализации

Время

Затраты на рекламу

Цена товара

Средняя цена товара у другой фирмы

128

1

4,2

14

16,6

139

2

4,5

14,8

16,3

145

3

3,8

17,4

16,8

187

4

8,4

14,4

15,2

270

5

8,2

16,5

16,0

369

6

9,3

17

18,0

442

7

14,7

18,1

20,4

451

8

18,8

15,7

14,9

362

9

19,6

15,8

17,5

369

10

11,6

18,3

17,1

В ходе выполнения работы проведем следующее исследование:

  1. Осуществим двумя способами выбор факторных признаков для построения регрессионной модели, а именно: на основе анализа матрицы коэффициентов парной корреляции, а также с помощью пошагового отбора методом исключения;

  2. Оценим параметры модели, а также определим ее качество с помощью специальных коэффициентов;

  3. Проведем оценку значимости уравнения регрессии и его коэффициентов;

  4. Оценим по модели влияние факторов на объем реализованной продукции;

  5. Построим точечный и интервальный прогнозы результирующего показателя на два месяца вперед, при этом будем считать, что уровень значимости α = 0,1.

Решение

Конечной целью поставленной нами задачи является прогнозирование такого показателя, как объем реализованной продукции. Для начала работы определим факторные признаки для построения регрессионной модели.

1. Выбор факторных признаков для построения регрессионной модели

Корреляционный анализ данных

Объем реализации – это зависимая переменная Y(тыс. руб.).

В качестве независимых, объясняющих переменных выбраны:

X1 – время, месяцы;

X2 – затраты на рекламу, тыс. руб.;

X3 – цена товара, руб.;

X4 – средняя цена товара у другой фирмы, руб.;

В данной задаче количество наблюдений n = 10, количество объясняющих переменных m = 4.

Для проведения корреляционного анализа используем инструмент Корреляция (надстройка Анализ данных Excel). В результате будет получена матрица коэффициентов парной корреляции (Таблица 2).

Таблица 2. Результат корреляционного анализа

 

Объем реализации

Время

Затраты на рекламу

Цена товара

Средняя цена товара у другой фирмы

Объем реализации

1

       

Время

0,877399

1

     

Затраты на рекламу

0,865061

0,846845

1

   

Цена товара

0,562454

0,5913

0,238791

1

 

Средняя цена товара у другой фирмы

0,389359

0,246373

0,174443

0,604215

1

Анализ матрицы коэффициентов парной корреляции начнем с анализа первого столбца матрицы, в котором расположены коэффициенты корреляции, отражающие тесноту связи зависимой переменной Объем реализации с включенными в анализ факторами. Анализ показывает, что зависимая переменная, то есть объем реализации, имеет тесную связь со временем (r= 0,877399), затратами на рекламу (r=0,865061), умеренную связь с ценой товара (r=0,562454) и слабую связь со средней ценой товара у другой фирмы.

Затем перейдем к анализу остальных столбцов матрицы с целью выявления коллинеарности. Факторы Х1 и Х2 тесно связаны между собой (r=0,846845), что свидетельствует о наличии коллинеарности. Из этих двух переменных оставим Х1 – время, так как rx1y= 0,877399 > rx2y = 0,865061.

Таким образом, на основе анализа только корреляционной матрицы остаются три фактора – Время, Цена товара и Средняя цена товара у другой фирмы(n = 10, k =3).

Теперь произведем отбор факторных признаков для построения регрессионной модели методом исключения. Для проведения регрессионного анализа используем инструмент Регрессия (надстройка Анализ данных в Excel). На первом шаге строится модель регрессии по всем факторам.

Фрагмент протокола регрессионного анализа приведен в Таблице 3.

Таблица 3. Модель регрессии по четверым факторам

После построения уравнения регрессии и оценки значимости всех коэффициентов регрессии из модели исключают тот фактор, коэффициент при котором незначим и имеет наименьший по абсолютной величине коэффициент t, а именно Х1. После этого получаем новое уравнение множественной регрессии и снова производим оценку значимости всех оставшихся коэффициентов регрессии (Таблица 4).

Таблица 4. Модель регрессии по трем факторам

Снова исключаем фактор с наименьшим значением t-критерия, то есть Х4 . Получаем новое уравнение множественной регрессии и снова производим оценку значимости всех оставшихся коэффициентов регрессии. (Таблица 5).

Таблица 5. Модель регрессии по двум факторам

Получено уравнение регрессии, все коэффициенты которого значимы. Значение t-критерия составляет 2,364624 (при α = 0,05 и n – k – 1 = 7 степенях свободы). Итоговая модель включает в себя такие факторы как Затраты на рекламу и Цена товара. (n = 10, k =2).

Для дальнейшего анализа необходимо выбрать лучшую модель. Для этого воспользуемся тестом на выбор «длинной» и «короткой» регрессии. Этот тест используется для отбора наиболее существенных объясняющих переменных. Иногда переход от большего числа исходных показателей анализируемой системы к меньшему числу наиболее информативных факторов может быть объяснен дублированием информации, из-за сильно взаимосвязанных факторов. Стремление к построению более простой модели приводит к идее уменьшения размерности модели без потери ее качества.

Рассмотрим две модели регрессии:

yi = β0 + β1 xi1 + … + βk xik + εi (длинную),

yi = β0 + β1 xi1 + … + βk xik–q + εi (короткую).

Предположим, что модель не зависит от последних q объясняющих переменных и их можно исключить из модели. Это соответствует гипотезе

H0: βk–q+1 = βk–q+2 = … = βk = 0,

то есть последние q коэффициентов βi равны нулю.

Алгоритм проверки следующий:

1. Построим по МНК «длинную» регрессию по всем факторам Х1, Х3 и Х4 и найдем для нее сумму квадратов остатков ESSдлин.

 

df

 

MS

F

Значимость F

Регрессия

3

118939,7

39646,58

8,292567762

0,01483062

Остаток

6

28685,86

4780,977

   

Итого

9

147625,6

     

2. Построим по МНК «короткую» регрессию по первым (kq) факторам Х2 и Х3 и найдем для нее сумму квадратов остатков ESSкор.

 

df

 

MS

F

Значимость F

Регрессия

2

130300,8

65150,38

26,3236379

0,000553702

Остаток

7

17324,83

2474,976

   

Итого

9

147625,6

     

3. Вычислим F-статистику:

Значение F-наблюдаемое равно: -2,3763

Значение F-табличное составляет: 5,591448

4. Если Fнабл > Fтабл(α, ν1 = q, ν2 = n – k – 1), то гипотеза отвергается (выбираем «длинную» регрессию), в противном случае – «короткую» регрессию.

По полученным результатам выбираем «короткую» регрессию.

2. Оценка параметров модели. Экономическая интерпретация коэффициентов регрессии

В результате применения различных подходов к выбору факторов пришли к выводу о необходимости включения в модель двух факторов – Затраты на рекламу и Цена товара.

Уравнение зависимости объема реализации от затрат на изготовление и цены товара можно записать в следующем виде:

У= - 407,54 + 17,136*Х2 + 31,9179*Х3

Результаты работы с инструментом Регрессия (рис. 1)

коэффициент регрессии j показывает, на какую величину в среднем изменится результативный признак Y, если переменную xj увеличить на единицу измерения.

В нашем исследовании величина, равная 17,136 (коэффициент при х2), показывает, что при увеличении затрат на рекламу на 1000 руб. объем реализации увеличится на 17,136 тыс. руб., а если на 1% увеличится цена товара, то объем реализации увеличится на 31,9179 тыс. руб.

Для оценки качества модели множественной регрессии вычисляем коэффициент детерминации R2 и коэффициент множественной корреляции R. Чем ближе к 1 значение этих характеристик, тем выше будет качество модели.

Значение коэффициентов детерминации и множественной корреляции можно найти в таблице Регрессионная статистика (рис. 1) или вычислить по формулам:

а) коэффициент детерминации:

Он получился равным 0,882643425.

Коэффициент детерминации показывает долю вариации результативного признака под воздействием изучаемых факторов. Следовательно, около 88,3% вариации зависимой переменной учтено в модели и обусловлено влиянием факторов, включенных в модель;

б) коэффициент множественной корреляции представляет собой корень из коэффициента детерминации, который равен соответственно 0,939491046.

Коэффициент множественной корреляции показывает высокую тесноту связи зависимой переменной Y с двумя включенными в модель объясняющими факторами.

Точность модели оценим с помощью средней ошибки аппроксимации, которая определяется формулой:

Получили ее равной 12,44812%. Модель неточная. Фактические значения объема реализации отличаются от расчетных в среднем на 12,45%.

3. Оценка значимости уравнения регрессии и его коэффициентов

Проверку значимости уравнения регрессии произведем на основе F-критерия Фишера, который определи по формуле:

Получили результат 26,32363792.

Значение F-критерия Фишера можно найти в таблице Дисперсионный анализ протокола Еxcel (см. рис. 1).

Табличное значение F-критерия при α = 0,05 и числе степеней свободы, равном ν1 = k = 2 и ν2 =n – k – 1= 10 – 2 – 1 = 7 составляет 4,737414128.

Поскольку Fрасч > Fтабл, уравнение регрессии следует признать значимым, то есть его можно использовать для дальнейшего анализа и прогнозирования.

Оценку значимости коэффициентов полученной модели, используя результаты отчета Excel, можно осуществить тремя способами. Коэффициент уравнения регрессии признается значимым в том случае, если:

1) наблюдаемое значение t-статистики Стьюдента для этого коэффициента больше, чем критическое (табличное) значение статистики Стьюдента (для заданного уровня значимости, например, α = 0,05 и числа степеней свободы df = n – k– 1, где n число наблюдений, а k – число факторов в модели);

2) Р-значение t-статистики Стьюдента для этого коэффициента меньше, чем уровень значимости, например, α = 0,05;

3) доверительный интервал для этого коэффициента, вычисленный с некоторой доверительной вероятностью (например, 95%), не содержит ноль внутри себя, то есть если нижняя 95% и верхняя 95% границы доверительного интервала имеют одинаковые знаки.

Значимость коэффициентов и проверим по второму и третьему способам, используя данные рис. 1:

Р-значение()= 0,00065557 < 0,05.

Р-значение() = 0,02539002 < 0,05.

Следовательно, коэффициенты и значимы при 5%-ном уровне.

Нижние и верхние 95% границы доверительного интервала имеют одинаковые знаки (см. рис. 1), следовательно, коэффициенты и значимы.

4. Оценка влияния факторов, включенных в модель, на объем реализации

Учитывая, что коэффициент регрессии невозможно использовать для непосредственной оценки влияния факторов на зависимую переменную из-за различия единиц измерения и разной колеблемости факторов, используем:

  1. коэффициенты эластичности:

Э2 = 0,61730493

Э3 = 1,80667361

Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная при изменении фактора на один процент.

  1. бета-коэффициенты:

β2 = 0,77493968

β3 = 0,37740559

Бета-коэффициент показывает, на какую часть величины среднеквадратического отклонения меняется среднее значение зависимой переменной с изменением независимой переменной на одно среднеквадратическое отклонение при фиксированных на постоянном уровне значениях остальных независимых переменных. Среднеквадратическое отклонение можно вычислить с помощью функции СТАНДОТКЛОН.

  1. дельта-коэффициенты:

2 = 0,7595026

3 = 0,2404974

Дельта-коэффициент показывает долю влияния фактора в суммарном влиянии всех факторов.

Вывод: на объем реализации более сильное влияние оказывает фактор Затраты на рекламу.

  1. Прогнозирование объема реализации на два месяца вперед

Прогнозируемое значение переменной получается при подстановке в уравнение регрессии ожидаемых значений объясняющих факторов Х.

В нашем случае необходимо построить прогноз объема реализации на два месяца вперед (Y11, Y12).

Сначала найдем прогнозные значения факторов Х2 (затраты на рекламу) и Х3 (цена товара).

Для фактора Х2 (затраты на рекламу) выбрана модель, по которой получен прогноз на два месяца вперед: Х2,11 = 19,22, Х2,12 = 20,84.

График модели временного ряда Затраты на рекламу приведен ниже.

По фактору Цена товара прогнозные значения будут следующими: Х3,11 = 17,83, Х3,12 = 18,12. График модели временного ряда Цена товара приведен ниже.

Для получения прогнозных оценок зависимой переменной по модели

Y = -407,543+ 17,13605X2 + 31,9179X3

подставим в нее найденные прогнозные значения факторов X2и X3:

Yt=11 = –407,543+ 17,13605 × 19,22+ 31,9179 × 17,83 = 490,802

Yt=12= –407,543+ 17,13605 × 20,84+ 31,9179 × 18,12 = 528,0023

Доверительный интервал прогноза будет иметь следующие границы:

а) верхняя граница прогноза:

Yпрогн(n+l) + U(l),

б) нижняя граница прогноза:

Yпрогн(n+l) – U(l),

Где:

Стандартная ошибка (49,749) получена из таблицы Регрессионная статистика (см. рис. 1). Значение tкр (tкр = 1,895) получено с помощью функции СТЬЮДРАСПРОБР(0.1;7) для выбранной вероятности 90% с числом степеней свободы равным 7. Количество наблюдений составляет n=10. Среднее значение t=5,5.

Результаты прогнозных оценок модели регрессии представим в Таблице 6.

Таблица прогнозов (p = 90%)

Месяц

Прогноз

Нижняя граница

Верхняя граница

11

490,802

376,66

604,95

12

528,0023

408,33

647,68

С вероятностью 90% объем реализации в первом прогнозируемом месяце составит от 376,66 млн руб. до 604,95 млн руб., а во втором – попадет в интервал от 408,33 млн руб. до 647,68 млн руб.

Графическая интерпретация полученных прогнозных оценок представлена ниже.

Заключение

Согласно проведенным исследованиям была проанализирована зависимость фактора «объем реализованной продукции» от ряда переменных в некоторой фирме, вследствие чего была построена лучшая модель, отражающая зависимость конечного итога от независимых факторов, оценены качество модели, ее значимость и точность. Выбор лучшей модели позволил получить наиболее точные прогнозные значения объема реализованной продукции на последующие периоды времени.

Просмотров работы: 4794