ПРИМЕНЕНИЕ КОРРЕЛЯЦИОННО-РЕГРЕССИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ КАЧЕСТВА ЖИЗНИ РЕГИОНОВ РФ - Студенческий научный форум

VII Международная студенческая научная конференция Студенческий научный форум - 2015

ПРИМЕНЕНИЕ КОРРЕЛЯЦИОННО-РЕГРЕССИОННОГО АНАЛИЗА ДЛЯ ОЦЕНКИ КАЧЕСТВА ЖИЗНИ РЕГИОНОВ РФ

 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Целью данной работы является исследование качества жизни в регионах РФ с помощью корреляционного и регрессионного анализа с применением Microsoft Excel. Для проведения данного исследования мною были использованы рейтинго - балльные таблицы ООО «Рейтинговое агентство «РИА Рейтинг» [5] . В вышеупомянутых таблицах представлена информация по таким показателям, как уровень доходов в регионах, жилищные условия, безопасность проживания и информация по регионам о доли населения, проживающего в многоквартирных домах, которые в установленном порядке признаны аварийными. В качестве результативного признака в данном исследовании является Y – рейтинговый балл качества жизни в регионах, а факторными признаками, оказывающими влияние на результативный являются: X1– рейтинговый балл уровня доходов; X2– рейтинговый балл по категории "жилищные условия"; X3- рейтинговый балл по категории "безопасность проживания"; X4 – Доля населения, проживающего в многоквартирных домах, признанных в установленном порядке аварийными, %.

Итак, приступим к исследованию. На первом этапе рассмотрим корреляционный анализ. Произведём необходимые расчёты и интерпретируем полученные результаты. Для начала составим таблицу парных коэффициентов корреляции. Стоит помнить, что парные коэффициенты корреляции используются для измерения тесноты связи между двумя переменными без учета их взаимодействия с другими переменными. В MS Excel расчёт парных коэффициентов корреляции осуществляется с помощью подключенного пакета анализа.

Рисунок 1. Матрица парных коэффициентов корреляции

Теперь необходимо проверить значимость полученных коэффициентов корреляции, т.е. гипотезу H0: ρ=0. Для этого рассчитаем наблюдаемые значения t-статистик для всех коэффициентов по формуле: и построим матрицу наблюдаемыx значений t-статистик для всех коэффициентовrij (рис.2) [1, 3].Наблюдаемые значения t-статистик необходимо сравнить с критическим значением tкр, найденным для уровня значимости α=0,05 и с числом степеней свободы ν=n-2, tкрит.=1,990063

Рисунок 2. Матрица наблюдаемыx значений t-статистик

Для расчёта доверительных интервалов для парных генеральных коэффициентов корреляции исследуемых экономических показателей с надёжностью γ=0,95. найдём следующие значения: F(t)=0,975; tγ =1,95996; ΔZ =0,220517. Рассчитаем доверительные интервалы (рис.3).

Рисунок 3. Расчёт доверительных интервалов для парных генеральных

коэффициентов корреляции исследуемых экономических показателей

На основании рассчитанных данных построим доверительные интервалы с надёжностью γ=0,95 для всех значимых парных генеральных коэффициентов корреляции (рис.4).

Рисунок 4. Доверительные интервалы для всех значимых

парных генеральных коэффициентов корреляции.

Перейдём к расчёту матрицы частных коэффициентов корреляции (рис.5), которые характеризуют взаимосвязь между двумя выбранными переменными при исключении влияния остальных показателей (т.е. характеризуют «чистую» связь только между этими признаками) и важны для понимания взаимодействия всего комплекса показателей, т.к. позволяют определить механизмы усиления-ослабления влияния переменных друг на друга.

Рисунок 5. Матрица выборочных частных коэффициентов

корреляции исследуемых экономических показателей

Теперь необходимо проверить значимость полученных частных коэффициентов корреляции, т.е. гипотезу H0: ρij/{..} = 0.

Для этого рассчитаем наблюдаемые значения t-статистик для всех коэффициентов по формуле [1, 3]:

где l – порядок частного коэффициента корреляции, совпадающий с количеством фиксируемых переменных случайных величин (в нашем случае l=3, например ), а n – количество наблюдений.

Построим матрицу наблюдаемыx значений t-статистик для всех коэффициентов rij/{..} (рис.6).

После этого наблюдаемые значения t-статистик необходимо сравнить с критическим значением tкр, найденным для уровня значимости α=0,05 и числа степеней свободы

ν=n – l – 2. В нашем случае tкр.=1,991254.

Рисунок 6.Матрица наблюдаемых значений t- статистик частных

коэффициентов корреляции исследуемых экономических показателей

Рассчитаем доверительные интервалы для частных генеральных коэффициентов корреляции (рис.7).

Рисунок 7. Расчёт доверительных интервалов для

частных генеральных коэффициентов корреляции.

Перейдём к сравнению выборочных оценок парных и частных коэффициентов корреляции пар исследуемых показателей с выделением значимых (рис.8).

Рисунок 8. Таблица сравнения выборочных оценок парных

и частных коэффициентов корреляции с выделением значимых.

И на последнем этапе корреляционного анализа рассчитаем множественные коэффициенты корреляции, коэффициенты детерминации и Fнабл (рис.9), при Fкр=2,490446528

Рисунок 9. Множественные коэффициенты корреляции,

коэффициенты детерминации и Fнабл.

После проведённого исследования и полученных расчётных данных, перейдём непосредственно к их интерпретации.

Между исследуемыми показателями выявлены значимые корреляционные зависимости.

1. Значимые прямые связи обнаружены между признаками: (Y)рейтинговый балл качества жизни в регионах и X1- рейтинговый балл уровня доходов; Y- рейтинговый балл качества жизни в регионах и X2- рейтинговый балл по категории "жилищные условия"; X1- рейтинговый балл уровня доходов и X2- рейтинговый балл по категории "жилищные условия".

2. Значимые обратные связи обнаружены между X4-Доля населения, проживающего в многоквартирных домах признанных в установленном порядке аварийными и признаками: Y- рейтинговый балл качества жизни в регионах; X1- рейтинговый балл уровня доходов; X2- рейтинговый балл по категории "жилищные условия".

3. 1)Существующая прямая значительная связь между признаками Y(рейтинговый балл качества жизни в регионах) и X1(рейтинговый балл уровня доходов), и между Y(рейтинговый балл качества жизни в регионах) и X2(рейтинговый балл по категории "жилищные условия") при влиянии остальных переменных усиливается.

2) Однако частная связь остальных отсутствует, но при влиянии других признаков многие взаимосвязи становятся значимыми. Например, прямая связь между Y (рейтинговый балл качества жизни в регионах и X4(Доля населения, проживающего в многоквартирных домах, признанных в установленном порядке аварийными, %)

4. Множественный коэффициент корреляции r1/2345 =0,822 - значим и имеет достаточно высокое значение, что говорит о том, показатель Y - рейтинговый балл качества жизни в регионах имеет тесную связь с многомерным массивом факторных признаков X1,X2,X3,X4. Множественный коэффициент детерминации r2Y/{..}=0,675 показывает, что 67,54% доли дисперсии Y – рейтинговый балл качества жизни в регионах, обусловлен изменениями факторных признаков.

Факторные признаки тоже имеют достаточно высокие значения множественных коэффициентов корреляции и детерминации, что говорит об их сильной взаимосвязанности, за исключением переменной X3 – её множественный коэффициент не значим, и это подтверждается тем фактом, что только 7,9% доли её дисперсии обусловлены изменениями переменных, включённых в рассматриваемую модель, а, соответственно 92,1% дисперсии обусловлены влиянием других, не включённых в корреляционную модель остаточных факторов.

Итак, полученные результаты корреляционного анализа, показавшие, что показатель Y – рейтинговый балл качества жизни в регионах имеет тесную связь с многомерным массивом факторных признаков, позволяют перейти ко второму этапу статистического исследования – построению регрессионной модели [1, 2, 3].

Сначала наши исходные данные проверим на мультиколлинеарность. Поскольку значения коэффициентов корреляции для всех пар объясняющих переменных не превышают по модулю 0,8, то нет необходимости сокращать набор объясняющих переменных.

Будем использовать алгоритм пошагового регрессионного анализа с последовательным исключением незначимых регрессоров, пока все входящие в регрессионную модель факторы не будут иметь значимые коэффициенты.

Построение и оценка регрессионной модели осуществляется в MS Excel с помощью модуля регрессии пакета анализа данных. После заполнения всех предложенных форм, приступаем к анализу.

В модель включены все факторные признаки (X1, X2, X3 , X4). Результаты регрессионного анализа выдаются в следующем виде (рис.10).

Рисунок 10. Вывод итогов №1 регрессионного анализа в MSExcel

Оценка уравнения регрессии имеет вид:

Проверяем значимость уравнения регрессии и полученных коэффициентов регрессии Fнабл>Fкрит, следовательно, хотя бы один элемент вектора β=(β1,β2,β3,β4)^T значимо отличается от нуля.

Проверим значимость отдельных коэффициентов уравнения регрессии. Проверку значимости регрессионных коэффициентов проводим на основе t-статистики.

Для β0,β1,β2 наблюдаемое значение t-статистики больше критического по модулю 1,9912>3,6311875; 1,9912>6,4291625; 1,9912>4,1275209

Следовательно, гипотеза о равенстве нулю этих коэффициентов отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты значимы.

Для β3, β4 наблюдаемое значение t-статистики меньше критического по модулю 1,7815654Fкрит, следовательно, хотя бы один элемент вектора β=(β1 ,β2,β4)^T значимо отличается от нуля.

Проверим значимость отдельных коэффициентов уравнения регрессии. Проверку значимости регрессионных коэффициентов проводим на основе t-статистики.

Для β0,β1,β2,β4 наблюдаемое значение t-статистики больше критического по модулю 5,1912582>1,9908; 6,2626504>1,9908; 4,1876577>1,9908; -2,1446353>1,9908

Следовательно, гипотеза о равенстве нулю этого коэффициентов отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты значимы.

Р-значение для β0,β1,β2,β4 соответствует P

Просмотров работы: 1147