Рисунок 1.1 – Вкладка анализ данных-корреляция
На рисунке 1.2 представлены итоги проведенного корреляционного анализа.
Рисунок 1.2 – Результаты корреляционного анализа
Полученные данные переносим в таблицу 1.1 результаты корреляционного анализа.
Таблица 1.1
Результаты корреляционного анализа
Таблица 1. Матрица парных коэффициентов корреляции Теперь необходимо проверить значимость полученных коэффициентов корреляции, т.е. гипотезу H0: ρ=0. Для этого рассчитаем наблюдаемые значения t-статистик для всех коэффициентов по формуле: Где r – значение коэффициента корреляции, а п – количество наблюдаемых значений (6, так как мы не разбиваем данные на полугодья, а берем годовалый показатель). Построим матрицу наблюдаемых значений t-статистик для всех коэффициентов rij (табл 2). Наблюдаемые значения t-статистик необходимо сравнить с критическим значением tкр, найденным для уровня значимости α=0,05 и числа степеней свободы ν=n-2, tкрит.= 2,7764. На рисунке 1.3 представлены расчеты t-статистик для всех коэффициентов. Рисунок 1.3 – Расчеты t-статистик для всех коэффициентов В таблице 1.2 представлены результаты расчетов t-статистик для всех коэффициентов. Итак, корреляционный анализ дает нам следующие результаты, при анализе парной корреляции мы ищем связь между показателями, связь между результирующим и факторными признаками есть – значит, мы правильно выбрали показатели.[4] Однако, в таблице 1 желтым цветом показаны показатели, которые коррелируют между собой (связь между показателями явная) – а это значит, что мы выявили мультиколинеарность. Связь присутствует не только между результатом и факторами, но и между самими факторами. Между исследуемыми показателями выявлены значимые корреляционные зависимости. Таблица 1.2 Результаты расчетов t-статистик для всех коэффициентов
Таблица 2. Матрица наблюдаемых значений t-статистик |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Результаты анализа:
1. значимые прямые связи обнаружены между признаками: количество внутренних граждан, воспользовавшихся коллективными средствами размещения, инвестиции в основной капитал, число место в коллективных средствах размещения, численность работников в КСР.
2. значимые обратные связи обнаружены между численностью работников турфирм- и результирующим показателем: количество внутренних граждан, воспользовавшихся коллективными средствами размещения.
3. Факторные признаки тоже имеют достаточно высокие значения множественных коэффициентов корреляции. существующая прямая значительная связь между признаками инвестициями в основной капитал и числом место в коллективных средствах размещения (коэффициент корреляции больше 0,8), а также связь численности работников турфирм и численности работников в кср.
4. По критерию Стьюдента все значения являются статистически значимыми ( Ттеор>Ткрит).
На переменную численность работников турфирм влияет переменная численность работников в кср и это подтверждается тем фактом, что 86 % доли её дисперсии обусловлены изменениями переменной численность работников в кср, включённая в рассматриваемую модель, а, соответственно только 14 % дисперсии обусловлены влиянием других, не включённых в корреляционную модель остаточных факторов.
На переменную инвестиции в основной капитал влияет переменная число место в коллективных средствах размещения и это подтверждается тем фактом, что 90 % доли её дисперсии обусловлены изменениями переменной число место в коллективных средствах размещения, включённая в рассматриваемую модель, а, соответственно только 10 % дисперсии обусловлены влиянием других, не включённых в корреляционную модель остаточных факторов.
Для дальнейшего исследования не следует исключить факторы, которые взаимовлияют друг на друга для построения адекватной модели, которую можно использовать для прогнозирования.[4]
Итак, полученные результаты корреляционного анализа, показавшие, что показатель количество внутренних граждан, воспользовавшихся коллективными средствами размещения имеет тесную связь с многомерным массивом факторных признаков, позволяют перейти ко второму этапу статистического исследования – построению регрессионной модели. [5]
Построение и оценка регрессионной модели осуществляется в MS Excel с помощью модуля регрессии пакета анализа данных. После заполнения всех предложенных форм, приступаем к анализу. Для построение модели воспользуемся данными за 2007-2014 год ( с разбивкой на полугодье), чтобы сделать нашу модель более значимой для дальнейшего использования
В модель включены все факторы. На рисунке 1.4 представлено окно расчета регрессии.
Результаты регрессионного анализа выдаются в следующем виде (рис.1,5).
Найдем F крит в таблице Столбцы таблицы - значение k1. Выше мы упоминали, что это количество факторов, включенных в уравнение регрессии. Поэтому нас интересует столбец под индексом 2. Строки таблицы - значение k2. Это остаточное количество степеней свободы, которое в нашем случае равно 11 (16-4 -1). Значит, нужное нам табличное значение F-критерия равно 4,57.. Вычисленное значение F-критерия (10,126) больше критического, На этом основании мы можем отклонить нулевую гипотезу, сделав вывод о существенности линейной зависимости. Таким образом, полученное уравнение регрессии по первому критерию может быть признано достоверным.[6]
Рисунок 1.5 Вывод итогов №1 регрессионного анализа в MS Excel
Оценка уравнения регрессии имеет вид:
Проверим значимость отдельных коэффициентов уравнения регрессии. Проверку значимости регрессионных коэффициентов проводим на основе t-статистики.
Для наблюдаемое значение t-статистики (табличное = 2,21) больше критического по модулю.[5] Следовательно, гипотеза о равенстве нулю этого коэффициента отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициент значим.
Для остальных наблюдаемое значение t-статистики меньше критического по модулю. Следовательно, гипотеза о равенстве нулю этого коэффициентов не отвергается с вероятностью ошибки, равной 0,05, т.е. соответствующие коэффициенты незначимы.
Р-значение для соответствует , т.е. данные параметры являются незначимыми, критерий х1 является значимым.
Итак, после проведённого регрессионного анализа перейдём к интерпретации результатов ( рисунок 1.6)
Рисунок 1.6 – Интерпретация результатов регрессионного анализа
Величина R2 характеризует долю общей дисперсии зависимой переменной, обусловленную воздействием объясняющих переменных. Таким образом, около 78,64 % вариации (количество внутренних граждан, воспользовавшихся коллективными средствами размещения) объясняется вариацией (численность работников турфирм), и (число место в коллективных средствах размещения), а только 21,36 % вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель достаточно адекватно отражает исследуемый процесс.
Коэффициент регрессии при параметре инвестиции в основной капитал, направленные на развитие коллективных средств размещения свидетельствует о том, что при росте численности работников турфирм количество отдыхающих увеличивается на 0,039 при неизменности остальных факторов. Из полученной интервальной оценки можно сделать вывод, что с вероятностью 0,95 при росте численности работников турфирм количество отдыхающих увеличится в будет в пределах от единиц.
На рисунке 1.7 показано предсказанное и реальное значение численности отдыхающих.
Рисунок 1.7 – Отклонения расчетного значения количество внутренних граждан, воспользовавшихся коллективными средствами размещения от фактического
Отклонения расчетного значения количество внутренних граждан, воспользовавшихся коллективными средствами размещения от фактического было рассчитано путём вывода остатков в MS Excel. Проанализировав Можно увидеть, что распределение остатков очень близко к истинному тренду, также видим динамику данных. В целом тренд можно охарактеризовать как линейный. [3] Однако, применять его для прогнозирования нельзя, так как при проведении корреляционного анализа в первом блоке была выявлена мультиколинеарность факторов. Исключить эти факторы из модели нельзя, так как результативный фактор – количество туристов – формируется под влиянием множества факторов, в том числе и мультиколинеарных, а исключение последних может привести к неадекватной модели, которая не даст нужный результат.
ВЫВОДЫ
После проведения корреляционного и регрессионного анализа мы можем сделать определённые выводы:
Итак, полученные результаты корреляционного анализа показали, что показатель количество внутренних граждан, воспользовавшихся коллективными средствами размещения (количество граждан, которые воспользовались коллективными средствами размещения) имеет тесную связь с многомерным массивом факторных признаков, наиболее сильная связь была обнаружена с такими факторными признаками как (число мест в кср) и численность работников турфирм (количество турфирм).
На переменную численность работников турфирм влияет показатель численность работников в КСР и это подтверждается тем фактом, что 86 % доли её дисперсии обусловлены изменениями переменной численность работников в кср, включённая в рассматриваемую модель, а, соответственно только 14 % дисперсии обусловлены влиянием других, не включённых в корреляционную модель остаточных факторов.
На переменную инвестиции в основной капитал влияет переменная число место в коллективных средствах размещения и это подтверждается тем фактом, что 90 % доли её дисперсии обусловлены изменениями переменной число место в коллективных средствах размещения, включённая в рассматриваемую модель, а, соответственно только 10 % дисперсии обусловлены влиянием других, не включённых в корреляционную модель остаточных факторов.
Между факторными переменными тоже существую значимые связи, и эти связи сильные, так что для дальнейшего анализа факторы инвестиции в основной капитал численность работников в кср были исключены.
Величина R2 характеризует долю общей дисперсии зависимой переменной, обусловленную воздействием объясняющих переменных. Таким образом, около 78,64 % вариации (количество внутренних граждан, воспользовавшихся коллективными средствами размещения) объясняется вариацией (численность работников турфирм), и (число место в коллективных средствах размещения), а только 11,36 % вариации вызвано воздействием неучтенных в модели и случайных факторов. Таким образом, можно сделать вывод, что модель достаточно адекватно отражает исследуемый процесс.
Однако, корреляционный анализ показал, что между факторами есть мультиколинеарность. В целом анализ можно использовать для исследования и определения тенденции количества размещенных туристов в дальнейшем, для прогнозирования следует анализировать больший массив информации.
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ
1. http://www.russiatourism.ru/contents/statistika/statisticheskie-dannye-po-rf/otdelnye-pokazateli-deyatelnosti-kollektivnykh-sredstv-razmeshcheniya-i-turfirm-2009-2011-gg/
2. http://www.russiatourism.ru/contents/statistika/sobiratelnaya-gruppirovka-vidov-ekonomicheskoy-deyatelnosti-turizm/
3. Гмурман В. Е. Теория вероятностей и математическая статистика: Учебное пособие для вузов. — 10-е издание, стереотипное. — Москва: Высшая школа, 2004. — 479 с. — ISBN 5-06-004214-6.
4 Елисеева И. И., Юзбашев М. М. Общая теория статистики: Учебник / Под ред. И. И. Елисеевой. — 4-е издание, переработанное и дополненное. — Москва: Финансы и Статистика, 2002. — 480 с. — ISBN 5-279-01956-9.
5 Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. —М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
6 Радченко Станислав Григорьевич,. Устойчивые методы оценивания статистических моделей: Монография. — К.: ПП «Санспарель», 2005. — С. 504. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.