ФИКТИВНЫЕ ПЕРЕМЕННЫЕ СДВИГА И НАКЛОНА - Студенческий научный форум

VIII Международная студенческая научная конференция Студенческий научный форум - 2016

ФИКТИВНЫЕ ПЕРЕМЕННЫЕ СДВИГА И НАКЛОНА

Каджемонян А.А. 1, Маммаева Н.М. 1, Маммаева С.М. 1
1Финансовый университет при Правительстве РФ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Учет качественных параметров при регрессионном анализе возможен различными способами. Наиболее простое решение – построение индивидуальных моделей для каждого значения (градации) качественного параметра. На первый взгляд такое решение является крайне эффективным – чем меньше параметров учитывается в модели, тем проще решение задачи. Но, на самом деле, такое решение далеко не всегда самое лучшее. Представим, что для оценки объекта необходимо будет подобрать аналоги, удовлетворяющие следующим критериям: однокомнатные квартиры, расположенные на первом этаже в домах типа «хрущевка» в определенном районе города, внутри жилого квартала и с отделкой определенного уровня. Даже на развитом рынке (например, рынок жилья городов-миллионников) поиск аналогов, удовлетворяющих столь жестким требованиям, скорее всего, не увенчается успехом. Кроме того, с уменьшением количества аналогов надежность оценок коэффициентов модели существенно снижается, а погрешность полученной модели, соответственно, возрастает.

Альтернативным вариантом является учет качественных параметров в модели, для чего используются фиктивные переменные (в литературе также встречается термин «переменные – манекены»). Данный способ является более эффективным, т.к. появляется возможность оценить статистическую значимость влияния данного фактора на зависимую переменную на фоне других параметров, включенных в модель, и повысить надежность модели за счет включения большего количества аналогов.

Фиктивная переменная (dummy variable) — в эконометрике переменная модели, полученная путем преобразования (напр., с помощью балльных оценок) информации, содержащей качественные и другие не поддающиеся числовой оценке величины. Ф. п. используются как простое средство для включения подобной информации в регрессионный анализ. Напр., добавление Ф. п., принимающей только два значения — 0 и 1 в качестве дополнительной объясняющей переменной, часто используется при анализе сезонных колебаний. [1]

Фиктивные переменные подразделяются на переменные сдвига и переменные наклона. Выбор в пользу того или иного типа переменных (или их комбинаций) является «содержательной» задачей и зависит от характера используемых в модели параметров. Далее продемонстрированы особенности данных видов переменных на нескольких примерах.

1. Переменные сдвига

1.1. Пример №1: модель с одной фиктивной переменной.

Рассмотрим самый простой случай регрессии – учтем в модели только одну, качественную переменную. Данный пример является упрощенным вариантом применения регрессионного анализа и предназначен для демонстрации сути фиктивных переменных.

В нижеследующей таблице представлены данные по ценам предложения однокомнатных квартир одного типа (панельные 9-ти этажные дома), расположенные в центральном административном округе (ЦАО) г. Москвы.

Табл. 1. Информация об аналогах для Примера №1

п/п

Дата

Кол-во комнат

Этаж

Этажность

Общая площадь, кв.м

Жилая площадь, кв.м

Кухня, кв.м

Тип дома

Цена, руб.

Удельная цена, руб./кв.м

"Средний этаж"

1

2

3

4

5

6

7

8

9

10

11

12

1

13.11.2015

1

8

9

32

21

6

пан.

6 990 000

218 437,50

1

2

20.11.2015

1

8

9

32

22

6

пан.

7 000 000

218 750,00

1

3

18.11.2015

1

7

9

32

19

7

пан.

7 000 000

218 750,00

1

4

21.11.2015

1

3

9

32

20

6

пан.

7 200 000

225 000,00

1

5

20.11.2015

1

5

9

33

19

6

пан.

7 200 000

218 181,82

1

6

20.11.2015

1

6

9

32,7

18,8

6

пан.

7 200 000

220 183,49

1

7

11.11.2015

1

4

9

32

23

5,1

пан.

7 200 000

225 000,00

1

8

20.11.2015

1

4

9

32

21

5,1

пан.

7 300 000

228 125,00

1

9

20.11.2015

1

5

9

32

21,4

6

пан.

7 400 000

231 250,00

1

10

21.11.2015

1

8

9

33

19

7

пан.

7 480 000

226 666,67

1

11

20.11.2015

1

3

9

33

18

7

пан.

7 600 000

230 303,03

1

12

21.11.2015

1

5

9

33

18

7,5

пан.

7 600 000

230 303,03

1

13

20.11.2015

1

6

9

33,3

19

6,5

пан.

7 800 000

234 234,23

1

14

19.11.2015

1

2

9

32

21

6

пан.

7 990 000

249 687,50

1

15

18.11.2015

1

8

9

33

19

7

пан.

7 990 000

242 121,21

1

16

20.11.2015

1

6

9

31,5

21,5

6

пан.

8 000 000

253 968,25

1

17

20.11.2015

1

2

9

36

20,6

6,5

пан.

8 500 000

236 111,11

1

18

19.11.2015

1

8

9

31

19

6

пан.

8 500 000

274 193,55

1

19

14.11.2015

1

8

9

31

19

7

пан.

8 500 000

274 193,55

1

20

19.11.2015

1

7

9

33

22

6

пан.

8 600 000

260 606,06

1

21

20.11.2015

1

2

9

31,6

21,1

6

пан.

8 800 000

278 481,01

1

22

20.11.2015

1

9

9

31,7

21,2

6

пан.

5 500 000

173 501,58

0

23

08.11.2015

1

1

9

38

23

7,3

пан.

6 400 000

168 421,05

0

24

20.11.2015

1

1

9

32

21

5,5

пан.

6 500 000

203 125,00

0

25

13.11.2015

1

1

9

33

17,7

7

пан.

7 200 000

218 181,82

0

26

21.11.2015

1

1

9

35

20

10

пан.

7 300 000

208 571,43

0

27

21.11.2015

1

9

9

33

18

8

пан.

7 450 000

225 757,58

0

28

21.11.2015

1

1

9

32

21,5

6

пан.

7 500 000

234 375,00

0

29

21.11.2015

1

1

9

33

19

7

пан.

7 600 000

230 303,03

0

30

09.11.2015

1

9

9

31

21,1

6

пан.

7 800 000

251 612,90

0

Как видно из таблицы, объекты достаточно однородны по площади. При этом аналоги №№1–21 расположены на средних этажах, 22–30 – на крайних этажах. Общеизвестный факт, что квартиры на крайних этажах обычно стоят дешевле аналогичных квартир на средних этажах. Анализ данных, представленных в Табл. 1, это подтверждает – см. Табл. 2.

Табл. 2. Средние значения

Этаж

Показатель

Удельная цена, руб./кв.м

Средние этажи

Минимальное значение

218 181,82

Максимальное значение

278 481,01

Среднее

237 835,57

Крайние этажи

Минимальное значение

168 421,05

Максимальное значение

251 612,90

Среднее

212 649,93

По всей выборке

Минимальное значение

168 421,05

Максимальное значение

278 481,01

Среднее

230 279,88

Учтем различие «крайний этаж» / «средний этаж» при построении модели, для чего введем фиктивную переменную X1 («Средний этаж», см. колонку 12 в Табл. 1), которая будет принимать следующие значения:

X1 = 1 для квартир, расположенных на средних этажах;

X1 = 0 для квартир, расположенных на крайних этажах.

Искомая модель будет иметь вид:

Y = a1*X1 + с (модель №1)

где:

Y - удельная стоимость;

X1 - фиктивная переменная «Средний этаж»;

a1 - коэффициент модели;

с - константа.

Полученные результаты представлены в Табл. 3 (строка №1). Сопоставляя Табл. 2 и Табл. 3 легко заметить, что константа «c» модели 1 равна среднему значению удельной стоимости квартир, расположенных на крайних этажах, а коэффициент при фиктивной переменной «Средний этаж» равен разнице между средними удельными стоимостями квартир на средних и крайних этажах:

a1 = 237 835,57 – 212 649,93 = 25 185,64

Фактически коэффициент при фиктивной переменной «Средний этаж» отвечает на вопрос:

«На сколько в среднем квартиры на средних этажах дороже квартир на крайних этажах?».

Аналогичную модель можно построить с фиктивной переменной Х2 («Крайний этаж»):

Y = a2*X2 + с (модель №2)

где:

X2 - фиктивная переменная «Крайний этаж», принимающая следующие значения:

X2 = 0 для квартир, расположенных на средних этажах;

X2 = 1 для квартир, расположенных на крайних этажах.

Результаты расчетов представлены в Табл. 3 (строка №2). Данная модель идентична модели №1, но константа модели 2 равна среднему значению удельной стоимости квартир на средних этажах, а коэффициент при фиктивной переменной «Крайний этаж» отвечает на вопрос:

«На сколько в среднем квартиры на крайних этажах дешевле квартир на средних этажах?».

На этих же данных возможно построить еще один вариант модели, куда будут включены обе обозначенные выше фиктивные переменные. При этом будет наблюдаться полная мультиколлинеарность (параметры X2 и X1 связаны выражением X2 = 1-X1), для устранения которой необходимо исключить из спецификации модели константу:

Y=a1*X1+a2*X2

Результаты также представлены в Табл. 3 (строка №3). Коэффициенты при фиктивных переменных в данной модели равны средним значениям стоимости квартир на средних и крайних этажах соответственно.

Табл. 3. Результаты регрессионного анализа

Модель

a1

a2

C

R2

Модель №1 Y = a1*X1 + с

25 185,64

-

212 649,93

0,224

(8 863,33)

(7 415,59)

Модель №2 Y = a2*X2 + с

-

-25 185,64

237 835,57

0,224

(8 863,33)

(4 854,65)

Модель №3 Y=a1*X1 +a2*X2

237 835,57

212 649,93

-

0,991

(4 854,65)

(7 415,59)

В скобках указаны стандартные ошибки для полученных коэффициентов модели.

Следует отметить достаточно низкое значение R2. Это объясняется тем, что анализируемые квартиры отличаются не только этажом расположения, но и состоянием, а также местоположением внутри исследуемого района. Задачей этого и последующих примеров является демонстрация сути фиктивных переменных.

Для модели без константы (модель №3) вместо коэффициента детерминации R2 определяется нецентрированный R2. Сопоставление нецентрированного R2 с коэффициентом детерминации некорректно.

1.2. Пример №2: модель с одной фиктивной и одной количественной переменными

Пример №1 является достаточно простым случаем. Рассмотрим более сложный вариант.

На графике ниже представлена информация о ценах предложения квартир в г. Москве. В данную выборку были включены такие же квартиры, как и в примере №1 (т.е. панельные 9-ти этажные дома, расположенные в ЦАО г. Москвы), но в данном случае отсутствовало ограничение по количеству комнат.

Из графика видно, что в выборку были включены квартиры разной площади: однокомнатные площадью 30–35 кв. м, 2-х комнатные площадью 38–46 кв. м и 3-х комнатные площадью более 50 кв. м (на графике видно три группы аналогов). Также на графике видно, что квартиры на средних этажах обычно чуть дороже квартир на крайних этажах.

Рис. 1. Информация об аналогах для Примера №2

Попробуем учесть различие в площади объектов и этаже расположения в модели, для чего построим модель вида:

Y=a1*X1+ a2*S + c

Где:

S - общая площадь квартиры;

X1 - фиктивная переменная средний этаж.

Результаты анализа представлены в нижеследующей таблице (формат таблицы соответствует результатам действия надстройки «Регрессия» из «Пакета анализа» MS Excel).

Табл. 4. Результаты регрессионного анализа

Регрессионная статистика

         

Множественный R

0,399

         

R-квадрат

0,160

         

Нормированный R-квадрат

0,139

         

Стандартная ошибка

24 619,9

         

Наблюдения

84

         
             

Дисперсионный анализ

         
 

df

 

MS

F

Значимость F

 

Регрессия

2

9319374993

4659687496

7,687

0,0009

 

Остаток

81

4,9097E+10

606138676,8

     

Итого

83

5,8417E+10

       
             
 

Коэффи-циенты

Стандарт-ная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

239 195,6

11 985,9

20,0

0,000000

215 347,4

263 043,9

Средний этаж

19 672,8

6 024,8

3,3

0,001604

7 685,4

31 660,3

Общая площадь

-528,3

248,8

-2,1

0,036787

-1 023,3

-33,2

Графическое представление полученных результатов представлено на Рис. 2. Как видно из рисунка, стоимость квартир на крайних этажах ниже стоимости квартир на средних этажах. Разница в стоимости равна коэффициенту при фиктивной переменной и в данном случае составляет 19 672,8 руб./ кв. м. При этом эта разница одинакова для квартир разной площади (на графике линии, соответствующие средним и крайним этажам параллельны).

Рис. 2. Визуализация построенной регрессионной модели

Переменные, аналогичные использованным в моделях переменным «Средний этаж» и «Крайний этаж», принято называть переменными сдвига и использовать, когда исследователь предполагает, что влияние данного качественного параметра на зависимую переменную одинаково для всех значений количественной переменной. Фактически речь идет о параллельном сдвиге базовой модели: при неизменном коэффициенте при количественной переменной меняется константа модели.

2. Переменные наклона

Как было указано выше, переменные сдвига применяются, когда влияние качественного параметра постоянно для любых наблюдений (аналогов). При этом на практике такое встречается далеко не всегда. Если рассмотреть те же квартиры, то можно предположить, что для квартир с разным количеством комнат разница в удельной стоимости будет различной. Для учета таких случаев применяются фиктивные переменные наклона.

Попытаемся улучшить модель, построенную по результатам примера №2, для чего заменим фиктивную переменную «Средний этаж» следующей переменной Z1:

Z1 = X1*S

где:

X1 - фиктивная переменная «Средний этаж»;

S - площадь квартиры.

Модель в этом случае будет выглядеть следующим образом:

Y=a1*Z1+ a2*S + c = a1*X1*S + a2*S + c

Результаты расчетов коэффициентов и статистик модели представлены в Табл. 5.

Табл. 5. Результаты регрессионного анализа

Регрессионная статистика

         

Множественный R

0,388

         

R-квадрат

0,151

         

Нормированный R-квадрат

0,130

         

Стандартная ошибка

24 750,9

         

Наблюдения

84

         
             

Дисперсионный анализ

         
 

df

 

MS

F

Значимость F

 

Регрессия

2

8795268657

4397634328

7,179

0,0013

 

Остаток

81

4,9621E+10

612609125,4

     

Итого

83

5,8417E+10

       
             
 

Коэффи-циенты

Стандарт-ная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

252 711,2

11 162,9

22,6

0,000000

230 500,5

274 922,0

Средний этаж * Общая площадь

420,4

135,0

3,1

0,002555

151,7

689,0

Общая площадь

-815,1

265,2

-3,1

0,002888

-1 342,8

-287,3

На графике данная зависимость будет выглядеть следующим образом:

Рис. 3. Визуализация построенной регрессионной модели с использованием переменной наклона

Как видно из Рис. 3, линии, соответствующие средним и крайним этажам, в данном случае не параллельны. Фактически полученная модель:

Y = 420,4 *X1 *S – 815,1*S + 252 711,2

идентична двум моделям:

Y = (a1+ a2) *S + c = - 394,7 * S + 252 711,2 для квартир на средних этажах;

Y = a2*S + c = - 815,1* S + 252 711,2 для квартир на крайних этажах.

В данном случае в зависимости от значения качественной переменной изменяется коэффициент при количественном параметре, т.е. меняется наклон графика линии регрессии. При этом константа модели остается постоянной для различных значений качественного параметра.

Комбинируя фиктивные переменные наклона и переменные сдвига можно получить модель, полностью идентичную индивидуальным моделям для разных значений количественной переменной.

Например, если по тем же данным построить отдельные модели для квартир на различных этажах, получатся следующие модели:

Для квартир на средних этажах: y = - 548,6 *S + 259 747,6 (R² = 0,064)

Для квартир на крайних этажах: y = - 485,0 *S + 237 310,6 (R² = 0,036)

Аналогичные результаты получаются, если построить общую модель для всех этажей расположения вида:

Y = a1*X1 + a2*X1 *S + a3*S + c

Y = 22 437,0 * X1 – 63,7 * X1 * S – 485,0 * S + 237 310,6 (R² = 0,160)

Легко заметить, что данная модель при Х1=1 превращается в модель для квартир на средних этажах, а при Х1=0 – в модель для квартир на крайних этажах, указанных выше.

3. Учет нескольких градаций значений качественного параметра

В представленных выше примерах рассматривались варианты, когда качественный параметр принимает только два значения: «Крайние этажи» или «Средние этажи». При этом качественные параметры, естественно, бывают и более «сложными» и могут принимать различные значения. Например, такой качественный параметр, как «Район города» может принимать большое количество значений.

Учет таких качественных параметров при построении регрессионных моделей может быть выполнен различными способами. Одним из вариантов является замена данного качественного параметра комплексом бинарных переменных: качественный параметр, принимающий n вариантов значений (градаций), заменяется (n-1) бинарным признаком.

Попробуем учесть различие в стоимости квартир для различного количества комнат путем добавления следующих бинарных переменных:

– Однокомнатные квартиры, расположенные на средних этажах;

– Двухкомнатные квартиры, расположенные на средних этажах;

– Трехкомнатные квартиры, расположенные на средних этажах;

– Квартиры, расположенные на крайних этажах.

Табл. 6. Учет бинарными признаками этажа расположения квартиры

Модель в данном случае будет выглядеть следующим образом:

Y = a1*X1 + a2*X2 + a3*X3+ a4*S + c

Результаты регрессионного анализа представлены в Табл. 7.

Табл. 7. Результаты регрессионного анализа

ВЫВОД ИТОГОВ

         
             

Регрессионная статистика

         

Множественный R

0,435

         

R-квадрат

0,189

         

Нормированный R-квадрат

0,148

         

Стандартная ошибка

24 482,8

         

Наблюдения

84

         
             

Дисперсионный анализ

         
 

df

 

MS

F

Значимость F

 

Регрессия

4

1,1064E+10

2765877032

4,614

0,0021209

 

Остаток

79

4,7353E+10

599406325,2

     

Итого

83

5,8417E+10

       
             
 

Коэффи-циенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

235 219,8

18 084,8

13,0

0,000000

199 222,9

271 216,6

1-к. квартиры, средний этаж

16 787,5

8 611,9

1,9

0,054805

-354,1

33 929,2

2-к. квартиры, средний этаж

27 163,9

7 430,4

3,7

0,000460

12 374,0

41 953,8

3-к. квартиры, средний этаж

14 685,4

9 256,9

1,6

0,116636

-3 739,9

33 110,8

Общая площадь

-436,9

398,6

-1,1

0,276266

-1 230,3

356,4

Получена модель:

Y = 16 787,5 *X1 + 27 163,9 *X2 + 14 685,4 *X3 – 436,9 *S + 235 219,8

Такой подход позволяет не только выявить различия во влиянии отдельных градаций качественного параметра, но и сделать вывод о статистической значимости различия между разными градациями признака. Например, из Табл. 7 видно, что коэффициенты при 1- и 3-х комнатных квартирах близки.

Проверим гипотезу о том, что a1 = a3. Для проверки данной гипотезы рассчитаем статистику Стьюдента, полученную величину сравним с критическим значением:

Т.к. t < tкр , делаем вывод о том, что разница в удельной стоимости квартир на средних этажах между 1- и 3-х комнатными квартирами статистически не значима (при прочих равных условиях). Поэтому без ущерба для точности модели переменные Х1 и Х3 можно объединить в одну.

4. Заключение

Подавляющее большинство объектов оценки нельзя описать только при помощи количественных параметров. Такие параметры, как класс объекта или его состояние, местоположение объекта, материал основных элементов и многие другие зачастую оказывают существенное влияние на стоимость. Такие параметры принято называть качественными. При проведении регрессионного анализа необходимо учитывать различия в качественных параметрах, для чего в модель обычно включают одну или несколько фиктивных переменных.

Фиктивные переменные подразделяются на переменные сдвига и переменные наклона. Переменные сдвига позволяют учесть влияние качественного параметра в случае, если данный параметр оказывает «одинаковое» влияние на зависимую переменную (в большинстве оценочных задач в качестве зависимой переменной выступает стоимость или удельная стоимость).

Если оценщик подозревает, что с ростом того или иного количественного параметра влияние качественной переменной изменяется, следует отдать предпочтение фиктивным переменным другого типа – переменным наклона.

 

9

 

Просмотров работы: 2481