ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ И ROC-АНАЛИЗ В СКОРИНГЕ - Студенческий научный форум

VII Международная студенческая научная конференция Студенческий научный форум - 2015

ЛОГИСТИЧЕСКАЯ РЕГРЕССИЯ И ROC-АНАЛИЗ В СКОРИНГЕ

Климентьева О.В. 1, Милосердова М.А. 1
1Финансовый университет при Правительстве РФ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

Скоринг – оценка кредитоспособности лица – весьма важный и актуальный аспект деятельности любой кредитной организации. Грамотный анализ позволяет снизить потенциальные риски и, таким образом, организовать эффективный процесс работы.

В основе скорингового анализа лежит ROC- анализ, позволяющий произвести оценку качества модели логистической регрессии. Поэтому целью нашей работы было изучение теоретических основ логистической регрессии и ROC-анализа, а также последующее рассмотрение применения ROC-анализа на примере.

В ходе выполнения работы мы поставили перед собой задачувыявить важность ROC-анализа в скоринге, рассмотрев его способность оценки качества модели с помощью определенных статистических методов. На сегодняшний день нет ни одной статистической модели, описывающей то или иное явление со стопроцентной точностью, однако важность их применения для анализа данных и дальнейшего прогнозирования действительно велика.

Часть 1

  1. Бинарная классификация

Прежде чем говорить о логистической регрессии и ROC-анализе нужно выяснить, что такое бинарная классификация. Бинарная классификация - классификация с бинарной выходной переменной, т.е. переменной, которая может принимать только два значения1. В таких задачах решается вопрос о принадлежности объекта к одному из двух классов (например, 0 и 1, «Да» или «Нет», и т.д.).

К методам оценки правдоподобия бинарной классификации относятся логистическая регрессия, простой классификатор Байеса, Lift, Gain и Roc-диаграммы. К сожалению, данные методы имеют множество недостатков, не позволяющих им осуществить наиболее достоверную оценку. Далее мы подробнее рассмотрим логистическую регрессию и ROC-анализ как метод оценки бинарной классификации.

  1. Логистическая регрессия

Логистическая регрессия – это разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми переменными (называемыми также предикторами) и зависимой переменной2. С помощью бинарной логистической регрессии можно оценивать вероятность того, что событие наступит для конкретного испытуемого (больной/здоровый, возврат кредита/дефолт и т.д.).

Задача регрессии может быть сформулирована иначе: вместо предсказания бинарной переменной мы предсказываем непрерывную переменную со значениями на отрезке [0,1] при любых значениях независимых переменных. Это достигается применением следующего регрессионного уравнения (логит-преобразование):

(1)

Где f(z) - логистическая функция; e – число Эйлера; , и — вектор-столбцы значений независимых переменных и параметров (коэффициентов регрессии) — вещественных чисел , соответственно.

Зависимость, связывающая вероятность события и величину y, показана на следующем графике (рис. 1):

Рисунок 1 Логистическая кривая3

Возможности по моделированию нелинейных зависимостей у логистической регрессии отсутствуют. Однако для оценки качества модели логистической регрессии существует эффективный инструмент ROC-анализа, что является несомненным ее преимуществом.

  1. ROC-анализ

ROC-кривая (Receiver Operator Characteristic) – кривая, которая наиболее часто используется для представления результатов бинарной классификации.

Поскольку классов два, один из них называется классом с положительными исходами, второй – с отрицательными исходами. ROC-кривая показывает зависимость количества верно классифицированных положительных примеров от количества неверно классифицированных отрицательных примеров.

В процессе работы бинарной классификационной модели могут возникать ошибки – несоответствия выходных значений модели и реальных значений выборки. Предсказание, соответствующее положительному исходу, может быть распознано моделью как отрицательный исход (ложноотрицательная ошибка, ошибка I рода). Предсказание, соответствующее отрицательному исходу, наоборот, может быть распознано моделью как положительный исход (ложноположительная ошибка или ошибка II рода). Поэтому в бинарной классификации каждое предсказание может иметь следующие четыре исхода, которые приведены в табл. 1:

Таблица 1 Матрица классификации

Фактический класс

Предсказанный класс

Да

Нет

Да

TP, истинноположительный

FN, ложноотрицательный

Нет

FP, ложноположительный

TN, истинноотрицательный

ROС-анализ представляет собой графическую методику оценивания эффективности моделей с помощью двух показателей — чувствительности (Se) и специфичности (Sp). Чувствительность и специфичность показывают, сколько положительных и отрицательных исходов соответственно будут выявлены классификатором.

Se=TPTP+FN. (2)

Sp=TNTN+FP. (3)

Ложноположительные и ложноотрицательные ошибки будут давать различные издержки, а два типа корректной классификации — истинноположительный и истинноотрицательный — приносить прибыль.

Минимизировать издержки ошибок классификации можно с помощью выбора точки отсечения (cut-off point) — порогового значения вероятности, разделяющего классы. Таким образом, цель ROС-анализа заключается в том, чтобы подобрать такое значение точки отсечения, которое позволит модели с наибольшей точностью распознавать положительные или отрицательные исходы и выдавать наименьшее количество ложноположительных или ложноотрицательных ошибок.

В основе ROC-анализа лежат ROC-кривые. График ROC-кривой изображен на рис. 2.

Рисунок 2 ROC-кривая

Диагностируемое значение с нулевой степенью прогнозирования изображается диагональю. У идеальной модели кривая проходит через верхний левый угол, где доля истинноположительных случаев составляет 100%. Поэтому, чем больше выгнута ROC кривая, тем более точным является прогнозирование результатов модели. Индикатором этого свойства служит площадь под ROC кривой:

AUC=i=1nxi+1+xi2yi+1-yi , (4)

Где:

n - количество точек;

x – координата точки по оси абсцисс;

y – координата точки по оси ординат.

О том, насколько хорошей прогностической силой обладает модель можно судить исходя из таблицы 2. В ней представлена примерная экспертная шкала оценки качества модели в зависимости от площади под ROC-кривой.

Таблица 2 Качество модели в зависимости от площади под кривой

Интервал AUC

Качество модели

0,9-1

Отличное

0,8-0,9

Очень хорошее

0,7-0,8

Хорошее

0,6-0,7

Среднее

0,5-0,6

Неудовлетворительное

Идеальная модель имеет 100% чувствительность и специфичность. Но добиться этого на практике невозможно, т.к. одновременно повысить чувствительность и специфичность модели нельзя. Сто процентные чувствительность и специфичность означают, что все примеры как положительные, так и отрицательные распознаны, верно. Нужно находить компромисс с помощью порога отсечения, т.к. порог влияет на соотношение чувствительности и специфичности.

Часть 2

  1. Скоринг в банковском деле

Теперь рассмотрим практический пример построения логистической регрессии и ROC-анализа. Скоринг – автоматическая оценка кредитоспособности физического лица. Логистическая регрессия является традиционным статистическим инструментом для расчета коэффициентов скоринговой карты на основе накопленной кредитной истории. ROC-анализ обеспечивает управление рисками в зависимости от кредитной политики и стратегии организации.

Применительно к скорингу чаще всего используется метод бинарной логистической регрессии.

y=a+b1x1+b2x2+…+bnxn – регрессионное уравнение (5)

где y – зависимая переменная

a – константа;

bi – коэффициенты регрессионной функции;

xi – переменные (характеристики заемщика).

  1. Подготовка данных

Пример, рассмотренный далее, был взят из статьи Груздева А.В. «Метод бинарной логистической регрессии в банковском скоринге». Задача: построить логистическую регрессию и провести ROC-анализ по исходным данным. Для построения модели в данном примере использовалась программа SPSS.

Дано: 850 клиентов, 700 из которых мы используем для построения и оценки скоринговой модели, так как у них кредиты закрыты с известным результатом, а остальные 150 (уже потенциальных клиентов) полученная модель классифицирует на «плохих» и «хороших» заемщиков.

На один предиктор (переменную) должно приходиться не менее 20 наблюдений. В примере 183 таких наблюдения, поэтому максимальное количество переменных, которое можно включить в модель, — не более 9. Автор использует 8 предикторов.

  1. Построение регрессионной модели

Метод пошагового включения вводит переменные в модель по одной, шаг за шагом. На первом шаге вводится переменная, обычная корреляция которой с зависимой переменной максимальна (знак корреляции не важен). На каждом следующем шаге вводится переменная с самой сильной частной корреляцией. Для каждого шага вычисляется F-критерий для проверки гипотезы о равенстве нулю коэффициента при вновь введенной переменной. Для определения того, следует ли вводить переменную в уравнение (как и каждую последующую), значение F-критерия сравнивается с заданным уровнем. Переменная входит в уравнение только в случае, если вероятность, связанная с F-критерием, меньше или равна вероятности по умолчанию или той вероятности, которую мы зададим (по умолчанию это значение 0,05).

Процедура останавливается, когда установленный критерий для F-статистики больше не выполняется, то есть независимая переменная, которая должна быть введена в модель следующей, не является значимой (уровень значимости более 0,05). Все переменные, исключенные из анализа на последнем шаге, имеют уровень значимости больше, чем 0,05.

Таблица 3 (таб. 3) содержит статистики, применяемые для оценки важности предикторов.

Таблица 3 Переменные, включенные в уравнение

     

Стандартная ошибка

Вальд

Ст.св.

Знч.

Exp(B)

Шаг1

процдолгов

,121

,017

52.676

1

,000

1.129

constant

-2,476

,230

116.315

1

,000

,084

Шаг2

стаж

-,140

,023

38.158

1

,000

,869

процдолгов

,134

,018

54.659

1

,000

1.143

constant

-1,621

,259

39.038

1

,000

,198

Шаг3

стаж

-,244

,033

54.676

1

,000

,783

процдолгов

,069

,022

9.809

1

,000

1.072

картдолг

,506

,101

25.127

1

,000

1.658

constant

-1,058

,280

14.249

1

,000

,347

Шаг4

стаж

-,247

,034

51.826

1

,000

,781

проживание

-,089

,023

15.109

1

,000

,951

процдолгов

,072

,023

10.040

1

,002

1.074

картдолг

,602

,111

29.606

1

,000

1.826

constant

-,605

,301

4.034

1

,045

,546

Хотелось бы подробно рассмотреть Статистику Вальда. Статистика Вальда является критерием значимости коэффициента регрессии (бета-коэффициента) для соответствующего предиктора. Чем выше его значение (вместе с числом степеней свободы), тем выше значимость. Если уровень значимости статистики Вальда меньше 0,05, то данный параметр полезен для анализа модели.

Выявлены значительные взаимосвязи для случаев дефолта по четырем независимым переменным.

Наиболее сильное влияние на зависимую переменную оказывает переменная [стаж] (exp(B) = 0,781, p = 0,000, Wald= 51,826). Это обозначает, что каждый дополнительный месяц стажа у клиентов (при прочих равных условиях) снижает вероятность шансов возникновения дефолта у них на 22% (100% – 100% × 0,781).

Второе по значимости влияние оказала переменная [картдолг] (exp(B) = 1,826, p = 0,000, Wald = 29,606). Это означает, что c каждой тысячи долларов долга по кредитной карте вероятность шансов дефолта у клиентов (при прочих равных условиях) увеличивается в 1,826 раза, или на 83%.

Третьей значимой переменной стала переменная [проживание] (exp(B) = 0,915, p = 0,000, Wald = 15,109): с каждым дополнительным месяцем проживания (при прочих равных условиях) вероятность шансов дефолта уменьшается на 8%.

Четвертой по важности переменной стала переменная [процдолгов] (exp(B) = 1,074, p = 0,002, Wald = 10,040).

Согласно приведенным на рис. 3 значениям бета-коэффициентов полученное регрессионное уравнение выглядит следующим образом:

y=-0,605-0,247*стаж-0,089*проживание+0,072*процдолгов+0,602*картдолг

  1. Прогноз регрессионной модели

С помощью использования определенных инструментов программы SPSS, можно посмотреть, как модель предсказала риски по 150 потенциальным клиентам и тем 700 клиентам, у которых кредит закрыт с известным результатом погашения.

Вероятность дефолта вычисляется по формуле:

P=11+e-(-0,605-0,247*стаж-0,089*проживание+0,072*процдолгов+0,602*картдолг) (6)

Переменная принимает два значения: 0 — не было долгов по кредитам; 1 — были долги по кредитам.

При условии, что предсказанная вероятность дефолта меньше установленного порога отсечения (по умолчанию это значение 0,5), прогнозируется ответ 0. При условии, что предсказанная вероятность дефолта больше установленного порога отсечения, прогнозируется ответ 1.

Исходя из наблюдений, использованных для построения модели, 57 из 124 клиентов, у которых были долги по кредиту, классифицированы корректно. 352 из 375 «хороших» заемщиков классифицированы корректно. Всего 82% наблюдений в обучающей выборке классифицированы верно.

Подбор cut-off может помочь повысить точность корректных прогнозов по «плохим» заемщикам. Однако целесообразно сохранить спрогнозированные вероятности, а затем оценить ее прогностическую способность, выбрать наилучший порог отсечения, используя ROC-кривую.

  1. ROC-анализ

Что является положительным событием, а что отрицательным, зависит от задачи исследования. В примере А.В. Груздева отрицательным исходом будет класс «Не было долгов по кредиту», а положительным — класс «Были долги по кредиту». Таким образом, ошибкой I рода будет отнесение «плохих» клиентов к «хорошим», а ошибкой II рода — отнесение «хороших» клиентов к «плохим».

В примере чувствительность – это способность модели правильно определять тех клиентов, у которых дефолт есть. Модель с высокой чувствительностью характеризуется ужесточенным отбором клиентов — максимальным предотвращением пропуска «плохих» заемщиков — и является консервативной. Ее задача —минимизировать кредитный риск, связанный с выдачей кредита (уменьшить вероятность совершения ошибки I рода).

Специфичность – это способность модели правильно определять, у кого нет дефолта. Модель с высокой специфичностью менее тщательно выявляет «плохих» заемщиков и является рискованной. Ее задача — минимизировать упущенную выгоду, связанную с отказом в выдаче кредита (уменьшить вероятность совершения ошибки II рода).

В случае с разбираемой моделью (с порогом отсечения 0,5) таблица будет выглядеть так, как показано в Таблице 4 .

Таблица 4 Матрица ошибок классификации при пороге отсечения 0,5

 

Факт долга по кредиту

Были долги по кредиту

Не было долгов по кредиту

Были долги по кредиту

89

35

Не было долгов по кредиту

94

482

Чувствительность равняется TP / (TP + FN) = 89 / (89 + 94) = 89 /183 = 0,49, или 49%. Это означает, что 48,6% «плохих» заемщиков будут выявлены классификатором.

Специфичность равняется TN / (FP + TN) = 482 / (35 + 482) = 482 /517 = 0,93, или 93%. Следовательно, 6,8% «хороших» заемщиков получат отказ в предоставлении кредита.

Чтобы построить ROC-кривую используется программу SPSS.

Рисунок 3 ROC-кривая

ROC-кривая — это не кривая зависимости чувствительности от 1 минус специфичность. Здесь обе величины зависят от некоторой независимой переменной — порога отсечения (от 0 до 1), меняя который получаем координаты точек (чувствительность, 1 минус специфичность), отображаемые на графике.

В этом примере необходимо, чтобы модель точнее классифицировала «плохих» заемщиков. Для этого снижается порог отсечения, тем самым увеличивается чувствительность. По полученным с помощью программы данным находим, что баланс между чувствительностью и специфичностью находится в точке 0,277.

Таблица 5 Матрица ошибок при пороге отсечения 0,28

 

Факт долга по кредиту

Были долги по кредиту

Не было долгов по кредиту

Были долги по кредиту

142

114

Не было долгов по кредиту

41

403

Чувствительность равняется TP / (TP + FN) = 142 / (142 + 41) = 142 / 183 = 0,776, или 77,6%. Это означает, что 77,6% «плохих» заемщиков будут выявлены классификатором.

Специфичность равняется TN / (FP + TN) = 403 / (114 + 403) = 403 / 517 = 0,779, или 77,9%. Специфичность равна 77,6%, следовательно, 22,4% «хороших» заемщиков получат отказ в предоставлении кредита.

Вывод

Применение ROC-анализа лишний раз демонстрирует нам, что ни один метод анализа практически никогда не даст нам модели со 100% ной чувствительностью и 100% ной специфичностью. Чем больше чувствительность, тем меньше специфичность, и наоборот.

При минимизации вероятности совершения ошибки I рода, увеличивается вероятность совершения ошибки II рода и наоборот. Для какой-то части заемщиков мы всегда получим неверные результаты. Рассмотренная модель — не исключение.

Если первостепенной ставится задача минимизации кредитных рисков, максимального предотвращения пропуска «плохих» заемщиков, то можно уменьшить вероятность совершения ошибки I рода, понизить порог отсечения, увеличив чувствительность метода в ущерб специфичности.

В исследовании изначально заемщик является «плохим», если у него вероятность дефолта выше 50%. Снизим точку отсечения до 28%. Это обозначает, что заемщик объявляется ненадежным, если у него вероятность дефолта выше 28%. Мы ужесточаем требования, идем по пути минимизации рисков, чтобы не отнести «плохого» заемщика к «хорошему» (желая избежать ошибки I рода). При это возрастет вероятность совершить ошибку II рода, отказать в кредите, возможно, надежному заемщику, отнеся его к проблемным.

Если же главной задачей является расширение клиентской базы, то можно повысить точку отсечения, увеличив специфичность модели в ущерб чувствительности.

Список литературы

  1. Груздев А.В. Метод бинарной логистической регрессии в банковском скоринге. Риск-менеджмент в кредитной организации. 2012. С. 76–91. № 2

  2. Груздев А.В. Метод бинарной логистической регрессии в банковском скоринге. Риск-менеджмент в кредитной организации. 2012. С. 71-88. №1

  3. Многомерный статистический анализ в экономических задачах: компьютерное моделирование в SPSS: Учебное пособие / Под ред. И.В. Орловой. - М.: Вузовский учебник, 2009. – 309

  4. Орлова И.В., Турундаевский В.Б. Краткосрочное прогнозирование ипотечного кредитования // Экономика, статистика и информатика. Вестник УМО - 2013. – № 6. – С. 175-177.

Интернет-ресурсы:

  1. BaseGroup Labs [http://www.basegroup.ru/library/analysis/regression/logistic]

  2. Википедия [https://ru.wikipedia.org/wiki/Логистическая_регрессия]

1 BaseGroup Labs [http://www.basegroup.ru/glossary/definitions/binary_classific/]

2 BaseGroup Labs [http://www.basegroup.ru/library/analysis/regression/logistic/]

3 Википедия [https://ru.wikipedia.org/wiki/Логистическая_регрессия]

8

Просмотров работы: 11766