РЕШЕНИЕ ЗАДАЧИ КРЕДИТНОГО СКОРИНГА С ПОМОЩЬЮ МЕТОДА КЛАССИФИКАЦИИ

Данилова И.И. 1, Верба В.А. 1

1МТУСИ

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

В наше время все чаще возникает необходимость анализа больших данных, который может быть проведен вручную, а может быть проделан с помощью машинного обучения. В данной статье описывается применение метода классификации, задача которого состоит в том, чтобы отнести объект к одному из заранее определенных классов на основании его признаков. Такой метод анализа актуален для экономических исследований, для исследований в области медицины, психологии и политологии, а также в последнее время задачи классификации активно помогают в банковской сфере, например при принятии решении о выдачи кредитов, то есть в кредитном скоринге[1].

Банк должен качественно оценивать кредитные риски для повышения доходов. С помощью метода классификации клиента по группам риска банк может принимать решение стоит ли выдавать кредит заемщику и на каких условиях. Для оценки кредитоспособности клиента производится анализ данных, для физических лиц это в первую очередь анкетные данные(возраст, пол, образование, семейное положение, количество детей, имеет ли заемщик автомобиль/недвижимость, заработная плата, место жительство, сфера деятельности, трудовой стаж и др.), а также кредитная история клиента (сколько активных/закрытых кредитов, просрочка по всем открытым кредитам, наибольшая просрочка по кредитам и др.).

В самом упрощенном виде скоринговая модель представляет собой взвешенную сумму определенных характеристик, которые имеют наибольшее влияние на кредитоспособность клиента. В результате получается интегральный показатель (score); чем он выше, тем выше надежность клиента, и банк может упорядочить своих клиентов по степени возрастания кредитоспособности. Для построения скоринговой модели и решения задачи классификации применяются различные методы машинного обучения.

Метод построения деревьев решений (Decision Trees) является одним из самых популярных методов решения задач классификации и прогнозирования. Структурно дерево состоит из элементов трех категорий:

 узлы, не являющиеся листьями, – это атрибуты, по которым различают элементы, подлежащие классификации;

 листья, метки со значениями решений для классификации данных;

 ребра – значения атрибута, из которого исходит ребро.

Процесс классификации осуществляется путем передвижения по узлам дерева сверху вниз. На каждом уровне дерева решение принимается на основе значений атрибутов. Каждый узел включает в себя проверку одной независимой переменной (атрибута). Иногда в узле дерева сравнивают между собой две независимые переменные или определяют некоторую функцию от одной или нескольких переменных. Если значением переменной является число, то проверяют больше или меньше это значение некоторой константы. Иногда область числовых значений разбивают на интервалы и проверяют попадание значения в один из них. Результат оценки всегда соответствует только одному из ребер, исходящих из узла принятых решений [2]. Помимо огромного количества достоинств(прост в понимании и интерпретации, не требует подготовки данных, позволяет работать с большим объемом информации), метод решающих деревьев имеет серьезный недостаток - сильное переобучение. Другими словами, деревья слишком легко подгоняются под обучающую выборку и получаются непригодными для построения прогнозов. Но решающие деревья очень хорошо подходят для объединения в композиции (ансамбли) и построения одного непереобученного алгоритма на основе большого количества решающих деревьев.

Ансамбль (композиция) — это объединение N алгоритмов b₁(x), ..., bN (x) в один. Идея заключается в том, чтобы обучить алгоритмы b₁(x), ..., bN (x), а затем в задачах классификации взять знак от получившегося выражения:

Алгоритм a(x), который возвращает знак среднего, называется композицией N алгоритмов b₁(x) ..., bN(x), а они сами называются базовыми алгоритмами.

Чтобы построить композицию, нужно сначала обучить N базовых алгоритмов на разных подвыборках, для этого следует воспользоваться одним из популярных подходов - бутсрап. Он заключается в том, что из исходной выборки выбирают с возвращением l объектов, это будет первая выборка. Затем новая выборка также будет иметь размер l, но некоторые объекты в ней будут повторятся, а некоторые объекты из исходной выборки в нее не попадут. Случайные леса - один из лучших способов объединения деревьев в композиции.

Алгоритм построения случайного леса

Чтобы построить случайный лес из N решающих деревьев, необходимо:

1. Построить с помощью бутстрапа N случайных подвыборок n, n = 1, ..., N.

2. Каждая получившаяся подвыборка n используется как обучающая выборка для построения соответствующего решающего дерева bn(x). Причем:

• Дерево строится, пока в каждом листе окажется не более n_min объектов. Очень часто деревья строят до конца (n_min = 1), чтобы получить сложные и переобученные решающие деревья.

• Процесс построения дерева рандомизирован: на этапе выбора оптимального признака, по которому будет происходить разбиение, он ищется не среди всего множества признаков, а среди случайного подмножества размера q.

• Следует обратить особое внимание, что случайное подмножество размера q выбирается заново каждый раз, когда необходимо разбить очередную вершину.

3. Построенные деревья объединяются в композицию:

простыми словами — мы выбираем решение голосованием по большинству.

Каждое дерево из случайного леса обучается на бутстрапированной выборке, в которую попадают приблизительно 63% объектов полной выборки. Таким образом, около 37% объектов выборки не использовались при обучении этого дерева, а значит их можно использовать для оценки обобщающей способности случайного леса. Такой подход носит название out-of-bag и позволяет оценивать качество леса без использования отложенной выборки.

Формула для оценки качества случайного леса из N деревьев в рамках подхода out-of-bag имеет вид:

Эта формула устроена таким образом, что для каждого объекта x_i из обучающей выборки вычисляется средний прогноз по тем деревьям, в обучающую выборку которых не входит объект x_i:

Для полученного прогноза вычисляется значение ошибки. В качестве оценки качества случайного леса используется сумма таких значений для всех элементов выборки[3].

Применение метода случайного леса для решения задачи кредитного скоринга

В открытом доступе имеется файле SAMPLE_ACCOUNTS.CSV[4], в котором предоставлены данные из ответов кредитных бюро на все запросы по соответствующим клиентам. Часть набора данных представлена в Таблице №1.

Данные представляют собой 50000 клиентов по каждому кредиту, состоящие из 72 признаков (Идентификатор клиента; Код бюро, из которого получен счет; Дата, в которую был сделан запрос в бюро; Дата открытия договора; Дата финального платежа (плановая) ; Код типа договора ; Дисциплина (своевременность) платежей; Статус договора; Оставшаяся непогашенная задолженность и др.).

Таблица №1.Часть набора данных

customer_id	bureau_cd	bki_request_date	inf_confirm_date	type	status	open_date	final_pmt_date	fact_close_date	credit_limit
1	2	40767	40744	99	0	40676	41040		28967
1	1	40767	39862	99	13	39505	39870	39870	30000
1	1	40767	39924	99	13	39261	39629	39923	19421
1	1	40767	40043	9	13	39644	40042	40042	11858
1	1	40767	40427	99	13	39942	40308	40429	19691
1	1	40767	40752	7	52	40428	51386		10000
1	1	40767	40756	9	0	40421	42247		169000
1	1	40767	40758	9	0	39876	41701		300000
1	3	40767	39638	9	0	39261	39629		19421
1	3	40767	39710	9	0	39505	39870		30000
1	3	40767	40435	9	13	39942	40308	40427	19691
1	3	40767	40735	9	0	40421	42247		169000

У одного заемщика может быть несколько кредитов и по каждому из них в разных бюро может быть разная информация. Поэтому необходимо выполнить преобразования, чтобы одному заемщику соответствовала одна строка. Считается общее количество активных кредитов, максимальная задолженность по кредиту, сумма задолженностей по всем кредитам и др.

Задача состоит в том, чтобы разделить клиентов на 3 класса по количеству дней просроченной задолженности (Х). Условия попадания в каждый класс описаны в Таблице №2.

Таблица №2. Разбиение клиентов на 3 класса

Класс	Хорошие	Плохие	Дефолтники
Условие	0 ≤ X

Просмотров работы: 376

Код для цитирования:

X Международная студенческая научная конференция Студенческий научный форум - 2018

РЕШЕНИЕ ЗАДАЧИ КРЕДИТНОГО СКОРИНГА С ПОМОЩЬЮ МЕТОДА КЛАССИФИКАЦИИ

Студенческий научный форум - 2018
X Международная студенческая научная конференция