Требования к данным скоринговых моделей. Формирование скоринговой модели оценки кредитоспособности корпоративного заемщика Скоринговый анализ

  • 31.01.2024

С развитием банковской сферы в нашей стране, практически каждый гражданин хоть однажды обращался в кредитные организации за займом, поэтому процедура оформления кредитной сделки знакома многим. При подаче заявки, кредитный специалист оценивает платежеспособность потенциального клиента путем метода финансового скоринга. В этой статье мы ответим на вопрос: «Скоринг, что это такое и какие особенности имеет процедура подсчета очков?

Получение прибыли банка напрямую зависит с качеством кредитного портфеля. Чем меньше финансовых рисков, тем большая вероятность быстрого возврата заемных средств с дополнительной прибылью от уплаты процентов. Именно поэтому, рассматривая заявки на выдачу ссуды, банк проводит скрупулезную проверку потенциальных клиентов, анализируя возможные финансовые риски.

Дословно, в переводе с английского языка, «скоринг» означает «подсчет очков». Какие именно очки считают финансовые аналитики и для чего им это нужно?

Скоринг – это целая система распределения базы клиентов на основании статистических данных. Это своеобразный финансовый помощник в определении потенциальной платёжеспособности клиента и оперативного оценивания, который сегодня широко применяется в банковской сфере.

Система подсчета баллов для анализа используется для автоматической обработки данных заемщика, на основании которых выставляет общая оценка по клиенту. Простыми словами, это своеобразный тест, который проходит каждый клиент при подаче заявки. Каждый ответ приносит определенное количество балов по шкале возможных рисков.

Существует допустимое количество баллов, которое переводит клиент из зоны риска и автоматически определяет его потенциальную платежеспособность. Соответственно, не набрав нужного количества баллов, сложно рассчитывать на положительное решение. В некоторых случаях, банки могут проявить лояльность и предложить меньшую сумму займа при низких баллах скоринговой оценки.

При заявке на большую сумму займа (например, автокредит или ипотека), скоринговая оценка будет выступать в качестве дополнительного инструмента оценивания возможных рисков. Решение же будет приниматься на основании многих факторов.

Технические особенности скоринга

Следует понимать, что процедура оценивания клиента программой – это строго конфиденциальная информация и принцип ее действия сотрудники банка не раскрывают. Как правило, клиенту выдается сухая информация в виде отказа либо одобрения займа, а вот технические нюансы алгоритма клиент знать не должен.

Специалисты утверждают, что за каждый ответ программа начисляет определённые баллы, при чем не так легко заранее просчитать механизм действия ответов на конечный результат скоринга.

Стандартно, чем больше баллов клиент набирает, тем больший шанс получить положительный ответ по заявке. Однако, у каждого банка действует своя собственная процедура оценивания финансовых рисков и сказать, что скоринговая оценка – это типичный калькулятор баллов, было бы не верно.

Это сложнейший математический алгоритм, который может делать выводы на основании обработанных данных, производить анализ социальных факторов по уже сущетвующей клиентской базе за несколько лет.

Например, скоринговая программа может обработать данные о неплательщиках или должниках за последние 3-5 лет и выявить типичные социальные, возрастные или поведенческие факторы. На основании этих данных, будет заложена корректировка оценки и при анализе следующих клиентов, программа будет учитывать эти новые факторы.

Допустим, в базе данных конкретного банка, есть 10 должников со схожими признаками. При обращении нового клиента с похожим признаком его автоматически будет здесь ждать отказ. Но это вовсе не означает, что такой же результат он получит и в другом банке. Как уже говорилось выше, у каждого банка существует своя собственная скоринговая оценка.

Справедливости ради следует заметить, что скоринговая оценка не является идеальной программой анализа финансовых рисков, по мнению экспертов.

Так, например, широко известны случаи, когда клиентам, которые обращались в банк за кредитом на телевизор, был дан отказ. При этом спустя три месяца, банк одобрял авто кредит этим же самым клиентам. Парадокс? Не совсем.

Дело в том, что программа при первом обращении анализировала всех заемщиков, взявших кредит в пределах 10-30 тысяч рублей. И клиент мог попасть в зону риска по определенным поведенческим факторам. А по кредиту на большую сумму денег для авто, программа учитывала уже другую группу лиц, которая исправно выплачивает займ банку.

Виды кредитного скоринга

В соответствии с задачами, которые поставлены перед программой, скоринг подразделяют на:

  • Скоринг заявителя (application scoring), подразумевает подсчет вероятности невозврата кредита клиента из-за низкой платежеспособности;
  • Скоринг от мошенников (fraud scoring) – фильтрация клиентов по принципу подозрения в мошенничестве. Как правило, оценивание происходит на первом этапе, при тщательной проверке документов.
  • Поведенческий скоринг – на основании факторов поведения уже существующих заемщиков, вычисляется процент финансового риска при выдаче займа клиенту.
  • Скоринг взыскания такая модель оценивания работает на этапе возврата непогашенных кредитов. Программа позволяет составить план действий для взыскания займа с клиента.

Методика оценивания клиента проводится на основании социальных признаков, которые характеризуют заемщика. При этом ключевым моментом такого оценивания является автоматизация процесса и исключение участия человеческого фактора в процессе оценивания.

Скоринговая оценка кредитоспособности физического лица

Если после занесения всех ответов в программу, кредитный специалист отвечает, что скоринг пройден, это означает, что основная часть аналитической проверки пройдена. Далее заявка физического лица уходит в службу безопасности, где специалисты банка проверяют клиента уже по своему ряду критериев.

Проведение скоринговой оценки позволяет полностью исключить человеческий фактор. Это может быть предвзятое отношение специалиста к определенному клиенту, либо, напротив, чересчур лояльное отношение и намеренное укрытие некоторых факторов, которые указывают на повышенный финансовый риск для банка.

Информация, на основании которой происходит скоринговой анализ, берется из документов и не может быть искажена. В тех случаях, когда информация заносится со слов клиента, кредитный скоринг имеет меньшую эффективность при определении рисков.

Кредитный риск для банка – это возможная финансовая потеря вследствие невыполнения заемщиком взятых на себя обязательств. Причины могут быть самые разные: просроченные платежи, отказ от выплаты кредита и т.д. В этом случае скоринговая оценка является эффективным финансовым инструментом, который в комплексе с изучением кредитной истории позволит максимально точно определить потенциальную платежеспособность клиента.

Данные для проведения скоринга

В стандартный список вопросов входят следующие:

  • семейное положение;
  • возраст;
  • место работы (если пенсионер работает);
  • стаж;
  • образование (специальность);
  • указание дополнительный доход и т.д.

Также следует учитывать, что банковский работник при заполнении анкеты проводит визуальную оценку наряду со скорингом.

У специалиста есть подробная инструкция по определению платежеспособности клиента, куда входит анализ внешнего вида, речи клиента, соответствие поведения и указанной должности в анкете. Производя визуальную оценку потенциального заемщика, его речь, скорость ответа, поведение, кредитный консультант может добавить комментарий к заявке с примечанием отказать в кредите. При этом документы у клиента могут быть в порядке.

Чтобы повысить шансы на получение займа, отвечать нужно максимально точно и, без лишних раздумий, так как все это фиксируется экспертом в анкете и отправляется на проверку аналитику.

Недоверие может вызвать алкогольное опьянение, медленные запутанные ответы, незнание простой информации (телефон, рабочий адрес и т.д.), эмоциональная неустойчивость, несоответствие внешнего вида с указанным в анкете ежемесячным доходом и т.д.

Как видите, у банка есть очень много критериев проверки клиентов, среди которых, безусловно, большое внимание занимает кредитная история и финансовый скоринг.

Какие данные рассматриваются при скоринге

Алгоритм финансового скоринга достаточно сложен и учитывает множество факторов при выставлении общей оценки финансовых рисков.

У каждого банка существует свой собственный алгоритм проверки платежеспособности клиента и дисциплинированности относительно выплаты кредита.

Стандартно, рассматриваются следующие вопросы:

Проверка кредитной истории – заключительный этап скоринга

Заключительным этапом финансового скоринга, является проверка кредитной истории.

При положительной истории, клиент может смело рассчитывать на одобрение займа. Но это вовсе не означает, что банк даст согласие на кредит любой суммы. Положительная история гарантирует лишь факт одобрения банком займа, а вот размер суммы будет зависеть от дохода и потенциальной платежеспособности клиента.

Где банки берут информацию и как эти данные отражаются на принятии решения? Для упорядочивания работы с бюро кредитных историй и с целью создания единой базы данных, был создан государственный реестр бюро кредитных историй. Этот реестр находится в ведомстве Центрального Банка РФ и имеет все полномочия собирать и аккумулировать данные о выданных кредитах физических и юридических лиц.

У РБКИ находится наиболее полная и актуальная информация по всем клиентам, которая постоянно добавляется и обновляется. Каждый банк самостоятельно для себя определяет алгоритм фильтрации клиентов с «плохой» кредитной историей.

Подводя итог, следует сказать, что, несмотря на очевидные недостатки программы, скоринговая оценка клиента является эффективным инструментом для банка, позволяющим максимально снизить финансовые риски.

Видео. Суть скоринга

Скоринг - используемая банками система оценки клиентов, в основе которой заложены статистические методы. Как правило, это компьютерная программа, куда вводятся данные потенциального заёмщика. В ответ выдается результат - стоит ли предоставлять ему кредит. Название скоринг происходит от английского слова score, то есть «счет».

Существуют четыре вида скоринга:

application-scoring (дословный перевод с английского - «скоринг заявки, обращения») - оценка кредитоспособности заемщиков при выделении кредита. Это самый распространенный и известный клиентам вид скоринга. В его основе лежат первичный сбор анкетных данных заемщика, их обработка компьютером и вывод результата: предоставлять заем или нет;

collection-scoring - система скоринга на стадии работы с невозвращенными займами. Определяет приоритетные действия сотрудников банка для возврата «плохих» кредитов. Фактически программа позволяет предпринять ряд шагов по работе с невозвращенными долгами, например от первичного предупреждения до передачи дела коллекторскому агентству. Считается, что в процессе такой обработки порядка 40% клиентов ссылаются на забывчивость и возвращают кредит;

behavioral-scoring, «скоринг поведения» - оценка наиболее вероятных финансовых действий заемщика. Такая система дает возможность прогнозировать изменение платежеспособности заемщика, корректировать установленные для него лимиты. Основой анализа могут служить действия клиента за определенный период, например операции по кредитной карте;

fraud-scoring - статистическая оценка вероятности мошеннических действий со стороны потенциального заемщика. Такой скоринг, как правило, используется совместно с другими видами исследования клиентов. При этом считается, что до 10% невозвратов по кредитам связаны в России с откровенным мошенничеством и этот показатель растет.

Многие скоринговые системы не только обрабатывают введенные данные, но и способны к самообучению: они учитывают модель поведения уже принятых на обслуживание клиентов, чтобы корректировать свою оценку будущих заемщиков.

На рынке программного обеспечения для банков существуют готовые решения. Самые известные западные программы - SAS Credit Scoring, EGAR Scoring, Transact SM (Experian-Scorex), K4Loans (KXEN), Clementine (SPSS). Среди российских разработчиков выделяются Basegroup Labs, «Диасофт», известна украинская компания "Бизнес Нейро-Системы". В то же время многие банки разрабатывает свои собственные системы.

Скоринговые системы позволяют снизить издержки и минимизировать операционный риск за счет автоматизации принятия решения, сокращают время обработки заявок на предоставление кредита, дают возможность банкам проводить свою кредитную политику централизованно, обеспечивают дополнительную защиту финансовых организаций от мошенничества. В то же время скоринг имеет и ряд недостатков: часто решение системы основано на анализе данных, предоставленных исключительно самим заемщиком. Кроме того, скоринговые системы необходимо постоянно дорабатывать и поддерживать, т. к. они учитывают только прошлый опыт и реагируют на изменения социально-экономической ситуации с запозданием.

Скоринг (от английского score, счет) - это способ оценки кредитоспособности. Вам как заемщику скоринг интересен для самодиагностики: узнать причины отказа в кредитовании или оценить шансы на будущий кредит. В статье расскажем, как узнать свой скоринговый балл и как его увеличить.

Принцип работы скоринга

Для оценки кредитоспособности скорингу нужны данные. Данные могут быть из разных источников: кредитной истории, анкеты заемщика, социальных сетей и т. д. Скоринг обрабатывает данные и выставляет оценку в баллах. Чем выше скоринговый балл, тем выше шансы получить кредит на выгодных условиях.

Скоринговый балл — величина непостоянная. Он меняется в зависимости от действий заемщика. Например, заемщик взял кредит — выросла кредитная нагрузка и скоринговый балл снизился. Просрочил платеж — балл упал еще ниже. Если заемщик аккуратно без просрочек выплатит кредит — балл увеличится.

Виды скоринга

Банки используют заявочные, поведенческие и мошеннические скоринги.

Заявочный скоринг делится на социодемографический и кредитный. Первый анализирует анкету заемщика: возраст и пол, работу, стаж, размер доходов. Второй анализирует кредитную историю: сколько кредитов брал заемщик, как платил, сколько платит сейчас и т. д.

Поведенческий скоринг предсказывает, как заемщик будет выплачивать кредит: равномерно, с опережением или с просрочками. Поведенческий скоринг может провести, например, зарплатный банк — он знает, как заемщик пользуется картой, сколько денег и на что тратит.

Мошеннический скоринг борется с намеренными невыплатами кредитов. Этот скоринг анализирует базы МВД, ФССП, внутренней службы безопасности, а также подозрительные данные в кредитной истории, например, частую смену адресов и телефонов.

Вы как заемщик можете оценить себя двумя видами скоринга: кредитным и социодемографическим.

Кредитный скоринг

Кредитный скоринг используется для оценки заемщиков, которые уже брали кредиты. Скоринговый балл рассчитывается на основе анализа кредитной истории.

Пример отчета кредитного скоринга

Социодемографический скоринг

Социодемографический скоринг предназначен для заемщиков с пустой или отсутствующей кредитной историей. Он анализирует возраст, пол, семейное положение, наличие иждивенцев, образование, профессию, трудовой стаж, доходы и регион проживания.

Соцдем скоринг сверяет данные проверяемого заемщика с предыдущими клиентами банка, чтобы оценить благонадежность. Например, по статистике банка люди старше 30 лет вносят платежи по кредитам стабильнее, чем молодежь. Поэтому заемщики от 30 лет при прочих равных условиях получают более высокий скоринговый балл.


Пример отчета социодемографического скоринга

Расшифровка скоринговых баллов

Кредитный Социодемогр. Расшифровка
690-850 1000-1200 Максимальный результат. Вы относитесь к категории надежных заемщиков. Таким банки охотно одобряют кредиты на лучших условиях
650-690 750-1000 Хороший результат. Высокая вероятность получить кредит на стандартных условиях.
600-650 500-750 Приемлемый результат. Банк потребует дополнительные справки для подтверждения платежеспособности, например, 2-НДФЛ.
500-600 250-500 Слабый результат. С таким баллом вы вряд ли получите кредит в крупных банках. Обратитесь в небольшие региональные банки или кредитные кооперативы.
300-500 0-250 Худший результат. В банках кредит вряд ли одобрят. Обращайтесь в МФО или КПК. Предложите кредитору залог.

Как повысить скоринговый балл

Если у вас низкий кредитный скоринг, вариант его повышения один — улучшать кредитную историю. Для этого:

  • и проверьте, все ли в ней соответствует действительности. Иногда кредитные организации передают данные с большим опозданием, а то и вовсе не передают. Например, вы кредит погасили, а в кредитной истории он числится открытым. Это снижает скоринговый балл.
    Читайте статью
  • Закройте просрочки платежей и необязательные кредиты: кредитные карты, микрозаймы, кредиты на технику. Чем меньше открытых кредитов, тем выше скоринговый балл.
  • Если за последние два года у вас были кредиты с просрочками, нужно восстановить репутацию надежного заемщика. Для этого берите новые кредиты и аккуратно их выплачивайте. Не дают кредит без обеспечения — предоставьте залог, найдите созаемщика. Воспользуйтесь услугой . Через полгода-год скоринговый балл увеличится.

Чтобы увеличить балл социально-демографического скоринга, изучите «факторы» из отчета и постарайтесь их исправить. Например, если вы ИП, трудоустройтесь и проработайте полгода в найме. Найдите созаемщика, съездите за границу, найдите источник дополнительного дохода.

Запомнить

Скоринг помогает заемщикам оценить собственную кредитоспособность и разобраться в причинах банковских отказов.

Скоринги бывают разные: одни анализируют кредитную историю, другие анкету, третьи ищут признаки мошенничества. Вам доступны два вида скоринга — и социодемографический. Первый актуален для заемщиков с опытом кредитования, второй — для тех, кто никогда не брал кредиты.

Скоринговый балл меняется в зависимости от кредитного поведения. Балл можно снизить или повысить.


Для построения скоринговых моделей (причем независимо от выбранного математического подхода) берется репрезентативная выборка из предыдущих заявителей (от нескольких тысяч до сотен тысяч - что не проблема для отрасли, обслуживающей десятки миллионов клиентов). Для каждого заявителя из выборки извлекается полная информация из анкеты-заявления и информация из его кредитной истории за фиксированный период времени (обычно 12, 18 или 24 мес.). Затем принимается экспертное решение, какую историю считать приемлемой, т.е. является ли клиент "хорошим" или "плохим". Чаще всего "плохим" считается клиент, не выплативший по кредиту 3 месяца подряд. Всегда оказывается некоторое число клиентов, которых нельзя отнести ни к "хорошим", ни к "плохим", поскольку
они либо недостаточно давно получили кредит (прошло слишком мало времени), либо их кредитная история "неясна" (например, были задержки по 3 месяца, но не подряд). Как правило, такие "промежуточные" клиенты исключаются из выборки.
Эмпирические требования к базе данных, используемых для построения скоринговой модели:
размер выборки - не менее 1500 всего, не менее 500 плохих;
четкое определение критерия "плохой"/"хороший". Далеко не всегда ясно, на каком этапе кредитной истории, по какому признаку и на каком уровне разделять "плохих" и "хороших";
четкое определение временного отрезка - периода жизни продукта (зависит от самого продукта и может меняться от месяца - мобильный телефон до десятилетий - ипотека);
стабильность состава клиентской группы - демография, миграции, сохранение привычек потребления;
неявное, но обязательное требование: стабильность экономических, политических, социальных и прочих условий.
При построении кредитных моделей существенным является выбор временного горизонта - отрезка времени между подачей заявления (выдачей кредита) и классификацией "плохой"/"хороший". Анализ показывает, что процент дефолта как функция длительности нахождения клиента с организацией поначалу растет и только через 12 месяцев (кредитные карты) и даже более (разовые займы) начинает стабилизироваться. Таким образом, меньший временной горизонт приводит к недооценке и не учитывает полностью всех характеристик, предсказывающих дефолт. С другой стороны, временной горизонт более двух лет оставляет модель подверженной к сдвигам в составе клиентской группы в течение этого времени, т.к. как состав клиентов в выборке в начале временного горизонта может оказаться существенно отличным от состава клиентов, приходящих в настоящее время. Фактически используются два единовременных среза (в начале и в конце временного горизонта) для создания модели, которая стабильна по времени (за пределами начального временного отрезка). Это и диктует выбор длины временного отрезка - временного горизонта при моделировании.
Другим чрезвычайно важным и дискутируемым вопросом остается соотношение "хороших" и "плохих" в выборке. Должно ли оно отражать реальное соотношение их в составе населения или их должно быть равное число (такое соотношение резко облегчает построение модели с математической точки зрения)?
Далее построение скоринговой модели превращается в классификационную проблему, где входными характеристиками (или параметрами) являются ответы на вопросы анкеты-заявления и параметры (или данные), получаемые в результате проверок из различных организаций (например, полиции, судов, местных советов, кредитных бюро и т.д.), а выходными характеристиками (ответом) - искомым результатом - является разделение клиентов на "хороших" и плохих" согласно имеющимся кредитным историям, сопоставленным по этим входным характеристикам.
Собственно рейтинговая таблица (scorecard) - это система придания численных баллов (счета) характеристикам (или параметрам) заемщика для получения искомого числового значения, которое отражает, с какой вероятностью у заемщика по отношению к другим заемщикам произойдет некое событие или он совершит определенное действие (аспект "по отношению" в определении очень важен).
Кредитная рейтинговая таблица, например, не показывает, какой уровень риска следует ожидать (скажем, какой процент кредитов данного типа, вероятно, не будет возвращен); вместо этого она показывает, как данный заем, скорее всего, будет вести себя по отношению к другим займам. Например, ожидается ли, что процент невозвратов или дефолтов для кредитов с данным набором атрибутов будет больше или меньше, чем у кредитов с другим набором.
Большинство рейтинговых таблиц построены с помощью расчета регрессионной модели - статистической модели, которая проверяет, как отдельный параметр (характеристика) влияет на другой параметр или (чаще всего) на целый набор других параметров.
Регрессионная модель дает в результате своего применения набор коэффициентов (factors), называемых регрессионными, которые можно интерпретировать как корреляцию между искомыми параметрами (которые необходимо определить) и объясняющими параметрами, сохраняя неизменными все остальные воздействия на искомые параметры. Эти коэффициенты превращаются в веса баллов (point weights) в рейтинговой таблице.
Самый часто используемый метод построения рейтинговых таблиц
Чаще всего для построения рейтинговых таблиц используется статистический метод логистической регрессии. Однако для объяснения этого подхода стоит начать с простой линейной регрессии, а потом перейти к логистической - как особого случая линейной.
В простейшем случае линейная регрессия пытается найти линейную связь между двумя переменными: X и К Переменная Y, которую пытаются спрогнозировать, определяется как зависимая (поскольку она зависит от X). Переменная X является объясняющей, поскольку она "объясняет", почему У меняется от одного индивидуума к другому.
С помощью линейной регрессии пытаются выяснить следующее: если меняется X, то насколько

вероятно, что в результате этого также изменится и К Для того чтобы это сделать, необходим набор данных, в котором можно наблюдать множество пар X и соответствующих ему К Когда они будут отложены на плоскости XY и будет получено некое множество, может оказаться, что оно ложится на некую прямую, т.е. есть определенная связь между X и Y, которую можно попытаться аппроксимировать с помощью уравнения:
Y = B_0 + B_1 x X_1
где
B0 - это величина Y, когда X = 0;
B1 - наклон прямой линии.
Эти В. являются коэффициентами регрессии. На практике, скорее всего, окажется несколько объясняющих переменных:
Y = B_0 + B_1 x X_1 + B_2 x X_2 + ... + B_n x X_n.
Логистическая регрессия в сравнении с линейной регрессией
При использовании скоринга, как правило, зависимая переменная принимает значения в очень небольшом диапазоне. Чаще всего работают с бинарной переменной, т.е. такой, которая принимает только два целых значения: так, например, по кредиту дефолт или произошел, или нет; клиент, получивший каталог по почте или ответил, или нет. Как правило, в таком случае дефолту приписывают значение "1", а выплаченному кредиту - значение "0".
Модель в итоге должна оценить вероятность дефолта по кредиту (или ответа клиента на каталог).
И хотя линейная модель иногда используется для расчета рейтинговой таблицы, логистическая регрессия оказывается много удобнее, поскольку она специально построена для случаев, когда зависимая переменная - бинарная (т.е. принимает, как мы уже говорили, только два значения).
Линейная регрессия может давать значения вероятности и меньше нуля, и больше единицы, что лишено смысла. Логистическая модель избегает этого, поскольку работает не с самим бинарным значением зависимой переменной, а с вероятностью или шансами (odds), что это значение действительно реализуется. Логарифм отношения вероятности реализации к вероятности нереализации называют логитом (logit), который может принимать любые значения, как отрицательные, так и положительные. Поэтому для логитов вполне можно использовать модель линейной регрессии (отсюда и название "логистическая").
В модели логистической регрессии объясняющие переменные, умноженные на свои коэффициенты, предполагаются линейными по отношению не к Y, как в линейной регрессии, а к логиту - натуральному логарифму отношения шансов:
ln (p/(1 - p)) = B_0 + B_1 x X_1 + B_2 x B_2 + X_2 + ... + B_n x X_n, где
р - вероятность того, что V произойдет;
р/(1 - р) - отношение шансов.
Шансы и соотношение шансов
Соотношение шансов позволяет сравнивать уровни рисков для разных кредитов. Так, если для одного р1/(1 - p_1) = 0,11, а для другого р2/(1 - р2) = 0,052, то их отношение составит 0,46, т.е. риск невозврата по одному кредиту составляет чуть меньше половины риска невозврата по второму кредиту.
Самые важные выводы из этого следующие: необходимо получать сами шансы и их отношения для разных кредитов из логистических регрессий, т.к. только так удается прямо сопоставить и учесть как влияние отдельных характеристик на уровень риска, так и относительный риск одного кредита по отношению к другому. Попытки обойтись одной рейтинговой таблицей не позволяют оценить рисковость одного кредита относительно другого в силу возможного влияния характеристик, которые были учтены для одного и не учтены для другого.
Вычисление относительных весов отдельных характеристик рейтинговой таблицы
Построив и оценив логистическую модель, можно подставить величины X для любого заявителя или кредита и вычислить счет (score), используя уравнение:

Однако этот счет представлен в шкале натуральных логарифмов, что неудобно для интерпретации. Поэтому счет переводится в линейную шкалу, где определенное число баллов выбирается так, чтобы это число обеспечивало удвоение шансов того, что определенное событие произойдет. Для этого необходимо умножить счет на множитель, равный числу баллов, которое должно представлять удвоение шансов, а затем поделить на 1n(2):
счет по линейной шкале = (В 1 х Х 1 + ... + Вп х Хп) х (20/1п(2)),
если желаемое число баллов, необходимое для удвоения шансов, равно 20.
Иначе, если надо узнать, сколько именно баллов дает каждая характеристика, можно умножить каждое В_1 на (20/(1n(2)), а затем умножить на значение параметра X_1.
Использование КС-статистики для оценки полученной рейтинговой таблицы
Скоринговая таблица конструируется так, чтобы ранжировать различные кредиты в терминах шансов по отношению к определенному событию. Необходимо, чтобы такая скоринговая таблица приписывала кредитам, с которыми происходит некое событие, и кредитам, с которыми оно не происходит, различные счета.
Например, кредитная скоринговая таблица (скоринговая карта) приписывает меньший счет тем кредитам, которые впоследствии испытают серьезные трудности с возвратом или перейдут в дефолт, так что в целом группа плохих кредитов должна иметь меньшие счета, чем группа хороших кредитов.
Для определения качества полученной таблицы строятся графики - кривые распределения процентов хороших и процентов плохих кредитов (от соответствующего общего числа хороших и плохих) в зависимости от величины счета, и качество скоринговой таблицы (карты) характеризуется тем, насколько эти две кривые разделяются.
Именно для численного определения качества разделения и используется статистика Колмогорова-Смирнова (K-S statistics), которая дает числовую меру этого разделения. Статистика КС вычисляется просто: это максимум разности между кумулятивным процентом распределения "хороших" и кумулятивным процентом распределения "плохих". Теоретически статистика КС может принимать значения от 0 до 100, однако на практике она обычно оказывается в диапазоне от 25 до 75.
Примерная градация выглядит так:
меньше 20 - наверное, скоринговая таблица непригодна к применению;
20-40 - неплохая таблица;
41-50 - хорошая таблица;
51-60 - очень хорошая таблица; />61-75 - поразительно хорошая таблица;
больше 75 - вероятно, слишком хороший результат, чтобы быть правдой, наверное, что-то неправильно* (128).
Следует отметить, что качество скоринговых моделей следует постоянно проверять и мониторинг является обязательной процедурой в процессе эксплуатации. Со временем могут меняться как экономические условия, так и поведенческие особенности заемщиков, и только своевременная подстройка или даже замена скоринговых моделей обеспечат эффективное управление кредитными рисками.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

Размещено на http://www.allbest.ru/

  • Введение
    • 1.4 Нейронные сети
    • 1.5 CHAID анализ
    • 1.6 Другие методы
    • 2.1 Постановка задачи
    • 3.1 Задача Монжа-Канторовича
    • 3.2 Применение задачи Монжа-Канторовича к скорингу
  • Заключение
  • Список литературы

Введение

Скоринг - это эвристический способ построения рейтингов и классификации различных объектов на группы. Он основывается на предположении о том, что люди со схожими социальными показателями ведут себя одинаково. Он применяется в банковской сфере, маркетинге, страховом деле.

Основной целью традиционного скоринга является классификация клиентов банка на “хороших” и “плохих”, исходя из которой кредитор может выбирать соответствующие действия по отношению к данному клиенту. “Плохого” клиента, к примеру, можно определить как клиента с низкой эмпирической вероятностью возвращения кредита. Но, как правило, такое определение “плохого” клиента расширяется до любого нежелательного банку поведения клиента. Классификация осуществляется на основе скоринговой карты с помощью которой рассчитывается скоринговый балл клиента. скоринг дискриминантный байесовский

Из литературы, посвященной скорингу, отметим несколько работ.

“Руководство по кредитному скорингу” под редакцией Элизабет Мейз, 2008 г. - единственная книга о скоринге на русском языке. Описываются общие понятия, разбираются методы построения скоринговой карты, обсуждается применение скоринга на практике. Книга состоит из статей написанных зарубежными специалистами в области финансов.

Диссертационная работа Сэмюэла Глассона “Метод цензурированной выборки для кредитного скоринга”, 2007 г. В ней исследуются инструменты анализа выживаемости, применительно к кредитному скорингу, в условиях цензурированных данных. Разбирается применение метода линейной регрессии и в частности метода Бакли-Джеймса. Практическая часть работы содержит в себе применение этих методов к оценке времени кредитного дефолта и времени выплаты очередного платежа.

Диссертационная работа Кристины Болтон “Логистические регрессии и их применение в кредитном скоринге”, 2009 г. Разбирается концепция кредитного скоринга применительно к банковскому делу в Южной Африке. Рассматриваются методы построения скоринговой модели с особым акцентом на метод логистической регрессии. Применяется этот метод для создания скоринговой модели.

Диссертационная работа Маттиаса Кремпля “Адаптивные модели и их применение в кредитном скоринге”, 2011. Акцент ставится на изучении методов построения предсказывающих моделей в условиях дрейфа и задержки данных. Представлен новый метод для построения скоринговых моделей, базирующийся на методе дерева принятия решений. Представленный метод применяется для оценки дрейфа в двух наборах реальных финансовых данных.

В приведённых выше работах имеется общая проблема: применение методов к построению скоринговых моделей не обосновано. Отсюда вытекает сомнение в правильности полученных данных. Задача состоит в построении метода, применение которого было бы обосновано. В данной работе представляется метод, решающий эту задачу.

Существует множество подходов к построению скоринговой модели. В главе 1 данной работы описаны методы применяемые в вышеприведённых диссертациях. В главе 2 вводится математическая модель скоринга и разбирается эмпирический Байесовский подход к построению скоринговой модели: подход описывается теоретически, а после применяется к реальным данным банка “Сбербанк России” для построения скоринговой модели. В главе 3 вводится метод, основывающийся на задаче Монжа-Канторовича. Приведено теоретическое обоснование использования данного метода. Затем он применяется для построения скоринговой модели на данных используемых в главе 2.

Глава 1. Методы построения скоринговых моделей

1.1 История появления и развития скоринга

Изначально скоринг разрабатывался с целью автоматизации процесса решения о выдаче кредита. До внедрения скоринга, решение о том, кому выдать кредит в каком размере, принималось кредитным экспертом. Он решал это, опираясь на опыт и собственное мнение, руководствуясь параметрами клиента, влияющими на его кредитоспособность.

В 1940-х годах началось внедрение скоринговых систем. В 1941 Давид Дюран опубликовал первую исследовательскую работу по кредитному скорингу, в которой оценивал роль различных факторов в прогнозирующей системе. После окончания Второй мировой войны, резко вырос спрос на кредитные продукты, и стало ясно, что традиционные методы принятия решения плохо работают в условиях большого числа клиентов. Взрыв спроса на кредиты, отчасти обусловленный введением кредитных карт, мотивировал кредиторов внедрять автоматизированные системы принятия решения о выдаче кредитов. Параллельное развитие вычислительной техники, способствовало этому и давало возможность обрабатывать большие массивы финансовых данных.

В 1956 году была создана компания FICO, занимавшаяся разработками в области потребительских кредитов. В 60-х годах началось внедрение компьютерных технологий в область скоринга. В 1963 году было предложено использование дискриминантного анализа данных для кредитного скоринга. И, наконец, в 1975 с принятием "US Equal Credit Opportunity Act I", скоринг был окончательно признан.

Важным шагом в развитии кредитного скоринга было появление скоринга поведения (behavior scoring) в начале 90-х. Его целью является предсказание выплат уже имеющихся клиентов.

В недавнее время развитие скоринговых систем было обусловлено регулированием со стороны внешней среды. Как часть требований к достаточности капитала, предъявляемых банкам в связи с вступлением в силу второго Базельского соглашения (Basel Committee for Banking Supervision 2001), учреждения должны внимательно следить за рисками, связанными с их кредитными портфелями. Методы кредитного скоринга позволяют это делать.

С момента введения первой скоринговой системы, использовалось множество математических и статистических методов. Среди статистических можно назвать: дискриминантный анализ, линейную регрессию, логистическую регрессию и дерево принятия решений. Другие методы пришли из математики: математическое программирование, нейронные сети, генетические алгоритмы и экспертные системы. Далее мы разберём наиболее распространённые методы и поговорим об их достоинствах и недостатках.

1.2 Линейный дискриминантный анализ и линейная регрессия

Линейный дискриминантный анализ - метод для классификации объектов на заранее определённые категории. Идея в том, чтобы найти такую линейную комбинацию объясняющих переменных, которая наилучшим образом разделила бы объекты на категории. Под разделением наилучшим образом имеется ввиду такое, при котором обеспечивается максимальная дистанция между средними данных категорий. Скоринговый балл рассчитывается как линейная функция от значений атрибутов клиента:

Здесь, - значения атрибутов клиента, - параметры модели, которые максимизируют отношение

где - вектор средних для хороших и плохих клиентов, - общая ковариационная матрица.

Линейный дискриминантный метод предполагает выполнение двух условий. Во-первых, ковариационные матрицы независимых переменных для обеих групп должны совпадать. Во-вторых, независимые переменные должны быть распределены нормально. Часто, в скоринге, независимые переменные дискретные или распределены не нормально. Отсюда, возникают проблемы в применении этого метода. Однако было показано, что даже в случае нарушения нормальности, данный метод широко применим. Его преимуществом можно назвать простоту применения.

Схожий метод линейной регрессии, также используется для формирования скоринговой модели. В случае двух категорий, он эквивалентен методу линейного дискриминантного анализа и выражает зависимость одной переменный (зависимой) от других (независимых). В общем виде представляется так:

Зависимая переменная;

Объясняющие независимые переменные;

Неизвестные коэффициента регрессии, которые находятся методом наименьших квадратов;

Для применения модели линейного скоринга требуется выполнение следующего предположения: связь между зависимой и независимыми переменными должна быть линейной. В противном случае, точность оценки значительно ухудшается. Ошибки же должны быть независимы и распределены нормально.

Как и в случае дискриминантного анализа, в условиях кредитного скоринга, предположения, требуемые для применения линейной регрессии, нередко нарушаются. Линейная регрессия может дать оценку вероятности вне диапазона , что является неприемлемым. К примеру, логистическая регрессия лишена этого недостатка.

1.3 Логистическая регрессия и пробит-регрессия

Данные виды регрессии больше подходят для построения скоринговой модели, так как допускают категорийное представление данных. Модель логистической регрессии задаётся следующим образом:

где - оценка вероятности того, что клиент “плохой”, - вектор неизвестных параметров регрессии, который вычисляется через условие максимизации отношения правдоподобия.

Модель логистической регрессии базируется на функции логарифм. В свою очередь, пробит-регрессия базируется на нормальном распределении и задаётся следующим образом:

где. Вектор находится также как и в модели логистической регрессии.

Так как логистическая регрессия и пробит-регрессия используют схожие по форме распределения, результаты применения данных моделей также схожи. Логистическая регрессия пользуется большим предпочтением, так как вычисления проще, чем в пробит-регрессии и имеется больше инструментов для работы с ней. За счёт своей бинарной природы, логистическая регрессия предпочтительней линейной регрессии в использовании для построения скоринговых моделей. На практике же было выяснено, что разница в точности предсказываемых результатов незначительна. Тем не менее, наблюдается преобладание логистической регрессии в скоринговых системах.

1.4 Нейронные сети

Искусственные нейронные сети являются симуляцией нейронных сетей имеющихся в природе. Возникло это понятие при попытке смоделировать процессы, происходящие в мозге человека.

Нейронные сети, также называемые многослойным перцептроном, особенно подходят для решения задачи классификации. Они широко используются в различных сферах: финансах, компьютерных науках, физике и медицине. Популярность нейронных сетей отчасти обуславливается возможностью моделировать сложные ситуации без особых затрат со стороны использующего этот метод. По своей природе нейронные сети автоматически обнаруживают любую нелинейную ситуацию в данных и подстраиваются под неё. Также многослойные нейронные сети являются универсальными аппроксиматорами, то есть могут аппроксимировать любую функцию сколь угодно точно.

Нейронные сети состоят из слоев которые, в свою очередь, состоят из узлов. Есть 3 типа слоёв в сетях: входной, скрытые, выходной. Входной слой образуют атрибуты клиента, такие как пол, возраст и т.п.

Выход для k-го узла с m входами представляется так:

где - активационная функция, - вектор входных данных, - весовой вектор который обозначает силу связи между узлами.

Основным недостатком является то, что не смотря на возможность добиться высокой точности прогноза, понять причины, по которым было принято то или иное решение, невозможно.

В контексте кредитного скоринга было показано, что нейронные сети работают не хуже традиционных методов.

1.5 CHAID анализ

Данный метод отлично подходит для нахождения связей между данными, особенно если связи нелинейные. Он применяется для построения деревьев принятия решений, и имеет много общего с классическими методами, такими как дискриминантный анализ и линейная регрессия.

Аббревиатура CHAID расшифровывается как Chi-squared Automated Interaction Detector.

Гибкость данного метода делает его привлекательным для использования, но это не означает, что его стоит использовать вместо традиционных методов. В случае, когда встречаются строгие теоретические предположения о распределении, традиционные методы предпочтительней. Как техника исследования или в случае, когда традиционные методы не срабатывают, CHAID анализ является непревзойдённым инструментом.

CHAID строит не бинарные деревья (т.е. деревья у которых может быть более двух ветвей) на основе относительно простого алгоритма, который особенно хорошо подходит для анализа больших массивов данных. Алгоритм основывается на применении теста хи-квадрат.

1.6 Другие методы

Дерево принятия решений.

Метод разделяет данные на подмножества, каждое из которых более однородно в своем поведении, нежели исходное множество данных. Каждое из этих подмножеств делится далее, по такому же алгоритму. Результат деления именуется «листом» это дерева. Имеются и другие методы, работающие по схожему принципу.

Достоинства этого метода - простота и интуитивность. Метод способен работать с отсутствующими наблюдениями. Особенно он применим в случае, когда о данных до их исследования практически ничего неизвестно и нельзя построить какие-либо догадки или гипотезы.

Главный недостаток этого метода - сложность компьютерных расчетов. Вследствие громоздкости получаемых деревьев, процесс изучения модели трудоёмкий. Изменения в ситуации может привести к пересмотру всего дерева решений.

В основном метод используется как вспомогательный. К примеру для определения переменных, которые наиболее сильно объясняют поведение зависимой переменной.

Метод k ближайших соседей. Непараметрический метод классификации объектов. Основывается на метрике, определяющей схожесть между данными.

Первоначально вводятся тренировочные данные, разделенные на классы. Затем вводятся оцениваемые данные и определяется схожесть между введёнными и тренировочными данными. На основе метрики выбирается k ближайших соседей. Новый элемент относят к тому классу, к которому принадлежит большинство его соседей.

Количество соседей k определяется компромиссом между компенсацией и дисперсией. Чем меньше класс, тем меньше выбирается k. При этом необязательно, что при больших k результат будет лучше.

Одно из преимуществ данного метода - легко добавить новые данные, не изменяя при этом модель. Непараметрическая сущность этого метода позволяет работать с иррациональностями в функциях риска на пространстве признаков.

Отсутствие формального метода для выбора k и невозможность вероятностной интерпретации результата, так как результатом являются ожидаемые частоты, являются главными недостатками метода. Данные сложности могут быть решены использованием методом Байесовской аппроксимации.

Данный метод мало используется в скоринге. Одной из причин этого является то, что для классификации одного объекта необходимо иметь базу по всем объектам.

Более новый метод опорных векторов , построенный на машинном обучении, показал себя не хуже традиционных скоринговых методов. Он состоит из двух процессов: первый преобразует входные данные к данным высокой размерности в пространстве признаков; второй классифицирует данные с помощью линейного классификатора. Классификатором может выступать, например, линейный дискриминантный анализ.

1.7 Сравнение различных методов

Был проведён ряд сравнительных исследований для скоринговых методов. Критериями для ранжирования служили процент ошибок при классификации и ROC-кривая. Исследовались 8 наборов данных.

Средняя оценка

Нейронные сети

Опорных векторов

Логистическая регрессия

Линейный дискриминантный анализ

Линейные LS-SVM

Расширенное дерево Байеса

Наивный байесовский классификатор

Радиально базисные функции

k-ближайших соседей (k=100)

Линейный SVM

Квадратичный дискриминантный анализ

Дерево принятия решений

Линейное программирование

Дерево принятия решений

Дерево принятия решений

k-ближайших соседей (k=10)

Дерево принятия решений

Из таблицы видно, что нейронные сети и метод опорных векторов явились наилучшими на исследуемых 8 наборах данных. Кроме того традиционные методы, такие как линейный и дискриминантный анализ показали себя конкурентоспособными. Отсюда следует, что, вероятно, большинство данных для кредитного скоринга лишь немного нелинейны. Вследствие чего линейные методы показали себя на уровне с нелинейными.

Не существует оптимальной скоринговой модели для любой ситуации. Выбор модели зависит от данных и цели, на которую направленно создание модели. Кроме того, метод, оценивающий наилучшим образом, не обязательно будет лучшим в данной ситуации.

Глава 2. Эмпирический Байесовский подход

В данной главе разберём эмпирический Байесовский подход и с помощью него построим скоринговую модель. Построение будем вести исходя из статистики по потребительским кредитам банка “Сбербанк России”.

2.1 Постановка задачи

Предположим, имеется некий банк, занимающийся кредитованием частных лиц. В банк за получением кредита обращаются клиенты. Решение о выдаче кредита банк выносит на основе информации о клиенте.

Информацию о клиенте банк получает из разных источников: от самого клиента, от кредитного бюро и из других источников. Мы будем рассматривать информацию, предоставляемую самим клиентом. Банк получает её через заполненную заемщиком анкету.

В анкете заемщик указывает следующие данные: пол, возраст, семейное положение, наличие детей, ежемесячный доход, наличие недвижимости и прочее.

На основании этих данных разобьём клиентов на группы, в которых они схожи по определённым признакам. Для каждого клиента Байесовским методом найдём рейтинг - эмпирическая вероятность того, что клиент вернёт кредит при условии, что он принадлежит данной группе.

Для применения метода необходимо, чтобы данные удовлетворяли следующим условиям:

· независимость - клиенты не имеют сговора по выплате кредита;

· однородность - данные взяты из одной генеральной совокупности;

· равновероятность - клиенты равновероятно распределяются по группам.

Их выполнение проверяется ниже.

2.2 Построение скоринговой модели

Введем вероятностное пространство. Обозначим в этом пространстве - клиент банка.

Каждый клиент банка имеет набор характеристик согласно заполненной анкете. Например: в браке или нет, уровень дохода, разбитый по категориям, наличие машины и прочие характеристики. Согласно этим характеристикам введём разбиение пространства на множества

Таким образом, множество клиентов разбито на группы.

Введём случайные величины.

Количество клиентов в j-й группе.

Исходя из данных, мы можем построить совместное эмпирическое распределение вероятностей.

где - априорная эмпирическая вероятность события A,

Эмпирическая вероятность события B при условии А,

Эмпирическая вероятность события A при условии B, которую называют апостериорной вероятностью,

Эмпирическая вероятность события B.

Данная формула позволяет переоценить вероятность события A, учитывая тот факт, что произошло событие B.

Из определения условной вероятности можем записать:

Выразив из (1) и подставив в эту формулу выражение для, получим:

2.3 Применение модели к данным

В нашем распоряжении имеются данные о 1977 клиентах банка “Сбербанк России” включаю информацию о том, вернули они кредит или нет.

Для применения Байесовского подхода необходимо убедиться в выполнении 3-х гипотез:

· о независимости - клиенты не имеют сговора по выплате или не выплате кредита;

· об однородности - данные взяты из одной генеральной совокупности;

· о виде распределения - данные распределены равновероятно.

Гипотеза о независимости

Для проверки этой гипотезы воспользуемся ранговым критерием Спирмена. Статистикой данного критерия является коэффициент ранговой корреляции, определяемый следующим образом.

Даны два ряда наблюдений: и. На основании этих наблюдений построим пары рангов. Под рангом понимаем номер места, занимаемого наблюдением в вариационном ряду. Аналогично понимаем ранг. Затем, переставляем пары рангов в порядке возрастания первой компоненты. Получившийся ряд обозначим.

Коэффициент корреляции находится по формуле:

Критическая область критерия. Для нахождения воспользуемся тем, что закон распределения стремится к, при больших n. Отсюда. Здесь - функция распределения стандартного Гауссова закона.

При уровне значимости, =1.959964. Граница критической зоны. Найденный коэффициент корреляции.

Таким образом, статистика критерия не попадает в его критическую область, и мы можем принять гипотезу о независимости при уровне значимости 0.05.

Гипотеза об однородности

Формулируется гипотеза следующим образом. Даны две выборки и из распределений и соответственно, с функциями распределений и. Тогда гипотеза об однородности.

Для проверки данной гипотезы воспользуемся критерием Смирнова.

Статистикой данного критерия является, где - эмпирические функции распределения, построенные по выборкам и. Критическая область задаётся в виде. При больших n и m границу критической области можно принять равной, где. - функция распределения Колмогорова.

Таким образом, гипотеза об однородности отвергается, в случае если. При уровне значимости 0.05 . - граница критической области. Статистика.

Статистика критерия не попадает в критическую область, и мы можем принять гипотезу об однородности при уровне значимости 0.05.

Гипотеза о виде распределения

Сформулируем гипотезу. Нам дана выборка из распределения с функцией распределения, которая неизвестна. Необходимо проверить, что - функция распределения равномерного распределения на отрезке .

Для этого воспользуемся критерием согласия Пирсона.

Статистикой критерия является. Здесь - частота попадания наблюдений в i-й отрезок, - вероятность попадания в i-й отрезок. Если проверяемая гипотеза верна, при больших n статистика подчиняется распределению хи-квадрат с k-1 степенью свободы.

Гипотеза отвергается в случае, если статистика превышает критическое значение.

Значение статистики посчитаем с помощью программного пакета Statistica - =24,19468, k-1=39. Граница критической области при уровне значимости.

Таким образом значение статистики не превышает критического уровня и гипотеза о равномерном распределении клиентов по группам принимается при уровне значимости 0.05.

Итак, данные удовлетворяют всем гипотезам, приведённым выше, и мы можем приступить к нахождению рейтингов.

Имеющиеся данные содержат множество различных характеристик клиентов. Для построения будем использовать 4 из них, наиболее значимых. Взять большее количество элементов нам не позволяет ограниченность нашей выборки (1977 элементов).

Выбранные характеристики: возраст и пол заёмщика, наличие детей, выплаты по кредиту в % от суммарного дохода заёмщика. Характеристика возраст принимает 3 значения - 18-29, 30-45, 46-…; пол заёмщика два значения - мужской и женский; наличие детей два значения - есть дети, и нет детей; выплаты принимают 5 значений - (<5%),(6-10%), (11-16%), (17-22%),(23-55%).

Каждое конкретное значение характеристики назовём свойством заёмщика. Разобьём всех наших клиентов на множества, опираясь на наличие конкретного свойства у данного клиента. К примеру, - множество клиентов у которых нет детей.

Приведём эти обозначения:

Дети, = Нет детей, = Есть дети;

Возраст, =Возр1(18-29), =Возр2(30-45), =Возр3(46-…);

Пол, =Женский, =Мужской;

Выплаты по кредиту в % от суммарного дохода заемщика, =Вып1(<5), =Вып2(6-10), =Вып3(11-16), =Вып4(17-22), =Вып5(23-55).

Образуем новые множества, как комбинацию всех возможных свойств клиента - по всевозможным К примеру, множество состоит из женщин в возрасте 18-29 лет без детей, выплачивающих <5% от своего суммарного дохода. Количество таких множеств равно 60.

Таблица 2.1. Кодировка множеств.

Нет детей

Есть дети

Заметим, что - образуют разбиение всего множества клиентов:

Построим совместное эмпирическое распределение двух дискретных случайных величин - и, где ={0,1}, ={, i=1:60}. Строить его будем как отношение количества клиентов удовлетворяющих паре значений случайных величин (X,Y) к общему количеству клиентов.

Зафиксируем количество клиентов соответствующих каждой возможной паре (X,Y).

Таблица 2.2. Количество клиентов вернувших и не вернувших кредит в каждой группе. 0 - вернули кредит, 1 - не вернули кредит.

Построим совместное эмпирическое распределение вероятностей. Для этого разделим количество клиентов вернувших и не вернувших кредит в каждой из групп на общее количество клиентов.

Таблица 2.3. Совместное эмпирическое распределение вероятностей.

Рисунок 2.1. Эмпирическая функция распределения при X=0.

Рисунок 2.2. Эмпирическая функция распределения при X =1.

Рисунок 2.3. Гистограмма совместного распределения при X=0.

Рисунок 2.4. Гистограмма совместного распределения при X=1.

Найдём эмпирическое распределение вероятностей попадания в каждую из групп. Для этого разделим количество клиентов в каждой группе на общее количество клиентов. Общее количество клиентов.

Таблица 2.4. Эмпирическое распределение вероятностей попадания в каждую группу.

Рисунок 2.5. Гистограмма попадания в группу i.

Исходя из этого, получаем классификацию:

· Клиенты из группы 60 рисковые

· Клиенты из групп 1-5, 7-12, 15, 17, 25, 31, 32, 33, 35-37, 39, 40, 42, 54-56, 58 - среднерисковые

· Клиенты из групп 6, 13, 14, 16, 18-24, 26-30, 34, 38, 41, 43-53, 57, 59 - надежные

Глава 3. Подход, основанный на задаче Монжа-Канторовича

3.1 Задача Монжа-Канторовича

Задача Монжа.

Даны два вероятностных пространства и и неотрицательная измеримая функция на, ...

Подобные документы

    Дискриминантный анализ как раздел многомерного статистического анализа. Дискриминантный анализ при нормальном законе распределения показателей. Применение дискриминантного анализа при наличии двух обучающих выборок. Решение задачи в системе statistika.

    курсовая работа , добавлен 21.01.2011

    Модели дискриминантного анализа. Эффективность классических западных и российских моделей предсказания банкротства. Отраслевая специфика. Описание статей, включающее характеристики выборки, метод, список факторов и прогнозную силу метода анализа.

    реферат , добавлен 24.07.2016

    Основы линейного регрессионного анализа. Особенности использования функции Кобба-Дугласа. Применение множественной линейной регрессии. Сущность метода наименьших квадратов. Пути избегания ложной корреляции. Проверка значимости коэффициентов регрессии.

    реферат , добавлен 31.10.2009

    Экономическая классификация стран, характеристика основных показателей экономического развития. Статистические методы анализа, описание дискриминантного, кластерного, факторного и графического анализа. Параметры исследование экономической безопасности.

    дипломная работа , добавлен 14.10.2013

    История появления функционально-стоимостного анализа, его методика, принципы, задачи и этапы проведения. Использование системного анализа и поэлементной отработки конструкции каждой детали Ю.М. Соболевым. Применение функционально-стоимостного анализа.

    контрольная работа , добавлен 08.04.2012

    Теоретические и методологические основы экономического анализа, его предмет, объект, задачи. Характеристика принципов экономического анализа, подходы и особенности их использования на практике. Определение тенденций развития предприятия на основе анализа.

    курсовая работа , добавлен 20.12.2010

    Сущность и применение метода наименьших квадратов для однофакторной линейной регрессии. Нахождение коэффициента эластичности для указанной модели в заданной точке X и его экономический анализ. Прогноз убыточности на основании линейной регрессии.

    контрольная работа , добавлен 15.06.2009

    Сущность модели Ольсона как одной из наиболее перспективных современных разработок в теории оценки стоимости компании. ЕВО в практической оценке, особенности ее работы в России. Особенности линейной информационной динамики Ольсона и Фельтхама-Ольсона.

    контрольная работа , добавлен 07.04.2011

    Понятие экономической информации, ее сущность и особенности, классификация и разновидности, характеристика и отличительные черты. Сущность, предмет и объекты экономического анализа, цели и задачи. Взаимосвязь анализа с другими науками, его организация.

    шпаргалка , добавлен 05.04.2009

    Методы разработки экономико-математической модели: постановка задачи, система переменных и ограничений. Виды решения экономико-математической модели оптимизации производственной структуры сельскохозяйственного предприятия, анализ двойственных оценок.