Conglomerat
16 subscribers

Практические проблемы оценки качества моделей LGD

<100 full reads
170 story viewsUnique page visitors
<100 read the story to the endThat's 41% of the total page views
4 minutes — average reading time

Юрий Полянский, начальник отдела валидации внутренних методик и моделей оценки кредитного риска Департамента банковского регулирования БАНКА РОССИИ, в своем выступлении на Scoring Case Forum 2021 остановился на нескольких вопросах практической оценки качества моделей оценки кредитного риска, один из которых носит весьма важный технический характер – оценка качества моделей LGD. Практика показывает, что модели оценки компоненты LGD играют значимую роль в продвижении подхода на основе внутренних рейтингов (ПВР) Базель II/III и основных подходов МСФО-моделирования. Отдельное внимание было уделено излишней увлеченности валидаторов различными количественными тестами при недостаточной текущей проработанности их методологии и не слишком высокой надежности, а также при их несистемном, формальном применении.

Юрий Полянский на Scoring Case Forum 2021
Юрий Полянский на Scoring Case Forum 2021

При внедрении ПВР бывает так, что банки концентрируют главное внимание на достижении наивысших показателей Gini у ядер моделей PD, не придавая достаточного значения последующим шагам моделирования, ранее неактуальным для скоринговых моделей, а также недооценивая важность связанных с этим новых характеристик их качества (помимо широко известной дискриминационной силы). Кроме того, в рамках ППВР для оценки кредитного риска необходимо построение не только общеизвестных моделей PD, но и методологически более сложных моделей LGD, EAD и др. При этом банк может не в полной мере осознать повышенную сложность их разработки и оценки качества в силу новизны их методологии. В результате процедура регуляторной валидации может затянуться до трех и более лет.

В настоящее время замечено неполное понимание разработчиками и валидаторами банков того, что именно подлежит оценке и в каком именно общем порядке. Валидаторы и разработчики иногда ошибочно полагают, что для получения итогового вывода нужно сделать как можно больше различных «умных» тестов. Но главная особенность состоит в том, что эти тесты нужно делать обязательно системно, а именно – в разрезе конкретных ключевых характеристик качества. А для исследования можно использовать не только статистические тесты. Набор инструментов гораздо шире.

Давайте посмотрим, что же такое качество. Если посмотреть на его определение в международном стандарте ИСО 9000, то это совокупность характеристик объекта, имеющая отношение к его способности удовлетворить установленные и предполагаемые требования потребителя. Сами характеристики качества – это некие отличительные свойства этого объекта, имеющие отношение к требованиям. Каковы же важнейшие свойства такого объекта как экономико-математическая модель? С помощью какого инструментария можно их исследовать?

Давайте выделим ключевые характеристики моделей ПВР: дискриминационная способность (ранжирующая сила), прогностическая способность (точность калибровки), стабильность. Инструментарий для их исследований будет различен.

Оценка характеристик моделей находится на пике актуальности, но при этом применяемых подходов и показателей не всегда достаточно для их точной и (главное) надежной оценки. На данный момент неплохо проработаны подходы к оценке лишь дискриминационной способности биномиальных моделей. Для других характеристик и других типов моделей известные тесты и показатели, к сожалению, не дают бесспорного ответа, а представляют собой лишь этап всестороннего исследования модели.

Если же нет абсолютно надежных и эффективных показателей, то вполне закономерно, что надежность выводов стараются повысить за счет количества выполняемых тестов. При этом их результаты зачастую могут противоречить друг другу, как и сделанные на их основе выводы.

Проблема состоит также и в том, что для многих тестов пока не выработано единых формул и алгоритмов, в т.ч. для оценки дискриминационной силы моделей LGD. Многие тесты – это не просто формула, в которую можно подставить данные и посчитать результат, а определенный порядок действий, точная последовательность шагов. Их выполнение по разным алгоритмам на разных составах выборки может приводит к разным результатам.

Таким образом, можно выделить 3 основные практические проблемы:

  1. отсутствие (неразработанность) показателей, достаточных для надежной и эффективной оценки некоторых характеристик качества моделей ПВР;
  2. разнообразие и неунифицированность их алгоритмов, а также сложившихся критериев оценки;
  3. не вполне установившаяся система наименований (индикации) ряда показателей.

1. Оценка дискриминационной силы моделей LGD

Для примера рассмотрим показатель Powerstat, используемый для оценки дискриминационной силы нелинейных моделей с непрерывной объясняемой переменной (например, моделей LGD).

Слайд 3
Слайд 3

На слайде 3 представлены 8 наиболее адекватных типичных вариантов его расчета из многих возможных. Общий алгоритм заключается в последовательном упорядочивании списка наблюдений по столбцам фактических убытков, а затем – по столбцам прогнозных убытков с проведением расчетов для каждого варианта. Эти упорядочивания можно осуществлять как по столбцу LGD (в %), так и по столбцу величин убытка LAD = LGD * EAD. В каждом варианте для текущих наблюдений получившегося упорядоченного списка определяются (для последующего суммирования) доли текущего наблюдения, расчет которых также можно выполнить по-разному: по значениям LGD или LAD. Есть также попытки для прогнозного варианта вести расчет не по столбцу фактических убытков, а по столбцу прогнозных убытков. Получается, что расчеты можно организовать в существенно различных порядках, которые дают весьма разные результаты и выводы, о чем будет сказано далее.

В итоге может получиться так, что банк вычислил показатель по некорректному алгоритму, получил прекрасный результат и, уверенный в совершенстве своей модели LGD, идет с моделью к регулятору. Но при валидации в ней вдруг выявляются методические дефекты, а проверочные расчеты по корректным алгоритмам показывают вовсе не превосходный результат. Powerstat вместо ранее некорректно полученных 60-70% снижается до 10-20%. Начинается срочная доделка (а иногда и полная переделка) модели, ранее казавшейся вполне даже неплохой.

Исследования рабочей группы Банка России, проводящей регуляторную валидация ПВР-систем, привели к необходимости понимания, какой же алгоритм наиболее правильный. Сначала нужно понять, с каким эталоном сравнивать. Мы выделили 2 идеальные задачи, для которых результирующий Powerstat известен заранее, в которых модельные значения сформированы из столбца фактических LGD:

  1. развернутых в строго обратном порядке;
  2. перемешанных в случайном порядке.

Для повышения надежности результата, процедура проведена несколько раз с осреднением результата.

На слайде 4 в таблице приведены результаты расчетов.

Слайд 4
Слайд 4

Анализ показывает, что 3-й и 4-й варианты, когда расчет прогнозных кривых ведется по прогнозным значениям, дали результаты весьма далекие от реальности. Они (как и аналогичные им варианты 7 и 8) признаются некорректными.

Результаты вариантов 2, 4 и 6, в которых упорядочивание выполняется по LAD, также показывают неудовлетворительные результаты. При умножении маленького LGD на многомиллионное EAD теряется (скрывается) часть прогностической силы, упорядочивание происходит в значительной мере хаотически. Поэтому эти варианты далеки от идеала.

В итоге остаются 1-й и 5-й варианты, которые дают близкие к теории результаты. В них предварительное упорядочивание выполняется по LGD (в %), а расчет – по LGD либо по LAD. Более тщательный анализ показал, что 5-й вариант показывает повышенную нестабильность. Это происходит потому, что при прогнозировании по дереву решений всем ссудам одного листа присваиваются равные прогнозные значения LGD. В разных реализациях (попытках расчета) они внутренне упорядочиваются несколько по-разному. При умножении LGD этих ссуд на их EAD в каждом случае расчет долей по LAD будет давать несколько различные результаты.

В итоге, наиболее приемлемым является 1-й вариант, когда и упорядочивание, и расчет происходят по LGD.

Исследования рабочей группы Банка России еще раз подтвердили результаты других исследователей, упомянутые на слайде 3.

Таким образом оптимальным можно признать расчет показателя Powerstat по алгоритму, описанному на слайде 5.

Слайд 5
Слайд 5

А если еще корректнее, то есть смысл вести вычисления по вариантам 1 и 5 с формированием вывода по наиболее консервативному варианту.

Для подтверждения полученных результатов на слайде 6 проведены результаты расчетов коэффициента Спирмена для 2-х рассмотренных выше идеальных вариантов с упорядочиванием наблюдений по LGD и по LAD.

Слайд 6
Слайд 6

Этот показатель, конечно, тоже не идеален. Например, точность оценки в результате упорядочивания по рангам несколько теряется. Однако результаты также показали преимущества расчетов с упорядочиванием наблюдений по LGD (включая варианты 1 и 5).

2. Оценка прогностической силы моделей LGD

Для оценки точности модели LGD в качестве одного из важных инструментов можно использовать показатель Expected Loss Shortfall (ELS), приведенный на слайде 7.

Слайд 7
Слайд 7

Он показывает взаимное соотношение прогнозного и реализованного совокупных убытков, вычисленных по всему набору данных, участвующему в оценке. Положительное значение ELS соответствует занижению прогноза по отношению к факту, т.е. недооценку кредитного риска в разрезе совокупных убытков (красный сигнал светофора). Отрицательное значение означает переоценку риска, что в рамках консерватизма обычно рассматривается как хороший результат (особенно для регулятора).

Для получения представления о том, насколько в целом прогнозные значения далеки от фактических, может быть выполнена оценка точности прогноза с применением показателя MAE (Mean Absolute Error), оценивающего среднюю абсолютную ошибку (слайд 7).

Для итоговой оценки точности модели целесообразно рассматривать указанные выше (и иные) показатели совокупно, так как они взаимно дополняют друг друга.

3. Оценка стабильности модели

Помимо упомянутых выше базовых характеристик не менее важна их стабильность, а также стабильность получаемого результата как по пространству (для разных выборок данных, для разных частей портфеля), так и по времени (для разных исторических моментов и/или периодов). Поэтому важной частью оценки качества модели является исследование указанных аспектов стабильности модели, т.е. ее способности сохранять структурно-функциональную целостность и требуемую эффективность в заданных рабочих границах применимости.

Вместе с тем, как показывает практика, банк может рассматривать стабильность в отношении не столько самой модели, ее факторов и результата, сколько в отношении портфеля, к которому применяется данная модель, то есть фактически рассматривает неизменность структуры области применения модели. Для выполнения таких исследований зачастую ошибочно полагается вполне достаточным простое вычисление показателя PSI в разрезе факторов модели.

Несомненно, стабильность структуры портфеля – его важная характеристика. И все же это свойство относится к иной сущности, и оно отлично от стабильности модели.

Стабильность модели вполне можно, например, исследовать путем расчета упомянутых выше базовых характеристик применительно к разным частям портфеля (в том числе случайным выборкам) и применительно к разным периодам (или моментам) времени, в том числе рассматривая их в виде динамических рядов, для исследования которых есть самостоятельная продвинутая методология.

Как показывает практика регуляторной валидации моделей ПВР в передовых российских банках, именно стабильность моделей труднее всего обеспечить и надежно оценить. В настоящее время эта проблема – одна из ключевых проблем при внедрении методик и моделей ПВР.

Заметная изменчивость значений показателей качества моделей может быть связана в том числе со следующими факторами:

  • выбранного исторического периода наблюдений выборки;
  • порядка учета и обработки особенных наблюдений (пропусков, выбросов, мошеннических наблюдений и т.п.);
  • способа отбора наблюдений в выборку;
  • этапа моделирования, прогнозные данные которого участвуют в оценке.

Для примера на графике показаны значения показателя Expected Loss Shortfall, оценивающего точность модели LGD для ссуд в дефолте, полученные на данных одного из банков для различных исторических периодов.

Практические проблемы оценки качества моделей LGD

Точки на графике показывают значения показателя на 1-годичном периоде (что часто не имеет смысла), а штриховые линии – это простые средние значения за соответствующие достаточно близкие восьмилетние периоды. Отметим, что верхняя (зеленая штриховая) линия на отметке ~ 8% практически соответствует столь же значимой недооценке капитала. Несомненно, подобная нестабильность возможна как по причине самой исторической статистики, так и прогнозного качества соответствующей модели.

4. Устойчивость к помехам (робастность) модели

Как правило, в исследованиях качества моделей наибольшее внимание уделяется двум основным характеристикам: дискриминационной силе (как результату работы ядра модели) и прогнозной силе (как результату ее калибровки), а также их стабильности (по пространству и по времени).

Однако важна еще одна проблема – устойчивость модели к резким и существенным изменениям ее входных данных независимо от того, произошли ли они из-за условий среды или просто изменились сами эти данные (например, их качество).

Мир не статичен, он находится в постоянном движении и развитии. Рынки перманентно испытывают стрессы. Шоки происходят с неизбежной регулярностью. Важно не забывать оценивать модели ПВР в динамике.

Например, для аналогичной динамической системы – самолета – важнейшей характеристикой является устойчивость – его способность самостоятельно (без участия летчика) восстанавливать кинематические параметры невозмущенного движения и возвращаться к исходному режиму полета после прекращения действия возмущений.

Практические проблемы оценки качества моделей LGD

У левого самолета, разработанного неустойчивым, минимальный порыв ветра (например, при резком изменении скорости) приводит к приросту подъемной силы в точке, образующей опрокидывающий момент относительно его центра тяжести (точки приложения силы ). У правого же (устойчивого) самолета в его конструкции заведомо конструктивно заложено его стремление вернуться в исходный режим полета и самостоятельно гасить «болтанку».

Если говорить об устойчивости к помехам (робастности) применительно к экономико-статистической модели, то это ее способность сохранять свою работоспособность и требуемую эффективность в заданных границах своего функционирования при резких, шоковых изменениях своих входных параметров, вызванных внешними воздействиями, возможным разбросом входных значений, погрешностями метода, модели, вычислений, данных и пр.

Как самолет не может одновременно быть эффективным на дозвуке и сверхзвуке, так и не существует модели, оценивающей всё и вся, при любых исходных данных в любых условиях. У любой модели есть границы ее применимости, которые важно определить для понимания того, при каких стрессах, в какие шоковые моменты модель фактически может перестать адекватно и эффективно отражать реальное состояние внешней и/или внутренней среды. Ее применение в такие моменты (например, при стресс-тестировании капитала в рамках ВПОДК) может привести к непредсказуемым результатам и выводам.

Поэтому необходимо ставить вопрос в исследовании именно устойчивости моделей ПВР, а не просто их стабильности. К сожалению, в сами эти понятия внесено немало путаницы (зачастую из-за бездумного дословного перевода английского слова stability как стабильность, устойчивость). Частично эта тема уже заложена в Положении Банка России №483-П. Однако вопрос этот сложный, в нем стоит разбираться глобально и вдумчиво как теоретикам, так и практикам.

5. Погоня за тестами

В погоне за количеством проведенных тестов, получением наивысших показателей, контрольных цифр и зеленых сигналов светофора на фоне их хаотичной общей структуры и бессистемного применения порой теряется живое, комплексное понимание того, каково же итоговое качество у исследуемой модели.

В своих валидационных исследованиях рабочая группа Банка России уделяет повышенное внимание визуальному анализу, дающему наглядное представление о качестве модели. Это уже не какая-то абстрактная цифра, по которой не всегда понятно: много это или мало, каковы границы такой оценки. Примеры на слайде 8 наглядно показывают, что в чем-то визуальный анализ может оказаться даже более информативным и полезным, чем количественные тесты.

Слайд 8
Слайд 8

Выводы

Есть настоятельная необходимость:

  • в поиске новых эффективных показателей качества моделей;
  • в разработке их унифицированной структуры и точных порядков применения;
  • в начале исследований проблем стабильности и устойчивости моделей, в актуализации вопросов стресс-тестирования моделей.

Имеет смысл в постановке таких сложных и комплексных задач как науке, так и практике.