Идея создания двухэтапной модели - правильный путь, однако необходимо учитывать особую сложность вашей установки, которая заключается в очень сильной отрицательной корреляции между суммой долга и вероятностью осуществления платежа.
Основная проблема построения двухэтапной модели заключается в том, что вторая модель (для прогнозирования долга), построенная только на «ненулевых» показателях, построена на наиболее вероятной неслучайной выборке населения ( т.е. весь набор данных), но комбинированная модель должна быть снова применена ко всей совокупности. Это означает, что вторая модель должна будет делать прогнозы для частей данных, которые она никогда не видела прежде, что приведет к потере точности. Это называется предвзятым выбором выборки (для обзора с точки зрения ML я рекомендую Байесовскую сетевую среду для вывода брака Смитом и Элканом).
KDD-Cup-98 имел дело с подобным вопросом , где нужно предсказать , будет ли, скорее всего, снова пожертвовать и сколько это может пожертвовать донор для организации ветеранов. В этом наборе данных вероятность повторного пожертвования также отрицательно коррелировала с ожидаемой суммой денег. Смещение выборки также появилось.
Бьянка Задрозный и Чарльз Элкан могут найти решение, которое произвело на меня наибольшее впечатление, в « Обучении и принятии решений, когда затраты и вероятности неизвестны ». Они создали чувствительное к затратам решение, основанное на поправке Хекмана , которая, насколько мне известно, является первым систематическим подходом к исправлению ошибки отбора (выборки).