Лучший способ объединить двоичный и непрерывный ответ

Я пытаюсь найти лучший способ предсказать сумму платежа для агентства по сбору платежей. Зависимая переменная отлична от нуля только тогда, когда был произведен платеж. Понятно, что существует огромное количество нулей, потому что большинство людей не могут быть достигнуты или не могут погасить долг.

Существует также очень сильная отрицательная корреляция между суммой долга и вероятностью осуществления платежа. Как правило, я бы создал логистическую модель для прогнозирования вероятности оплаты / неоплаты, но это имеет печальное последствие - найти людей с самым низким балансом.

Есть ли способ объединить логистическую модель оплаты / неоплаты с отдельной моделью, прогнозирующей сумму платежа?

regression predictive-models logistic

— Zelazny7
источник

Существует логарифмическая регрессия с нулевым раздувом, которая, кажется, соответствует вашим потребностям. Смотрите эту статью

— Питер Флом

@PeterFlom, как вы думаете, это можно сравнить с обсуждением gui11aume и Штеффена о двухэтапной модели и смещении выбора образца?

— As3adTintin

Я думаю, что оба могут быть полезны. Было обсуждение, сравнивающее два, но я забыл, где я читал это.

— Питер Флом

Я закончил тем, что создал нейронную сеть с реляционной активацией для выхода и среднеквадратичной логарифмической потерей

— Zelazny7

хорошо, спасибо. нейронная сеть / активация relu звучит мимо моих текущих знаний, но я буду продолжать изучать их. спасибо, что задали оригинальный вопрос и за комментарии!

— As3adTintin

Ответы:

Идея создания двухэтапной модели - правильный путь, однако необходимо учитывать особую сложность вашей установки, которая заключается в очень сильной отрицательной корреляции между суммой долга и вероятностью осуществления платежа.

Основная проблема построения двухэтапной модели заключается в том, что вторая модель (для прогнозирования долга), построенная только на «ненулевых» показателях, построена на наиболее вероятной неслучайной выборке населения ( т.е. весь набор данных), но комбинированная модель должна быть снова применена ко всей совокупности. Это означает, что вторая модель должна будет делать прогнозы для частей данных, которые она никогда не видела прежде, что приведет к потере точности. Это называется предвзятым выбором выборки (для обзора с точки зрения ML я рекомендую Байесовскую сетевую среду для вывода брака Смитом и Элканом).

KDD-Cup-98 имел дело с подобным вопросом , где нужно предсказать , будет ли, скорее всего, снова пожертвовать и сколько это может пожертвовать донор для организации ветеранов. В этом наборе данных вероятность повторного пожертвования также отрицательно коррелировала с ожидаемой суммой денег. Смещение выборки также появилось.

Бьянка Задрозный и Чарльз Элкан могут найти решение, которое произвело на меня наибольшее впечатление, в « Обучении и принятии решений, когда затраты и вероятности неизвестны ». Они создали чувствительное к затратам решение, основанное на поправке Хекмана , которая, насколько мне известно, является первым систематическим подходом к исправлению ошибки отбора (выборки).

— Штеффен
источник

+1 Ваш второй абзац очень красиво подчеркивает то, чего не хватает в моем ответе.

— gui11aume

Как это соотносится с предложением Питера Флома о регрессии логарифмически нормального нуля?

— As3adTintin

Это очень хороший вопрос (+1).

Почему бы не относиться к нулям, как если бы они были АН?

Вы можете добавить фиктивный ответ, указывающий, были ли возвращены какие-либо деньги ( т. Е. Равны 0, если значение равно 0, и 1, если значение положительное), и подобрать логистическую модель для этого двоичного ответа с теми же предикторами. Вам подойдут 2 модели: двоичный ответ, использующий все точки данных, и непрерывный ответ, использующий только точки нулевых данных (в соответствии с идеей обработки 0 как NA).

Вы по-прежнему можете проверять недействительность параметров в каждой модели и вычислять ожидаемое усиление, используя оба набора параметров.

— gui11aume
источник

Спасибо за предложение. До моего вопроса я создал две зависимые переменные и наборы данных, похожие на то, что вы описываете. Можете ли вы уточнить, что вы подразумеваете под «все еще нулевой параментаторы»? Спасибо!

— Zelazny7

«Все еще недействительность параметров» была опечаткой, которую я исправил в тексте. Извините за это :-)

— gui11aume