Можно ли концептуально понять модель Парето / nbd?


12

Я учусь использовать пакет BTYD, который использует модель Парето / NBD, чтобы предсказать, когда клиент вернется. Тем не менее, вся литература по этой модели полна математики, и, похоже, нет простого / концептуального объяснения работы этой модели. Можно ли понять модель Парето / NBD для нематематиков? Я прошел через эту знаменитую статью Фейдера . Модель Парето / NBD делает следующие допущения:

я. Во время активности количество транзакций, совершенных клиентом за период времени t, распределяется по Пуассону со скоростью транзакций λ.

II. Неоднородность в показателях транзакций по клиентам следует гамма-распределению с параметром формы r и параметром масштаба α.

III. Каждый клиент имеет ненаблюдаемый «срок службы» длины τ. Эта точка, в которой клиент становится неактивным, распределяется экспоненциально с коэффициентом отсева µ.

iv) Неоднородность показателей отсева среди потребителей следует гамма-распределению с параметром формы s и параметром масштаба β.

v. Коэффициент транзакций λ и коэффициент отсева µ независимо зависят от клиентов ".

Я не понимаю (интуиция за) обоснование предположений (ii), (iii) и (iv). Почему только эти дистрибутивы, а не другие?

Также предположения модели BG / NBD:

i.) В активном состоянии количество транзакций, совершенных клиентом, следует пуассоновскому процессу с коэффициентом транзакции λ. Это эквивалентно предположению, что время между транзакциями распределено экспоненциально с частотой транзакций λ

ii) Неоднородность по λ следует гамма-распределению

iii) После любой транзакции клиент становится неактивным с вероятностью p. Следовательно, точка, в которой «выпадает» клиент, распределяется по транзакциям в соответствии с (смещенным) геометрическим распределением с помощью pmf.

iv) Неоднородность в p следует бета-распределению

(Интуитивная) рациональность предположений (ii), (iii) и (iv) также вовсе не очевидна.

Буду благодарен за любую помощь. Благодарю.


Не могли бы вы добавить ссылку на литературу, которая вам кажется трудной?
kjetil b halvorsen

Я уточнил, где все неясно. Я знаю, что привнести интуицию в игру нелегко, но если бы это было так возможно, это очень помогло бы. Благодарю.
user3282777

Ответы:


14

Представьте, что вы новоназначенный менеджер цветочного магазина. У вас есть запись о покупателях за прошлый год - частота, с которой они делают покупки, и сколько времени прошло с момента их последнего посещения. Вы хотите знать, сколько бизнеса могут привлечь перечисленные клиенты в этом году. Есть несколько вещей для рассмотрения:

[предположение (ii)] У покупателей разные покупательские привычки.

Некоторым людям все время нравятся свежие цветы, а другим - только в особых случаях. Более разумно иметь распределение для скорости транзакций , а не предполагать, что один объясняет поведение каждого.λλ

Распределение должно иметь несколько параметров (у вас не обязательно много данных), быть достаточно гибким (вы, вероятно, не умный предприниматель-гуру и не знаете всего о покупательских привычках), и значения в положительных действительных числах. Дистрибутив Gamma включает все эти блоки, хорошо изучен и относительно прост в работе. Это часто используется в качестве априора для положительных параметров в разных настройках.

[предположение (iii)] Возможно, вы уже потеряли некоторых клиентов в списке.

Если Андреа покупала цветы примерно раз в месяц в прошлом году, вполне вероятно, что она вернется в этом году. Если Бен покупал цветы еженедельно, но его не было уже несколько месяцев, то, возможно, он нашел другой магазин цветов. Составляя планы на будущее, вы можете рассчитывать на Андреа, но не на Бена.

Клиенты не скажут вам, когда они ушли, и именно поэтому предположение о «ненаблюдаемом сроке службы» вступает в силу для обеих моделей. Представь себе третьего клиента, Кэри. Модели Pareto / NBD и BG / NBD дают вам два разных способа думать о том, как Кэри уходит из магазина навсегда.

Для случая Парето / NBD представьте, что в любой момент времени есть небольшая вероятность того, что Кэри может найти магазин лучше, чем ваш. Этот постоянный бесконечно малый риск дает вам экспоненциальный срок службы - и чем дольше он был с момента последнего визита Кэри, тем дольше он подвергался воздействию других (потенциально лучших) цветочных магазинов.

Случай BG / NBD немного более надуманен. Каждый раз, когда Кэри приходит в ваш магазин, он стремится купить цветы. Просматривая, он рассмотрит изменения в цене, качестве и разнообразии со времени своего последнего посещения, и это в конечном итоге заставит его решить, вернуться ли снова в следующий раз или искать другой магазин. Таким образом, вместо того, чтобы постоянно подвергаться риску, Кэри имеет некоторую вероятность того, что он просто решит уйти после каждой покупки.

[предположение (iv)] Не все покупатели одинаково привержены вашему магазину.

Некоторые клиенты являются постоянными клиентами, и только смерть - или резкое повышение цен - заставит их уйти. Другие, возможно, захотят исследовать и с радостью оставят вас ради нового хипстерского цветочного магазина через улицу. Вместо единого показателя отсева для всех клиентов более логично иметь распределение показателей отсева (или вероятностей в случае BG / NBD).

Это работает очень в том же духе, что и покупательские привычки. Мы ищем гибкий, хорошо зарекомендовавший себя дистрибутив с несколькими параметрами. В случае Парето / NBD мы используем гамму, так как скорость находится в положительных действительных числах. В случае BG / NBD мы используем бета-версию, которая является стандартным априором для параметров в .μ(0;1)

Надеюсь, это поможет. Взгляните на оригинальную статью (Schmittlein et al., 1987), если вы еще этого не сделали, - они проходят через некоторые интуиции.


Спасибо за такую ​​тяжелую работу и четкие объяснения. Причина использования гамма-распределения заключается в том, что с ней относительно легко работать, и ее часто используют в качестве приоритета для положительных параметров в различных настройках. Хотя формы большинства гамма-распределений (с различными значениями параметров) легко понять, но они соответствуют «Неоднородности в скорости транзакций по клиентам» к гамма-распределению, которое почти экспоненциально падает (для k = 1, theta = 2, как на графике Википедии [ здесь] en.wikipedia.org/wiki/Gamma_distribution ) это немного сложно понять. Мы исключаем такое поведение?
user3282777

1
Ваши оценки параметров гаммы будут зависеть от данных, с которыми вы работаете. Все дело в том, что гамма-распределение может иметь существенно разные формы, основываясь только на двух параметрах, и вы можете позволить данным говорить сами за себя, не навязывая чрезмерно строгих предположений (более или менее).
Люба Б.
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.