Иерархическая байесовская модель (?)


12

Приносим свои извинения за убийство статистического языка :). Я нашел здесь пару вопросов, связанных с рекламой и рейтингом кликов. Но никто из них не очень помог мне с моим пониманием моей иерархической ситуации.

Есть связанный вопрос Являются ли эти эквивалентные представления одной и той же иерархической байесовской модели? , но я не уверен, есть ли у них похожая проблема. Другой вопрос Приоры для иерархической байесовской биномиальной модели подробно описывают гиперприоры, но я не могу сопоставить их решение с моей проблемой.

У меня есть пара объявлений в Интернете для нового продукта. Я позволил рекламе показываться в течение нескольких дней. В этот момент достаточно людей нажали на рекламу, чтобы увидеть, какой из них получает больше всего кликов. После того, как я выбил все, кроме того, у которого больше всего кликов, я позволил этому запустить еще пару дней, чтобы посмотреть, сколько людей на самом деле покупают после нажатия на объявление. В этот момент я знаю, было ли хорошей идеей показывать рекламу в первую очередь.

Моя статистика очень шумная, потому что у меня не так много данных, потому что я продаю только пару вещей каждый день. Поэтому очень сложно оценить, сколько людей покупают что-то после просмотра рекламы. Только один из каждых 150 кликов приводит к покупке.

Вообще говоря, мне нужно знать, теряю ли я деньги на каждом объявлении, как можно скорее, как-то сглаживая статистику по каждой группе объявлений с глобальной статистикой по всем объявлениям.

  • Если я подожду, пока в каждом объявлении не появится достаточно покупок, я разорюсь, потому что это занимает слишком много времени: при тестировании 10 объявлений мне нужно потратить в 10 раз больше денег, чтобы статистика по каждому объявлению была достаточно надежной. К тому времени я мог потерять деньги.
  • Если я усредню покупки по всем объявлениям, я не смогу выбросить рекламу, которая просто не работает.

Могу ли я использовать глобальную скорость покупки ( N $ суб-распределения? Это означает, что чем больше у меня данных по каждому объявлению, тем более независимой становится статистика для этого объявления. Если никто еще не нажал на объявление, я предполагаю, что глобальное среднее значение подходит.perclick)anduseitasapriorfor

Какой дистрибутив я бы выбрал для этого?

Если у меня было 20 нажатий на A и 4 нажатия на B, как я могу смоделировать это? До сих пор я выяснил, что здесь может иметь смысл биномиальное или пуассоновское распределение:

  • purchase_rate ~ poisson (?)
  • (purchase_rate | group A) ~ poisson (оцените стоимость покупки только для группы А?)

Но что мне делать дальше, чтобы на самом деле рассчитать purchase_rate | group A. Как соединить два распределения вместе, чтобы иметь смысл для группы А (или любой другой группы).

Я должен сначала соответствовать модели? У меня есть данные, которые я мог бы использовать для «обучения» модели:

  • Объявление А: 352 клика, 5 покупок
  • Объявление B: 15 кликов, 0 покупок
  • Объявление C: 3519 кликов, 130 покупок

Я ищу способ оценить вероятность любой из групп. Если у группы есть только пара точек данных, я, по сути, хочу вернуться к среднему мировому значению. Я немного разбираюсь в байесовской статистике и читал множество PDF-файлов людей, описывающих, как они моделируют, используя байесовский вывод, сопряженные априорные числа и так далее. Я думаю, что есть способ сделать это правильно, но я не могу понять, как правильно его смоделировать.

Я был бы очень рад намекам, которые помогают мне сформулировать мою проблему в байесовской манере. Это очень помогло бы найти примеры в Интернете, которые я мог бы использовать, чтобы фактически реализовать это.

Обновить:

Большое спасибо за ответ. Я начинаю понимать все больше и больше маленьких о моей проблеме. Спасибо! Позвольте мне задать несколько вопросов, чтобы понять, немного ли я понимаю проблему сейчас:

Поэтому я предполагаю, что преобразования распределены как бета-распределения, а бета-распределение имеет два параметра, и b .ab

112 параметра являются гиперпараметрами, поэтому они являются параметрами к предыдущему? Итак, в конце концов, я установил количество конверсий и количество кликов в качестве параметра моего бета-распределения?12

P(conversion|ad=X)=P(ad=X|conversion)P(conversion)P(ad=X)

  • P(ad=X|conversion)α1α+β2αβαβX

  • Затем я умножаю с априором, который является P (преобразование), что в моем случае является просто априором Джеффриса, который неинформативен. Будет ли предыдущий оставаться таким же, как я получаю больше данных?

  • P(ad)

Используя предыдущую версию Джеффриса, я предполагаю, что я начинаю с нуля и ничего не знаю о своих данных. Этот априор называется «неинформативным». Как я продолжаю изучать свои данные, обновляю ли я предыдущие?

Когда приходят клики и конверсии, я прочитал, что должен «обновить» свой дистрибутив. Значит ли это, что параметры моего дистрибутива меняются, или что предыдущие изменяются? Когда я получу клик по объявлению X, могу ли я обновить несколько дистрибутивов? Больше чем один предыдущий?

Ответы:


9

Как вы поняли, очень общий способ решения вашего вопроса - построить иерархическую (многоуровневую) байесовскую модель. Модель состоит из трех частей, как показано ниже.

модель

Иерархическая байесовская модель для коэффициентов конверсии рекламы

  1. N(μμ0,η0)μGa(λa0,b0)μ0=0,η0=0.1,a0=1,b0=1

  2. πjjjρj:=logit(πj)N(ρjμ,λ)

  3. kjjBin(kjσ(ρj),nj)σ(ρj)njj

Данные

В качестве примера, давайте возьмем данные, которые вы разместили в исходном вопросе,

Объявление А: 352 клика, 5 покупок

Объявление B: 15 кликов, 0 покупок

Объявление C: 3519 кликов, 130 покупок

n1=352,k1=5,n2=15,k2=0,

вывод

Обращение этой модели означает получение апостериорных распределений для параметров нашей модели. Здесь я использовал вариационный байесовский подход к инверсии моделей, который в вычислительном отношении более эффективен, чем схемы стохастической выборки, такие как MCMC. Я составил результаты ниже.

Данные и полученные постеры

На рисунке показаны три панели. (а) Простая визуализация предоставленных вами примеров данных. Серые столбцы представляют количество кликов, черные столбцы показывают количество конверсий. (б) результирующее последующее распределение по совокупности означает средний коэффициент конверсии. По мере того как мы будем наблюдать больше данных, это будет становиться все более и более точным. (c) Центральные 95% апостериорные интервалы вероятности (или вероятные интервалы) специфичных для рекламы коэффициентов апостериорного преобразования.

Последняя панель иллюстрирует две ключевые особенности байесовского подхода к иерархическому моделированию. Во-первых, точность постеров отражает количество базовых точек данных. Например, у нас есть относительно много точек данных для объявления C; таким образом, его апостериор гораздо точнее, чем постеры других рекламных роликов.

Во-вторых, рекламные выводы основаны на знаниях о населении. Другими словами, рекламные плакаты основаны на данных всей группы, эффект, известный как сокращение населения . Например, задняя мода (черный круг) объявления А намного выше, чем его эмпирический коэффициент конверсии (синий). Это связано с тем, что все остальные объявления имеют более высокие апостериорные режимы, и, таким образом, мы можем получить более точную оценку истинности истинности, предоставив наши оценки для конкретных объявлений по групповому среднему значению. Чем меньше у нас данных о конкретном объявлении, тем больше на него будут влиять данные других объявлений.

Все идеи, которые вы описали в своем первоначальном вопросе, естественным образом реализованы в приведенной выше модели, иллюстрируя практическую полезность полностью байесовского сеттинга.


Кей, спасибо за подробный ответ. Я понимаю, что ответ немного устарел, но не могли бы вы поделиться прилагаемым кодом, если вы его сохранили? Я пытаюсь выучить иерархическое байесовское моделирование, но изо всех сил пытаюсь найти интуитивные примеры в R.
Жубарб

@ Хорошо, спасибо за интересный ответ, не могли бы вы добавить ссылку на иерархические байесовские модели? Благодарность!
user511005

1
Привет @Zhubarb, user511005, вот ссылка на статью, описывающую вышеупомянутую модель: sciencedirect.com/science/article/pii/S1053811913002371 Я собрал краткое введение в вариационный вывод здесь: people.inf.ethz.ch/ bkay /alks / Brodersen_2013_03_22.pdf
Кей Бродерсен

2

p

paabb

ab(12,12)a,b

pa,b


В ответ на ваши правки:

pabppab

Байесовское обновление

P(px)P(p)P(xp)

xpababp

Приоритет Джеффриса - это не то же самое, что и неинформативный приор, но я считаю, что лучше, если у вас нет веских причин использовать его. Не стесняйтесь задавать другой вопрос, если вы хотите начать обсуждение этого вопроса.


Спасибо за ответ! Я обновил свой оригинальный вопрос, потому что у меня закончились символы в этом поле для комментариев. Было бы здорово, если бы вы могли дать некоторые отзывы о некоторых деталях, которые я написал в обновлении.
Мика Тиихонен,
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.