Безопасное определение размера образца для A / B-тестирования


22

Я - инженер-программист, желающий создать инструмент A / B-тестирования . У меня нет основательной статистики, но за последние несколько дней я немного читал.

Я следую методологии, описанной здесь, и суммирую соответствующие пункты ниже.

Этот инструмент позволит дизайнерам и экспертам по доменам настраивать веб-сайт для разделения трафика, получаемого по определенному URL-адресу, между двумя или более URL-адресами. Например, трафик, поступающий на http://example.com/hello1, можно разделить между http://example.com/hello1 и http://example.com/hello2 . Трафик будет равномерно распределен между целевыми URL-адресами, и будет сравниваться эффективность маркетинговых процессов на каждом из целевых URL-адресов.

В этом эксперименте размер выборки Nбудет соответствовать посетителям. Тест будет измерять «конверсии», термин, описывающий, когда посетитель совершает определенное действие в процессе маркетинга. Конверсии выражены в процентах, и желательна более высокая конверсия. Это делает тест сравнения независимых пропорций. Инструмент должен легко использоваться для проведения тестов с безопасными результатами. Выбор подходящего значения Nважен.

В приведенной выше статье для анализа используется силовой анализ двух независимых пропорций N. Этот метод требует, чтобы заранее знали коэффициент конверсии управления, а также указывали целевое желаемое улучшение конверсии. Он также определяет уровень значимости 95% и статистическую мощность 80%.

Вопросов:

  1. Это метод определения Nзвука? Если да, то каков самый безопасный способ определения коэффициента пересчета для контроля до начала теста?
  2. Существуют ли надежные способы определения, Nкоторые не требуют, чтобы кто-то заранее знал коэффициенты пересчета контроля?
  3. Оправдана ли методика в связанной статье ? Если нет, есть ли какие-нибудь доступные и легко усваиваемые методы, на которые вы могли бы связать меня?

Ответы:


12

Наиболее распространенный метод проведения такого рода тестирования - доверительные интервалы с биномиальной пропорцией (см. Http://bit.ly/fa2K7B ).

Вы никогда не сможете узнать «истинный» коэффициент конверсии этих двух путей, но это даст вам возможность сказать что-то с эффектом «С уверенностью 99%, А более эффективен при конвертации, чем В».

Например: предположим, что вы выполнили 1000 испытаний по пути A. Из этих 1000 испытаний 121 была успешной конверсией (коэффициент конверсии 0,121), и мы хотели бы, чтобы доверительный интервал составлял 99% для этого результата 0,121. Z-показатель для доверительных интервалов 99% равен 2,576 (вы просто посмотрите это в таблице), поэтому в соответствии с формулой: Таким образом, с вероятностью 99% можно сказать, что , где - «истинный» коэффициент конверсии процесса А. 0,094 р0,148 р

p^±2.576(0.121(10.121)1000)p^±0.027
0.094p^0.148p^

Если мы построим аналогичный интервал для процесса B, мы можем сравнить интервалы. Если интервалы не перекрываются, то мы можем с 98% уверенностью сказать, что один лучше другого. (Помните, мы уверены только на 99% в каждом интервале, поэтому наша общая уверенность в сравнении составляет 0,99 * 0,99)

Если интервалы действительно перекрываются, то мы должны провести больше испытаний или решить, что они слишком похожи по производительности, чтобы их можно было различить, что приводит нас к сложной проблеме - определению , количества испытаний. Я не знаком с другими методами, но с этим методом вы не сможете определить заранее, если у вас нет точной оценки производительности как A, так и B. В противном случае вам просто придется запускать испытания, пока не получите образцы, чтобы интервалы разошлись.NNN

Удачи вам. (Кстати, я болею за процесс B).


2
Добро пожаловать на сайт, @ronny. Поскольку вы новичок здесь, вы можете прочитать наш FAQ . Среди прочего, этот сайт поддерживает через mathjax. Я позволил себе добавить mj, чтобы облегчить чтение вашего поста; убедитесь, что он по-прежнему говорит, что вы хотите. Например, я взял «p ^» для обозначения «p-hat» ( ), но отмечу, что вы говорите, что это «истинный» показатель, тогда как p-hat часто используется для обозначения p, оцененного по вашим данным. Поэтому мы просто хотим убедиться, что ваш ответ говорит то, что вы хотите, чтобы он сказал. рLATEXp^
gung - Восстановить Монику

Ронни, вы правы в целом (не только для этой процедуры): доверительные интервалы и, следовательно, требования к размеру выборки чрезвычайно чувствительны к истинным пропорциям для A и B. Как, возможно, более точное следование комментарию @ gung: я отмечаю что вы (и, следовательно, в своем редактировании)) используете как для истинной пропорции (в ), так и для точечной оценки из наблюдения. Я бы написал верхние два (рассчитанные по наблюдениям), но нижние два без hat (для истинной пропорции). 0,094 р0,148евусессеыp^0.094p^0.148р рsucessestrialsp^p
cbeleites поддерживает Монику

Этот ответ неверен. В частности: «Если интервалы не перекрываются, то мы можем с 98% уверенностью сказать, что один лучше другого» - это неправильно. Учитывая два непересекающихся доверительных интервала 99%, уверенность в том, что разница исключает 0, по крайней мере 99%. Если интервалы имеют одинаковый размер, разница значительна на уровне около 99,97%. stats.stackexchange.com/questions/18215 cscu.cornell.edu/news/statnews/Stnews73insert.pdf
Bscan

@Bscan Ваш комментарий подходит для других значений? Например, правильно ли говорить (согласно вашей рекомендации), что разность средних составляет не менее 30%, если у нас есть два непересекающихся 30% доверительных интервала одного размера?
Фелипе Алмейда

1
@Felipe, да, комментарий верен для всех значений, и непересекающиеся 30% -ные доверительные интервалы подразумевают, что разница, исключающая 0, составляет не менее 30%. Это, однако, не означает, что разница в средствах составляет 30%. Истинные средства могут быть очень похожи; мы просто пытаемся доказать, что они не совсем одинаковы.
Bscan

8

ИМХО, насколько это возможно, пост идет в правильном направлении. Тем не мение:

  • Предложенный метод неявно делает два предположения: базовый коэффициент конверсии и ожидаемое количество изменений. Размер выборки во многом зависит от того, насколько хорошо вы соответствуете этим предположениям. Я рекомендую вам рассчитать требуемые размеры выборки для нескольких комбинаций p1 и p2, которые вы считаете реалистичными. Это даст вам представление о том, насколько надежным является расчет размера выборки.

    > power.prop.test (p1=0.1, p2 = 0.1*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 14750.79
                 p1 = 0.1
                 p2 = 0.11
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    
    > power.prop.test (p1=0.09, p2 = 0.09*1.1, sig.level=0.05, power=0.8)
    
         Two-sample comparison of proportions power calculation 
    
                  n = 16582.2
                 p1 = 0.09
                 p2 = 0.099
          sig.level = 0.05
              power = 0.8
        alternative = two.sided
    
     NOTE: n is number in *each* group 
    

    Таким образом, если фактический коэффициент конверсии составляет 9% вместо 10%, вам потребуется еще 2000 случаев для каждого сценария, чтобы определить коэффициент конверсии, превышающий базовый показатель на 10% для новой формы.

После завершения теста вы можете рассчитать доверительные интервалы для пропорций на основе ваших фактических наблюдений.

  • последний вывод в разделе 3. (о тестировании нескольких сценариев) не совсем верен. Чтобы настроить множественное тестирование (в примере множественное = 2), недостаточно добавить еще один тестов для каждого нового сценария: если ни B, ни C не лучше, чем исходная версия A, и два теста A ./. B и B ./. C делается так, как предлагается там, с случаями для каждого из сценариев, тогда вероятность ложного изменения от A составляет (1 - α) ² ≈ 10% (α: допустимая вероятность ошибки типа I ; выше). Другими словами, он почти в два раза больше, чем указано изначально. Вторая проблема с этим подходом: вы действительно можете обойтись без сравнения B ./. C? Что вы будете делать, если найдете B и C лучше, чем A?нn
    nsig.level

Привет, большое спасибо, что нашли время, чтобы критиковать эти методы. В расчете (1 - α) ² ≈ 10%, что означает «α»? Так как сбор тестовых данных занимает много времени, как вы предлагаете построить этот эксперимент, если хотите протестировать три пропорции? Есть ли безопасный способ сделать так, чтобы не включать запуск нескольких тестов? С тремя альтернативами три теста не слишком обременительны, но с четырьмя альтернативами количество комбинаций достигает шести.
jkndrkn

1
@jkndrkn: α - это вероятность ошибочного отклонения от первоначальной формы, или α-ошибка или ошибка типа I. Смотрите обновленный ответ.
cbeleites поддерживает Монику

1
@jkndrkn: Несколько тестов: я бы посмотрел на Fleiss et.al .: Статистические методы для норм и пропорций о процедурах для таких тестов. Однако ключевым моментом для таких множественных тестов всегда является использование экспертных знаний, чтобы максимально сократить количество альтернатив до определения теста, потому что требуемые размеры выборки взрываются с количеством альтернатив (как вы уже поняли).
cbeleites поддерживает Монику

-1

Вместо того, чтобы вычислять перекрывающиеся интервалы, вы вычисляете Z-показатель. Это проще реализовать алгоритмически, и вам помогут статистические библиотеки.

Посмотрите: https://onlinecourses.science.psu.edu/stat200/node/53

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.