Я пытаюсь понять причину, выбирая конкретный подход к тестированию при работе с простым A / B-тестом - (т.е. две вариации / группы с двоичным респоном (преобразованным или нет). В качестве примера я буду использовать данные ниже
Version Visits Conversions
A 2069 188
B 1826 220
Верхний ответ здесь хорош и говорит о некоторых базовых допущениях для тестов z, t и хи-квадрат. Но что меня смущает, так это то, что разные онлайн-ресурсы будут ссылаться на разные подходы, и вы думаете, что предположения для базового A / B-теста должны быть примерно одинаковыми?
- Например, эта статья использует z-счет :
- В этой статье используется следующая формула (которую я не уверен, если она отличается от вычисления zscore?):
- Эта статья ссылается на критерий Стьюдента (стр. 152):
Так что же можно сделать в пользу этих разных подходов? Почему у кого-то есть предпочтения?
Чтобы добавить еще одного кандидата, приведенную выше таблицу можно переписать как таблицу на случай непредвиденных обстоятельств 2x2, где можно использовать точный критерий Фишера (p5)
Non converters Converters Row Total
Version A 1881 188 2069
Versions B 1606 220 1826
Column Total 3487 408 3895
Но в соответствии с этой нитью точный критерий Фишера следует использовать только для образцов меньшего размера (что такое отсечение?)
И еще есть парные t и z тесты, f test (и логистическая регрессия, но я хочу пока об этом забыть) .... Я чувствую, что тону в разных подходах к тестированию, и я просто хочу иметь возможность приведите аргументы для различных методов в этом простом тестовом примере.
Используя данные примера, я получаю следующие p-значения
https://vwo.com/ab-split-test-significance-calculator/ дает p-значение 0,001 (z-оценка)
http://www.evanmiller.org/ab-testing/chi-squared.html (с использованием критерия хи-квадрат) дает значение р 0,00259
И в R
fisher.test(rbind(c(1881,188),c(1606,220)))$p.value
дает р-значение 0,002785305
Который, я думаю, все довольно близко ...
В любом случае - просто надеяться на полезную дискуссию о том, какие подходы использовать в онлайн-тестировании, когда размеры выборки обычно исчисляются тысячами, а соотношение ответов часто составляет 10% или менее. Мой инстинкт подсказывает мне использовать хи-квадрат, но я хочу точно ответить, почему я выбираю его из множества других способов сделать это.