Я изучал статистику несколько лет назад и забыл все это, поэтому они могут показаться общими концептуальными вопросами, а не чем-то конкретным, но вот моя проблема.
Я работаю на сайте электронной коммерции как UX Designer. У нас есть система A / B-тестирования, созданная много лет назад, и я начинаю сомневаться в этом.
Метрика, по которой мы принимаем все решения, называется конверсией и основана на проценте пользователей, которые посещают сайт и в конечном итоге что-то покупают.
Итак, мы хотим проверить изменение цвета кнопки «Купить» с зеленого на синий.
Контроль - это то, что у нас уже есть, Зеленая кнопка, где мы знаем, каков наш средний коэффициент конверсии. Эксперимент заменяет зеленую кнопку синей кнопкой.
Мы согласны с тем, что 95% значимость - это уровень доверия, которым мы довольны, и мы включаем эксперимент, оставляем его в покое.
Когда пользователи посещают сайт, за кулисами существует вероятность 50/50, что они будут отправлены в контрольную версию (зеленая кнопка) по сравнению с экспериментальной версией (синяя кнопка).
Посмотрев на эксперимент через 7 дней, я вижу увеличение конверсии на 10,2% в пользу эксперимента с размером выборки 3000 (1500 для контроля, 1500 для эксперимента) и статистической значимостью 99,2%. Отлично, я думаю.
Эксперимент продолжается, размер выборки увеличивается, и затем я вижу увеличение конверсии на + 9% при значении 98,1%. Хорошо, продолжайте эксперимент дольше, и теперь эксперимент показывает увеличение конверсии всего на 5% при статистической значимости всего 92%, а структура говорит мне, что мне нужно еще 4600 выборок, прежде чем я достигну 95% значимости?
В какой момент эксперимент убедителен?
Если я подумаю, скажем, о процессе клинического испытания, в котором вы заранее согласуетесь с размером выборки и после завершения эксперимента вы увидите улучшение показателя на 10% от любого показателя до значения 99%, то принимается решение о том, что этот препарат затем поступит в продажу. Но затем, если они выполнили эксперимент на 4000 человек и увидели, что показатель улучшился на 5% до 92%, то этот препарат не был бы выпущен на рынок.
Должны ли мы заранее договориться о размере выборки и остановиться, как только размер этой выборки будет достигнут, и порадоваться результатам, если значение было 99% на момент выключения эксперимента?