Рассмотрим следующее из стр. 254-256 Sauro, J. & Lewis, JR (2016). Количественная оценка пользовательского опыта: практическая статистика для исследования пользователей, 2-е изд. Кембридж, Массачусетс: Morgan-Kaufmann (вы можете заглянуть внутрь по адресу https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
ВАМ НУЖНО ПРОВЕРИТЬ, ПОСЛЕДНИЕ 30 ПОЛЬЗОВАТЕЛЕЙ?
С ОДНОЙ СТОРОНЫ
Вероятно, большинство из нас, кто посещал вводный класс статистики (или знает кого-то, кто брал такой класс), слышали эмпирическое правило, что для оценки или сравнения средних значений размер вашей выборки должен быть не менее 30. Согласно центральной теореме о пределе, с увеличением размера выборки распределение среднего становится все более нормальным, независимо от нормальности основного распределения. Некоторые исследования моделирования показали, что для широкого спектра распределений (но не всех - см. Bradley, 1978) распределение среднего становится почти нормальным, когда n = 30.
Другое соображение заключается в том, что немного проще использовать z-оценки, чем t-оценки, поскольку z-оценки не требуют использования степеней свободы. Как показано в Таблице 9.1 и на Рис. 9.2, к тому времени, когда у вас будет около 30 степеней свободы, значение t будет довольно близко к значению z. Следовательно, может возникнуть ощущение, что вам не нужно иметь дело с небольшими выборками, которые требуют статистики малых выборок (Cohen, 1990). ...
С ДРУГОЙ СТОРОНЫ
Когда стоимость выборки является дорогой, как это обычно делается во многих типах пользовательских исследований (например, тестирование с умеренной юзабилити), важно максимально точно оценить необходимый размер выборки, понимая, что это оценка. Вероятность того, что 30 является точно подходящей выборкой для данного набора обстоятельств, очень мала. Как показано в наших главах по оценке размера выборки, более подходящий подход состоит в том, чтобы взять формулы для вычисления уровней значимости статистического теста и, используя алгебру для решения n, преобразовать их в формулы оценки размера выборки. Эти формулы затем дают конкретные указания относительно того, что вы должны знать или оценивать для данной ситуации, чтобы оценить требуемый размер выборки.
Идея о том, что даже при t-распределении (в отличие от z-распределения) вам необходимо иметь размер выборки не менее 30, не согласуется с историей развития этого распределения. В 1899 году Уильям С. Госсетт, недавний выпускник Нью-колледжа в Оксфорде, получивший степень по химии и математике, стал одним из первых ученых, присоединившихся к пивоварне Guinness. «По сравнению с гигантами его времени, он опубликовал очень мало, но его вклад имеет решающее значение. … Характер процесса пивоварения с его изменчивостью температуры и ингредиентов означает, что невозможно брать большие пробы в течение длительного времени »(Cowles, 1989, p. 108–109).
Это означало, что Госсетт не мог использовать z-показатели в своей работе - они просто плохо работают с небольшими выборками. Проанализировав недостатки z-распределения для статистических тестов с небольшими выборками, он разработал необходимые корректировки в зависимости от степени свободы для создания своих t-таблиц, опубликованных под псевдонимом «Student» из-за политики Гиннесса, запрещающей публикацию. сотрудниками (Salsburg, 2001). В работе, которая привела к публикации таблиц, Госсетт выполнил раннюю версию моделирования Монте-Карло (Стиглер, 1999). Он подготовил 3000 карточек, помеченных физическими измерениями, проведенными на преступниках, перетасовал их, а затем раздал их в 750 групп размера 4 - размер выборки намного меньше 30.
НАША РЕКОМЕНДАЦИЯ
Это противоречие аналогично аргументу «пять - достаточно» и «восемь - недостаточно», описанному в главе 6, но применяется к суммирующим, а не формирующим исследованиям. Для любого исследования количество пользователей, которые будут тестироваться, зависит от цели теста и типа данных, которые вы планируете собирать. «Магическое число» 30 имеет эмпирическое обоснование, но, на наш взгляд, оно очень слабое. Как вы можете видеть из многочисленных примеров в этой книге, у которых размеры выборки не равны 30 (иногда меньше, иногда больше), мы не придерживаемся этого эмпирического правила в очень высоком отношении. Как описано в нашей главе о размере выборки для суммирующего исследования, подходящий размер выборки для исследования зависит от типа распределения, ожидаемой изменчивости данных, желаемых уровней достоверности и мощности,
Как показано на рис. 9.2, при использовании t-распределения с очень маленькими выборками (например, со степенями свободы менее 5) очень большие значения t компенсируют небольшие размеры выборок в отношении контроля ошибок типа I ( претензия на разницу значительна, когда ее на самом деле нет). При небольших размерах выборки ваши доверительные интервалы будут намного шире, чем при больших выборках. Но как только вы имеете дело с более чем 5 степенями свободы, абсолютная разница между значением z и значением t становится очень небольшой. С точки зрения приближения t к z очень мало выигрыша за 10 степенями свободы.
Использовать t-распределение не намного сложнее, чем z-распределение (нужно просто убедиться, что вы используете правильное значение для степеней свободы), и причина развития t-распределения заключалась в том, чтобы включить анализ небольших образцов. Это только один из менее очевидных способов, с помощью которых практикующие юзабилити могут извлечь пользу из науки и практики пивоварения. Историки статистики широко расценивают публикацию Госсетта t-критерия Стьюдента как знаковое событие (Box, 1984; Cowles, 1989; Stigler, 1999). В письме Рональду А. Фишеру (одному из отцов современной статистики), содержащем раннюю копию t-таблиц, Госсетт написал: «Вы, вероятно, единственный человек, который когда-либо будет их использовать» (Box, 1978). Госсетт многое понял правильно, но он, конечно, ошибся.
РЕКОМЕНДАЦИИ
Box, GEP (1984). Важность практики в развитии статистики. Technometrics, 26 (1), 1-8.
Box, JF (1978). Фишер, жизнь ученого. Нью-Йорк, Нью-Йорк: Джон Уайли.
Брэдли, СП (1978). Грубости? Британский журнал математической и статистической психологии, 31, 144-152.
Коэн, J. (1990). Вещи, которые я узнал (до сих пор). Американский психолог, 45 (12), 1304-1312.
Коулз, М. (1989). Статистика в психологии: историческая перспектива. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
Сальсбург Д. (2001). Леди, дегустирующая чай: как статистика революционизировала науку в двадцатом веке. Нью-Йорк, Нью-Йорк: WH Freeman.
Стиглер С.М. (1999). Статистика на столе: история статистических понятий и методов. Кембридж, Массачусетс: издательство Гарвардского университета.