Существует ли минимальный размер выборки, необходимый для того, чтобы t-тест был действительным?

71

В настоящее время я работаю над квази-экспериментальной исследовательской работой. У меня размер выборки только 15 из-за низкой численности населения в выбранной области, и только 15 соответствуют моим критериям. Является ли 15 минимальным размером выборки для t-теста и F-теста? Если так, где я могу получить статью или книгу, чтобы поддержать этот маленький размер выборки?

Этот документ был защищен в прошлый понедельник, и один из членов комиссии попросил предоставить вспомогательную справку, потому что размер моей выборки слишком мал По его словам, это должно было быть не менее 40 респондентов.

— Царица франсуаза
источник

4

Размер выборки может быть существенно меньше 15, если предположения верны. Была ли достоверность t-распределения единственной причиной, по которой он предложил большую выборку?

— Glen_b

Просто чтобы уточнить, какой тип t-теста вы проводите: один образец, парный образец или два образца.

— Джером Энглим

26

Исторически самой первой демонстрацией t-критерия (в статье «Студент» за 1908 г.) была заявка на выборку четвертого размера . Действительно, получение улучшенных результатов для небольших образцов - это требование теста на известность: как только размер выборки достигнет 40 или около того, t-критерий существенно не отличается от z-тестов, которые исследователи применяли в течение 19-го века. Вы можете поделиться современной версией этого документа с членом группы: york.ac.uk/depts/maths/histstat/student.pdf . Укажите расследование в разделе VI, стр. 14-18.

— whuber

10

Но вам следует подумать о том, что выборки небольшого размера, например 4, работают, потому что у Стьюдента были высококачественные данные: данные химической лаборатории, эксперименты, а не квазиэксперименты. Ваша главная проблема не в размере выборки, а в представительности: откуда вы знаете, что ваши данные являются репрезентативными?

— kjetil b halvorsen

10

@CzarinaFrancoise Зачем нам ограничивать себя наукой <10 лет?

— RioRaider

56

Не существует минимального размера выборки для того, чтобы t-тест был действительным. Валидность требует, чтобы предположения для статистики теста выполнялись приблизительно. Эти предположения в одном случае выборки показывают, что данные являются нормальными (или приблизительно нормальными) со средним значением 0 при нулевой гипотезе и дисперсией, которая неизвестна, но оценивается по выборке. В случае двух выборок обе выборки не зависят друг от друга, и каждая выборка состоит из нормальных переменных iid, причем две выборки имеют одинаковое среднее значение и общую неизвестную дисперсию при нулевой гипотезе. Объединенная оценка дисперсии используется для статистики.

В случае одного примера распределение по нулевой гипотезе является центральным t с n-1 степенями свободы. В двух случаях образцов с размерами выборки п и м не обязательно равно нулевое распределение тестовых статистики т с п + т-2 степенями свободы. Повышенная изменчивость из-за малого размера выборки учитывается в распределении, которое имеет более тяжелые хвосты при низких степенях свободы, что соответствует малому размеру выборки. Таким образом, можно найти критические значения для статистики теста, чтобы иметь заданный уровень значимости для любого размера выборки (ну, по крайней мере, размера 2 или больше).

Проблема с низким размером выборки связана с мощностью теста. Рецензент, возможно, считал, что 15 на группу не было достаточно большого размера выборки, чтобы иметь высокую мощность обнаружения значимой разницы, скажем, дельта между двумя средними значениями или среднее значение больше дельты в абсолютном значении для одной проблемы выборки. Необходимость 40 потребует указания определенной мощности в конкретной дельте, которая будет достигнута при n, равном 40, но не ниже 40.

Я должен добавить, что для проведения t-теста выборка должна быть достаточно большой, чтобы оценить ее или дисперсию.

— Майкл Черник
источник

2

Но важное замечание о том , что тест является действительным, даже если данные не приблизительно нормально, если размер выборки достаточно велик. Обоснование немного округлено (теорема Слуцкого + t-распределение приближается к норме) и оправдание для использования поверх z-критерия лишь в том, что оно более консервативно в небольших выборках. Но важно отметить, что если мы подозреваем ненормальность, большие образцы могут спасти нас!

— Клифф AB

1

@CliffAB Под "действительным" я предполагаю, что вы имеете в виду "имеет приблизительно правильный уровень значимости, в пределе как n \ to \ infty". Но обычно людей волнует больше, чем частота ошибок типа I (особенно, когда она может быть достаточно близкой к выборкам, которые могут быть больше, чем любой размер выборки). Относительная асимптотическая эффективность действительно может быть очень плохой, поэтому мощность против небольших эффектов в больших выборках может быть очень плохой по сравнению с альтернативными вариантами, даже если частота ошибок типа I становится такой, какой она должна быть ...

— Glen_b

33

При всем уважении к нему, он не знает, о чем говорит. T-тест был разработан для работы с небольшими образцами. На самом деле не существует минимума (возможно, вы могли бы сказать минимум 3 для t-теста с одной выборкой, IDK), но у вас есть опасения относительно достаточной мощности для небольших выборок. Возможно, вам будет интересно почитать идеи, лежащие в основе компромиссного анализа мощности, когда возможный размер выборки сильно ограничен, как в вашем случае.

Что касается ссылки, которая доказывает, что вы можете использовать t-тест с небольшими выборками, я не знаю ни одного, и я сомневаюсь, что он существует. Зачем кому-то пытаться доказать это? Идея просто глупая.

— Gung - Восстановить Монику
источник

6

+1 (тебе и Майклу). Интересно, что вам даже не нужно два наблюдения, чтобы делать выводы, если вы хотите сделать ряд предположений!

— Энди Ш

4

Причина для t-теста в малой выборке состоит в том, что даже когда образцы являются нормальными, если стандартное отклонение неизвестно, обычно нужно нормализовать путем деления на выборочную оценку стандартного отклонения. В больших выборках эта оценка будет достаточно близка к стандартному отклонению популяции, так что статистика теста будет примерно стандартной нормой, но в небольшой выборке она будет иметь более тяжелые хвосты, чем нормальная.

— Майкл Черник

5

Распределение t с n-1 степенями свободы является точным распределением для любого размера выборки n при нулевой гипотезе, и в небольших выборках его необходимо использовать вместо нормали, которая не очень хорошо ее приближает. Реальная проблема с размером выборки, как я и сказал, это сила. Если вы хотите поспорить с судьей, что 15 достаточно, вам нужно определить, насколько велика разница, которую нужно назвать значимой (дельта, которую я упомянул), а затем для этой дельты вам нужно показать, что мощность адекватна, скажем, 0,80 или выше. ,

— Майкл Черник

2

@CzarinaFrancoise О n> = 30, см. Stats.stackexchange.com/questions/2541/…

— Стефан Лоран

2

@gung Студенческая оригинальная (1908!) статья доказывает, что вы можете использовать t-тест с небольшими образцами. (Подробнее об этом см. В моем расширенном комментарии к первоначальному вопросу.)

— whuber

30

Как уже упоминалось в существующих ответах, основной проблемой с небольшим размером выборки является низкая статистическая мощность. Существуют различные практические правила относительно приемлемой статистической мощности. Некоторые люди говорят, что статистическая сила в 80% является разумной, но, в конечном счете, чем больше, тем лучше. Как правило, существует компромисс между затратами на привлечение большего количества участников и выгодой получения большей статистической мощности.

Вы можете оценить статистическую мощность при испытании с использованием простой функции в R, power.t.test.

$\alpha=.05$

p.2 <-power.t.test(n=15, delta=.2, sd=1, sig.level=.05, type='one.sample')
p.5 <- power.t.test(n=15, delta=.5, sd=1, sig.level=.05, type='one.sample')
p.8 <-power.t.test(n=15, delta=.8, sd=1, sig.level=.05, type='one.sample')

round(rbind(p.2=p.2$power, p.5=p.5$power, p.8=p.8$power), 2)  

    [,1]
p.2 0.11
p.5 0.44
p.8 0.82

Таким образом, мы можем видеть, что если бы размер эффекта популяции был «маленьким» или «средним», вы имели бы низкую статистическую мощность (т.е. 11% и 44% соответственно). Однако, если величина эффекта велика в популяции, у вас будет то, что некоторые называют «разумной» силой (т. Е. 82%).

Сайт Быстрый-р дает дополнительную информацию об анализе мощности с использованием R .

— Джером англим
источник

Хороший ответ! Также есть хорошее программное обеспечение для вычисления статистической мощности, которое называется G * Power .

— Энрике

7

T-критерий с двумя выборками действителен, если две выборки являются независимыми простыми случайными выборками из нормальных распределений с одинаковой дисперсией, и каждый из размеров выборки составляет не менее двух (так что можно оценить дисперсию совокупности). не имеет отношения к вопросу о достоверности теста. В зависимости от размера эффекта, который желательно обнаружить, небольшой размер выборки может быть неосторожным, но небольшой размер выборки не делает тест недействительным. Также обратите внимание, что для любого размера выборки среднее значение выборки является нормальным, если родительское распределение - нормальное. Конечно, большие размеры выборки всегда лучше, потому что они обеспечивают более точные оценки параметров. Центральная предельная теорема говорит нам, что выборочные средние значения в большей степени нормально распределены, чем отдельные значения, но, как отметили Казелла и Бергер, он имеет ограниченную полезность, так как скорость приближения к нормальности должна быть проверена для любого конкретного случая. Полагаться на эмпирические правила неразумно. Посмотреть результаты сообщили книги Рэнда Уилкокса.

— Уильям Стюарт
источник

5

Хотя верно, что в t-распределении учитывается небольшой размер выборки, я бы предположил, что ваш судья думал о сложности установления того, что популяция обычно распределяется, когда единственная информация, которой вы располагаете, является сравнительно небольшой выборкой? Это может не быть большой проблемой для выборки 15-го размера, поскольку, как мы надеемся, выборка достаточно велика, чтобы показать некоторые признаки расплывчатого нормального распределения? Если это правда, то, надеюсь, численность населения тоже будет где-то близка к норме, и в сочетании с центральной предельной теоремой это должно дать вам примерные средства, которые ведут себя достаточно хорошо.

Но я сомневаюсь в рекомендациях использовать t-тесты для крошечных образцов (таких как четвертый размер), если нормальная популяция не может быть установлена какой-то внешней информацией или механическим пониманием? Конечно, в выборке четвертого размера не может быть достаточно информации, чтобы иметь представление о форме распределения населения.

— просто я
источник

5

Рассмотрим следующее из стр. 254-256 Sauro, J. & Lewis, JR (2016). Количественная оценка пользовательского опыта: практическая статистика для исследования пользователей, 2-е изд. Кембридж, Массачусетс: Morgan-Kaufmann (вы можете заглянуть внутрь по адресу https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).

ВАМ НУЖНО ПРОВЕРИТЬ, ПОСЛЕДНИЕ 30 ПОЛЬЗОВАТЕЛЕЙ?

С ОДНОЙ СТОРОНЫ

Вероятно, большинство из нас, кто посещал вводный класс статистики (или знает кого-то, кто брал такой класс), слышали эмпирическое правило, что для оценки или сравнения средних значений размер вашей выборки должен быть не менее 30. Согласно центральной теореме о пределе, с увеличением размера выборки распределение среднего становится все более нормальным, независимо от нормальности основного распределения. Некоторые исследования моделирования показали, что для широкого спектра распределений (но не всех - см. Bradley, 1978) распределение среднего становится почти нормальным, когда n = 30.

Другое соображение заключается в том, что немного проще использовать z-оценки, чем t-оценки, поскольку z-оценки не требуют использования степеней свободы. Как показано в Таблице 9.1 и на Рис. 9.2, к тому времени, когда у вас будет около 30 степеней свободы, значение t будет довольно близко к значению z. Следовательно, может возникнуть ощущение, что вам не нужно иметь дело с небольшими выборками, которые требуют статистики малых выборок (Cohen, 1990). ...

С ДРУГОЙ СТОРОНЫ

Когда стоимость выборки является дорогой, как это обычно делается во многих типах пользовательских исследований (например, тестирование с умеренной юзабилити), важно максимально точно оценить необходимый размер выборки, понимая, что это оценка. Вероятность того, что 30 является точно подходящей выборкой для данного набора обстоятельств, очень мала. Как показано в наших главах по оценке размера выборки, более подходящий подход состоит в том, чтобы взять формулы для вычисления уровней значимости статистического теста и, используя алгебру для решения n, преобразовать их в формулы оценки размера выборки. Эти формулы затем дают конкретные указания относительно того, что вы должны знать или оценивать для данной ситуации, чтобы оценить требуемый размер выборки.

Идея о том, что даже при t-распределении (в отличие от z-распределения) вам необходимо иметь размер выборки не менее 30, не согласуется с историей развития этого распределения. В 1899 году Уильям С. Госсетт, недавний выпускник Нью-колледжа в Оксфорде, получивший степень по химии и математике, стал одним из первых ученых, присоединившихся к пивоварне Guinness. «По сравнению с гигантами его времени, он опубликовал очень мало, но его вклад имеет решающее значение. … Характер процесса пивоварения с его изменчивостью температуры и ингредиентов означает, что невозможно брать большие пробы в течение длительного времени »(Cowles, 1989, p. 108–109).

Это означало, что Госсетт не мог использовать z-показатели в своей работе - они просто плохо работают с небольшими выборками. Проанализировав недостатки z-распределения для статистических тестов с небольшими выборками, он разработал необходимые корректировки в зависимости от степени свободы для создания своих t-таблиц, опубликованных под псевдонимом «Student» из-за политики Гиннесса, запрещающей публикацию. сотрудниками (Salsburg, 2001). В работе, которая привела к публикации таблиц, Госсетт выполнил раннюю версию моделирования Монте-Карло (Стиглер, 1999). Он подготовил 3000 карточек, помеченных физическими измерениями, проведенными на преступниках, перетасовал их, а затем раздал их в 750 групп размера 4 - размер выборки намного меньше 30.

НАША РЕКОМЕНДАЦИЯ

Это противоречие аналогично аргументу «пять - достаточно» и «восемь - недостаточно», описанному в главе 6, но применяется к суммирующим, а не формирующим исследованиям. Для любого исследования количество пользователей, которые будут тестироваться, зависит от цели теста и типа данных, которые вы планируете собирать. «Магическое число» 30 имеет эмпирическое обоснование, но, на наш взгляд, оно очень слабое. Как вы можете видеть из многочисленных примеров в этой книге, у которых размеры выборки не равны 30 (иногда меньше, иногда больше), мы не придерживаемся этого эмпирического правила в очень высоком отношении. Как описано в нашей главе о размере выборки для суммирующего исследования, подходящий размер выборки для исследования зависит от типа распределения, ожидаемой изменчивости данных, желаемых уровней достоверности и мощности,

Как показано на рис. 9.2, при использовании t-распределения с очень маленькими выборками (например, со степенями свободы менее 5) очень большие значения t компенсируют небольшие размеры выборок в отношении контроля ошибок типа I ( претензия на разницу значительна, когда ее на самом деле нет). При небольших размерах выборки ваши доверительные интервалы будут намного шире, чем при больших выборках. Но как только вы имеете дело с более чем 5 степенями свободы, абсолютная разница между значением z и значением t становится очень небольшой. С точки зрения приближения t к z очень мало выигрыша за 10 степенями свободы.

Использовать t-распределение не намного сложнее, чем z-распределение (нужно просто убедиться, что вы используете правильное значение для степеней свободы), и причина развития t-распределения заключалась в том, чтобы включить анализ небольших образцов. Это только один из менее очевидных способов, с помощью которых практикующие юзабилити могут извлечь пользу из науки и практики пивоварения. Историки статистики широко расценивают публикацию Госсетта t-критерия Стьюдента как знаковое событие (Box, 1984; Cowles, 1989; Stigler, 1999). В письме Рональду А. Фишеру (одному из отцов современной статистики), содержащем раннюю копию t-таблиц, Госсетт написал: «Вы, вероятно, единственный человек, который когда-либо будет их использовать» (Box, 1978). Госсетт многое понял правильно, но он, конечно, ошибся.

РЕКОМЕНДАЦИИ

Box, GEP (1984). Важность практики в развитии статистики. Technometrics, 26 (1), 1-8.

Box, JF (1978). Фишер, жизнь ученого. Нью-Йорк, Нью-Йорк: Джон Уайли.

Брэдли, СП (1978). Грубости? Британский журнал математической и статистической психологии, 31, 144-152.

Коэн, J. (1990). Вещи, которые я узнал (до сих пор). Американский психолог, 45 (12), 1304-1312.

Коулз, М. (1989). Статистика в психологии: историческая перспектива. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.

Сальсбург Д. (2001). Леди, дегустирующая чай: как статистика революционизировала науку в двадцатом веке. Нью-Йорк, Нью-Йорк: WH Freeman.

Стиглер С.М. (1999). Статистика на столе: история статистических понятий и методов. Кембридж, Массачусетс: издательство Гарвардского университета.

— Джим Льюис
источник

3

Царице может быть интересно сравнить результаты ее параметрического t-теста с результатами, полученными с помощью t-теста начальной загрузки. Следующий код для Stata 13/1 имитирует вымышленный пример, касающийся t-критерия с двумя выборками с неравными отклонениями (параметрический t-критерий: p-значение = 0,1493; загрузочный t-критерий: p-значение = 0,1543).

set obs 15
g A=2*runiform()
g B=2.5*runiform()
ttest A == B, unpaired unequal
scalar t =r(t)
sum A, meanonly
replace A=A-r(mean) + 1.110498 ///1.110498=combined mean of A and B
sum B, meanonly
replace B=B-r(mean) + 1.110498
bootstrap r(t), reps(10000) nodots///
saving(C:\Users\user\Desktop\Czarina.dta, every(1) double replace) : ///
ttest A == B, unpairedunequal
use "C:\Users\user\Desktop\Czarina.dta", clear
count if _bs_1<=-1.4857///-1.4857=t-value from parametric ttest
count if _bs_1>=1.4857
display (811+732)/10000///this chunk of code calculates a bootstrap p-value///
to be compared with the parametric ttest p-value

— Карло Лаззаро
источник

3

Есть два разных способа оправдать использование t-критерия.

Ваши данные обычно распределяются, и у вас есть как минимум две выборки на группу
У вас большие выборки в каждой группе

Если либо из этих случаев выполняется, то t-критерий считается действительным. Поэтому, если вы хотите сделать предположение о том, что ваши данные нормально распределены (как это делают многие исследователи, собирающие небольшие выборки), вам не о чем беспокоиться.

Однако кто-то может обоснованно возразить, что вы полагаетесь на это предположение для получения своих результатов, особенно если известно, что ваши данные искажены. затем вопрос размера выборки, требуемой для правильного вывода, является очень разумным.

Что касается того, насколько большой размер выборки требуется, к сожалению, нет реального твердого ответа на это; чем больше искажены ваши данные, тем больше размер выборки, необходимый для разумного приближения. 15-20 на группу обычно считается достаточно большим, но, как и в большинстве эмпирических правил, существуют контрпримеры: например, в возвратах лотерейных билетов (где 1 в, скажем, 10 000 000 наблюдений является КРАЙНЕМ выбросом), вам буквально потребуется где-то около 100 000 000 наблюдений до этих испытаний будет уместным.

— Клифф AB
источник

1

Я согласен с полезностью ускоренного t-теста. Для сравнения я бы также рекомендовал взглянуть на байесовский метод, предложенный Крушке на http://www.indiana.edu/~kruschke/BEST/BEST.pdf . В общем, вопросы "Сколько предметов?" невозможно ответить, если вы не имеете в виду, что значительный эффект с точки зрения решаемой проблемы. То есть, например, если тест был гипотетическим исследованием эффективности нового лекарства, размер эффекта мог бы быть минимальным размером, необходимым для обоснования нового лекарства по сравнению со старым для Управления по контролю за продуктами и лекарствами США.

Что странно в этом и многих других обсуждениях, так это общая готовность утверждать, что некоторые данные просто имеют некоторое теоретическое распределение, например гауссовское. Во-первых, нам не нужно ставить, мы можем проверить, даже с небольшими образцами. Во-вторых, зачем вообще нужно какое-то конкретное теоретическое распределение? Почему бы просто не воспринимать данные как эмпирическое распределение?

Конечно, в случае небольших размеров выборки утверждение, что данные поступают из некоторого распределения, очень полезно для анализа. Но, перефразируя Брэдли Эфрона, вы только что создали бесконечное количество данных. Иногда это может быть хорошо, если ваша проблема уместна. Иногда это не так.

— Ян Галковски
источник

1

Насколько допущения идут для двух примеров; это то, что обе выборки не зависят друг от друга, и каждая выборка состоит из iid нормальных переменных, причем две выборки имеют одинаковое среднее значение и общую неизвестную дисперсию при нулевой гипотезе.

Существует также t-критерий Уэлча, использующий приближение Саттервейта для стандартной ошибки. Это t-критерий из двух выборок, предполагающий неравные отклонения.

T-тест Уэлча

— броненосец
источник