У меня есть ссылки, в которых рекомендуется учитывать размер выборки не менее 20 для распределения данных.
Есть ли в этом смысл?
Благодарность
У меня есть ссылки, в которых рекомендуется учитывать размер выборки не менее 20 для распределения данных.
Есть ли в этом смысл?
Благодарность
Ответы:
Многое из этого зависит от ожидаемого распределения и от того, каков ваш вопрос исследования. Как правило, вы должны быть осторожны с правилами. Если вы знаете ожидаемое распределение, запустите некоторые моделирования разных размеров и определите, как часто выборочные моделирования отражают фактическое распределение. Это должно дать вам некоторые рекомендации в качестве окончательного требуемого размера выборки.
Я думал, что магический номер выборки равен 1000. Это то, что есть в большинстве национальных опросов США, чтобы получить погрешность около 3%: В действительности эффективные размеры выборки ниже более 1000, более примерно 700 или около того, из-за неравной вероятности выбора и корректировки без ответа, что приводит к погрешности 3,7%.
Всего лишь с 20 наблюдениями вы технически не можете получить очень высокие значения асимметрии и эксцесса (конечно, нормализованные по стандартным отклонениям выборки):
Другой взгляд на распределение фитинга может быть принято путем оценки плотности ядра: для выборки размера , то наиболее популярным правилом дает полосу пропускания которая эффективно охватывает весь дистрибутив, используя ядро Гаусса. Другими словами, большинство образцов размера 20 будут выглядеть нормально, если вы проведете оценку плотности ядра через них, если только у них явно не будет заметного эксцесса (что тогда будет означать, что есть некоторые отдаленные наблюдения, которые проявятся как отдельные удары по плотности ядра). участок).ч = 1,06 σ п - 1 / 5 = 0,58 σ
Нет. Не удаленно.
Подумайте об этом так: если у вас было миллиардное пространство (человечество), и вы взяли 20 образцов, используя любой метод (20 человек), могли бы вы использовать полученную информацию, чтобы понять достаточно хорошо каждого человека на планете? Не удаленно. В галактике Млечный Путь 100 миллиардов звезд. Выбрав (случайно) 20 из них, вы сможете понять всю галактическую астрономию? Ни за что.
В одномерном пространстве есть некоторые эвристические, в основном действующие практические правила, которые могут помочь, которые описывают, сколько измерений вы хотите выполнить. Они включают в себя различные степени полезности и обоснованности, но в некотором смысле более надежно защищены, чем «20». Они включают «5 измерений на переменную в вашем уравнении подгонки», «не менее 35 выборок гауссовой функции плотности» и «не менее 300 выборок биномиальной функции». Реальные статистики, а не ботаник-бомбардировщик, как я, смогут связать определенные доверительные интервалы и неопределенности из первых принципов и без калькулятора.
Если вы используете правило «5 измерений на параметр в уравнении подгонки» и хотите подогнать кумулятивную плотность двумерной криволинейной бикубической поверхности с точки зрения распределения высот, у вас будет базовая система, которая , отношение многочлена 5-го порядка к кубике. Он будет иметь 6 + 4 = 10 коэффициентов. Если вы пытаетесь подогнать свои 10 значений параметров, используя 2 измерения на параметр или 20 измерений, то вы нарушите эту эвристику. Эта эвристика рекомендует минимум 10 * 5 = 50 измерений.
Пожалуйста, помните, что «лучшее» - это бессмысленная идея без «меры благости». Какой путь лучше? Если вы собираетесь на гибель, может быть, очень долго и приятно. Если вы собираетесь на собственную коронацию, возможно, короткую и великолепную. Если вы идете по пустыне, крутой тенистый. Какое «лучшее» количество образцов? Это так потрясающе зависит от вашей проблемы, что на него нельзя начать отвечать авторитетно до этого. Все они? Столько, сколько вы можете? Это только немного смысла. Да, это как будто частично умерла или забеременела. Быть частично бессмысленным является следствием очень недостаточно определенной проблемы.
Если вы пытаетесь точно прогнозировать воздушный поток над самолетом? Вам может понадобиться несколько миллионов измерений, чтобы попасть в парк. Если вы хотите знать, какой у вас рост, один или два могут выполнить эту работу.
Это не затрагивает важных моментов «охвата пространства» и «выборки в местах, которые сводят к минимуму расхождения в оценках параметров», но вопрос предполагал, что более уместным будет ответ на уровне первокурсника. Эти вещи требуют знаний о природе проблемы, прежде чем они могут быть реализованы.
Примечание: отредактировано для улучшения согласно предложениям.
Возможно, для контекста, в котором вы проводите t-тесты или ANOVAR - довольно распространенный контекст в базовых статистических приложениях - он касается размера выборки, необходимого для каждой группы, чтобы иметь возможность быть уверенным в среднем значении каждой группы приблизительно нормально распределенный (в соответствии с центральной предельной теоремой), когда можно предположить, что распределение более или менее унимодально и не очень пиково. Двадцать, а не девятнадцать или двадцать один, потому что это круглое число.
Посетите страницу Расса Лента и информацию о размере выборки, чтобы найти статьи на эту тему (в разделе «Советы» в середине страницы).
Минимальное количество лиц в вашей выборке сильно варьируется в зависимости от размера популяции, количества измерений (если вы делите данные по категориям) и мер (если вы принимаете непрерывные меры в отношении выборочных лиц), которые вы принимаете, размера ваша вселенная, метод анализа, который вы намереваетесь использовать (это очень важный момент - метод определяется во время планирования исследования или во время эксперимента , а не после), и сложность, показанная в предыдущих исследованиях.
И 20 недостаточно для каких-либо серьезных исследований за пределами предметов «редких болезней» и «экспериментальной психологии» (псих, как определил Поппер в своей работе).
И 20 недостаточно для какого-либо серьезного исследования вне предмета «редких болезней» и «экспериментальной психологии» (псих, как определил Поппер в своей работе), которое включает в себя подбор распределения вероятностей .
И нет, вы не должны отравлять людей, чтобы получить большую выборку. Здравый смысл и последовательные тесты приказывают вам остановиться.