Статистика и большие данные sample-size

1

Почему выборочное распределение дисперсии является распределением хи-квадрат?

Заявление Распределение выборки дисперсии выборки представляет собой распределение хи-квадрат со степенью свободы, равной , где - размер выборки (учитывая, что интересующая случайная величина обычно распределена).nn−1n−1n-1nnn Источник Моя интуиция Мне это кажется интуитивно понятным: 1) потому что критерий хи-квадрат выглядит как сумма квадратов и 2) потому что распределение хи-квадрат - это …

22 distributions normal-distribution sampling chi-squared sample-size

1

Показано, что 100 измерений для 5 предметов дают гораздо меньше информации, чем 5 измерений для 100 предметов

На конференции я услышал следующее утверждение: 100 измерений для 5 предметов дают гораздо меньше информации, чем 5 измерений для 100 предметов. Очевидно, что это правда, но мне было интересно, как можно это доказать математически ... Я думаю, что можно использовать линейную смешанную модель. Тем не менее, я не знаю много …

21 mixed-model variance repeated-measures sample-size intraclass-correlation

4

Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли главные компоненты в этой матрице …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

Пример распределения, где большой размер выборки необходим для центральной предельной теоремы

Некоторые книги утверждают , образец размер размер 30 или выше , необходимо для центральной предельной теоремы , чтобы дать хорошее приближение для X¯X¯\bar{X} . Я знаю, что этого недостаточно для всех дистрибутивов. Я хотел бы увидеть некоторые примеры распределений, где даже при большом размере выборки (возможно, 100 или 1000 или …

19 mean sample-size normality-assumption central-limit-theorem

1

Существует ли статистический тест для сравнения двух выборок размера 1 и 3?

Для экологического проекта моя лабораторная группа добавила уксус в 4 резервуара, содержащих равные объемы прудовой воды, 1 контрольный образец без элодеи (водное растение) и 3 обработки с одинаковым количеством элодеи в каждом. Целью добавления уксуса было снижение рН. Гипотеза заключалась в том, что резервуары с элодеей быстрее вернутся к своему …

19 hypothesis-testing t-test sample-size

1

Что значит сделать размер выборки случайной величиной?

Фрэнк Харрелл завел блог ( статистическое мышление) . В своем главном посту он перечисляет некоторые ключевые особенности своей статистической философии. Среди прочих предметов в него входят: Сделайте размер выборки случайной величиной, если это возможно Что значит «сделать размер выборки случайной величиной»? Каковы преимущества этого? Почему это может быть предпочтительнее?

18 sample-size random-variable regression-strategies

4

Расчет необходимого размера выборки, точность оценки отклонений?

Фон У меня есть переменная с неизвестным распределением. У меня есть 500 выборок, но я хотел бы продемонстрировать точность, с которой я могу вычислить дисперсию, например, доказать, что размер выборки 500 достаточен. Мне также интересно знать минимальный размер выборки, который потребуется для оценки дисперсии с точностью до .X%X%X\% Вопросов Как …

18 estimation random-variable variance sampling sample-size

6

Могу ли я доверять значительному результату t-теста, если размер выборки небольшой?

Если мой результат одностороннего t-теста значителен, но размер выборки невелик (например, ниже 20 или около того), могу ли я доверять этому результату? Если нет, как я должен иметь дело и / или интерпретировать этот результат?

17 statistical-significance t-test interpretation sample-size small-sample

2

Какова взаимосвязь между размером выборки и влиянием априора на заднюю?

Если у нас небольшой размер выборки, сильно ли повлияет предварительное распределение на последующее?

17 bayesian sample-size prior

8

Минимальный размер выборки для непарного t-теста

Существует ли «правило» для определения минимального размера выборки, необходимого для правильности t-теста? Например, необходимо провести сравнение между двумя популяциями. Существует 7 точек данных из одной совокупности и только 2 точки данных из другой. К сожалению, эксперимент очень дорог и требует много времени, и получение большего количества данных не представляется возможным. …

16 t-test sample-size small-sample wilcoxon-mann-whitney

2

Как выбрать уровень значимости для большого набора данных?

Я работаю с набором данных, имеющих N около 200 000. В регрессиях я вижу очень маленькие значения значимости << 0,001, связанные с очень маленькими величинами эффекта, например, r = 0,028. Я хотел бы знать, есть ли принципиальный способ определения подходящего порога значимости по отношению к размеру выборки? Есть ли другие …

15 regression probability statistical-significance sample-size

3

Как вы определяете размер выборки при опросе большого количества населения?

В Австралии в настоящее время проводятся выборы, и по понятным причинам СМИ ежедневно сообщают о новых результатах политического опроса. В стране с населением 22 миллиона человек какой процент населения должен быть выбран для получения статистически достоверного результата? Возможно ли, что использование слишком большой выборки может повлиять на результаты, или статистическая …

15 sample-size polling

3

Bootstrap: проблема переоснащения

Предположим, что кто-то выполняет так называемый непараметрический бутстрап, рисуя выборок размером n каждая из исходных n наблюдений с заменой. Я полагаю, что эта процедура эквивалентна оценке кумулятивной функции распределения по эмпирическому cdf:BBBnnnnnn http://en.wikipedia.org/wiki/Empirical_distribution_function и затем получение образцов начальной загрузки путем моделирования наблюдений из оцененных cdf B раз подряд.nnnBBB Если я …

14 bootstrap sample-size sample small-sample finite-population

2

Неравные размеры выборки: когда вызывать

Я рецензирую статью в академическом журнале, и авторы написали следующее в качестве оправдания для того, чтобы не сообщать какие-либо логические выводы (я определил природу двух групп): В общей сложности 25 из 2349 (1,1%) респондентов сообщили X . Мы надлежащим образом воздерживаемся от представления анализов, которые статистически сравнивают группу X с …

14 hypothesis-testing sample-size power-analysis power group-differences

7

Стоит ли моделировать короткие временные ряды?

Вот некоторый контекст. Я заинтересован в определении того, как две переменные среды (температура, уровни питательных веществ) влияют на среднее значение переменной отклика за 11-летний период. В течение каждого года есть данные из более чем 100 тысяч мест. Цель состоит в том, чтобы определить, отразилось ли в течение 11-летнего периода среднее …

14 time-series regression sample-size small-sample

Вопросы с тегом «sample-size»