Статистика и большие данные t-test

2

В каких настройках доверительные интервалы не улучшатся с увеличением размера выборки?

В сообщении в блоге я обнаружил, что «Я полагаю, что WG Cochrane первым указал (примерно 1970-е годы), что при доверительных интервалах в условиях наблюдений малые размеры выборки приводят к лучшему охвату при достаточно больших выборках, обеспечивающих практически нулевое покрытие! Теперь я предполагаю, что ширина CI должна приближаться к 0 с …

11 confidence-interval t-test simulation

1

Всегда ли степени свободы для теста Уэлча меньше, чем DF объединенного теста?

Я преподаю курс по основам статистики, и мы проводим t-тест для двух независимых выборок с неравными отклонениями (тест Уэлча). В примерах, которые я видел, скорректированные степени свободы, используемые в тесте Уэлча, всегда меньше или равны . n1+n2−2n1+n2−2n_1+n_2-2 Это всегда так? Всегда ли критерий Уэлча уменьшает (или оставляет неизменным) степени свободы …

11 hypothesis-testing t-test

4

Как лучше всего анализировать данные о продолжительности пребывания в РКИ в больнице?

Мне интересно знать, существует ли консенсус относительно оптимального способа анализа данных о продолжительности пребывания в больнице (LOS) из РКИ. Это, как правило, распределение с очень правильным перекосом, при котором большинство пациентов выписывается в течение нескольких дней или недели, но у остальных пациентов остаются довольно непредсказуемые (а иногда и довольно продолжительные) …

11 t-test power skewness cox-model logrank

2

Что является байесовским аналогом t-критерия с двумя выборками с неравными дисперсиями?

Я ищу байесовский аналог t-критерия с двумя выборками с неравными отклонениями (критерий Уэлча). Я также ищу многовариантный тест, такой как статистика Т Хотеллинга. Отзывы приветствуются. Для многомерного случая предположим, что у нас есть и , где (соответственно ) - это сокращение для среднего значения выборки, стандартного отклонения выборки и количества …

11 correlation bayesian t-test heteroscedasticity

1

Размер выборки, необходимый для определения, какой из набора рекламных объявлений имеет самый высокий рейтинг кликов.

По профессии я дизайнер программного обеспечения и работаю над проектом для клиента, и я хотел бы убедиться, что мой анализ является статистически обоснованным. Подумайте над следующим: у нас есть n рекламных объявлений (n <10), и мы просто хотим знать, какое объявление работает лучше всего. Наш рекламный сервер будет случайным образом …

11 anova sample-size t-test rule-of-thumb

1

R / mgcv: Почему тензорные продукты te () и ti () производят разные поверхности?

mgcvПакет Rимеет две функции для установки взаимодействия Тензор продукта: te()и ti(). Я понимаю основное разделение труда между ними (подгонка нелинейного взаимодействия против разложения этого взаимодействия на основные эффекты и взаимодействие). Чего я не понимаю, так это почему te(x1, x2)и ti(x1) + ti(x2) + ti(x1, x2)может дать (немного) разные результаты. MWE …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Как выполнить t-тест с огромными образцами?

У меня есть две популяции, одна с N = 38,704 (количество наблюдений) и другая с N = 1 313 662. Эти наборы данных имеют ~ 25 переменных, все непрерывные. Я взял среднее значение каждого в каждом наборе данных и вычислил статистику теста, используя формулу t = средняя разница / стандартная …

11 t-test

4

Как визуализировать два независимых t-критерия?

Каковы наиболее приемлемые способы визуализации результатов независимого двух-выборочного t-теста? Чаще всего используется числовая таблица или какой-то сюжет? Цель состоит в том, чтобы случайный наблюдатель посмотрел на фигуру и сразу увидел, что они, вероятно, из двух разных групп населения.

11 data-visualization t-test

1

В какой ситуации тест Уилкоксона со знаком будет предпочтительнее, чем критерий Стьюдента или Тест на знак?

После некоторого обсуждения (ниже) у меня теперь есть более четкая картина сфокусированного вопроса, так что здесь есть пересмотренный вопрос, хотя некоторые комментарии теперь могут показаться не связанными с первоначальным вопросом. Кажется, что t-тесты быстро сходятся для симметричных распределений , что тест со знаком ранга предполагает симметрию , и что для …

10 hypothesis-testing t-test paired-data wilcoxon-signed-rank sign-test

6

Как мы можем узнать дисперсию населения?

При проверке гипотез, общий вопрос - что такое популяционная дисперсия? Мой вопрос: как мы можем узнать разницу населения? Если бы мы знали все распределение, мы могли бы также знать среднее значение для всего населения. Тогда какой смысл в проверке гипотез?

10 hypothesis-testing variance t-test z-test

3

D Коэна для t-теста зависимого образца

Быстрый вопрос: я видел, как d Коэна вычислил два разных способа для t-теста зависимых образцов (например, в рамках дизайна выборки, проверяющего эффективность лекарства с до / после времени). Используя стандартное отклонение оценки изменения в знаменателе уравнения для Коэна d. Используя стандартное отклонение оценки перед тестом в знаменателе уравнения Коэна d. …

10 t-test effect-size

4

Как t-критерий может быть статистически значимым, если средняя разница почти равна 0?

Я пытаюсь сравнить данные двух групп, чтобы определить, является ли разница между обработками статистически значимой. Наборы данных, кажется, обычно распределяются с очень небольшим различием между этими двумя наборами. Средняя разница составляет 0,00017. Я выполнил парный t-тест, ожидая, что мне не удастся отвергнуть нулевую гипотезу о разнице между средними значениями, однако …

10 statistical-significance t-test paired-data

2

Что произойдет в одном тесте t-test, если в оценщике дисперсии среднее значение выборки заменено на ?

Предположим t-критерий с одной выборкой, где нулевая гипотеза . Статистика тогда с использованием стандартного отклонения выборки . При оценке сравниваются наблюдения со средним значением выборки : т = ¯ х - μ 0μ=μ0μ=μ0\mu=\mu_0 ss¯xt=x¯¯¯−μ0s/n√t=x¯−μ0s/nt=\frac{\overline{x}-\mu_0}{s/\sqrt{n}}ssssssx¯¯¯x¯\overline{x} s=1n−1∑ni=1(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1n−1∑i=1n(xi−x¯)2s=\sqrt{\frac{1}{n-1}\sum_{i=1}^n (x_i-\overline{x})^2} . Однако, если мы предположим, что заданный является истинным, можно также оценить стандартное отклонение …

10 mathematical-statistics variance t-test

2

Проверьте, выпадают ли люди или уменьшают ставки после повторных проигрышей

У меня есть данные о серии выигрышных и проигрышных ставок за 5 раундов ставок с истощением после каждого раунда. Я использую дерево решений, подобное следующему, для отображения данных. Узлы к вершине дерева - это те, которые имеют выигрышные ставки, а узлы к нижней части дерева имеют ряд проигрышных ставок. Я …

10 t-test survival panel-data time-varying-covariate

1

Должен ли я использовать приблизительные степени свободы Уэлча (1947) или Satterthwaite (1946)?

Меня смущает правильная формула приблизительных степеней свободы, которую можно использовать для t-теста Уэлча. Формула Satterthwaite (1946) - это наиболее часто цитируемая формула, но Уэлч дал альтернативу в 1947 году. Я не уверен, что является предпочтительным (или используется большинством статистических программ). Формула Саттервейта: ( с2Икс/ нИкс+ с2Y/ нY)2( с2Икс/ нИкс)2/ ( …

10 hypothesis-testing t-test degrees-of-freedom

Вопросы с тегом «t-test»