Статистика и большие данные hypothesis-testing

16

Является ли тестирование нормальности «по существу бесполезным»?

Бывший коллега однажды сказал мне следующее: Обычно мы применяем тесты нормальности к результатам процессов, которые при нулевом значении генерируют случайные переменные, которые являются только асимптотически или почти нормальными (с «асимптотически» частью, зависящей от некоторой величины, которую мы не можем сделать большой); В эпоху дешевой памяти, больших данных и быстрых процессоров …

298 hypothesis-testing normality-assumption philosophical

16

Что означает значения p и t в статистических тестах?

Пройдя курс статистики и затем пытаясь помочь сокурсникам, я заметил, что один предмет, который вызывает много шума, - это интерпретация результатов статистических проверок гипотез. Кажется, что студенты легко учатся выполнять вычисления, требуемые данным тестом, но зацикливаются на интерпретации результатов. Многие компьютеризированные инструменты сообщают результаты теста в терминах «значений p» или …

246 hypothesis-testing p-value interpretation intuition canonical-question

8

Facebook подходит к концу?

В последнее время эта статья привлекла большое внимание (например, из WSJ ). По сути, авторы приходят к выводу, что Facebook потеряет 80% своих членов к 2017 году. Они основывают свои требования на экстраполяции модели SIR , компартментальной модели, часто используемой в эпидемиологии. Их данные взяты из поисков Google для «Facebook», …

138 hypothesis-testing correlation epidemiology social-network

14

Являются ли большие наборы данных неподходящими для проверки гипотез?

В недавней статье в Amstat Новости , авторы (Марк ван дер Лан и Шерри Роуз) заявил , что «Мы знаем , что для достаточно больших размеров выборки, каждое исследование, в том числе те , в которых нулевая гипотеза об отсутствии эффекта верно - будет объявить статистически значимый эффект. Ну, я, …

129 hypothesis-testing sample-size dataset large-data

8

ASA обсуждает ограничения

У нас уже есть несколько потоков, помеченных как p-значения, которые показывают много недоразумений о них. Десять месяцев назад мы имели нить о психологическом журнале , что «запрещено» -значенияпpp р , в настоящее время Американской статистической ассоциации (2016) говорит , что с нашим анализом мы «не должны заканчиваться с расчетом на …

100 hypothesis-testing bayesian p-value frequentist

9

Это действительно, как работают p-значения? Может ли миллион научных работ в год основываться на чистой случайности?

Я очень плохо знаком со статистикой, и я только учусь понимать основы, включая . Но сейчас у меня в голове огромный вопросительный знак, и я надеюсь, что мое понимание неверно. Вот мой мыслительный процесс:пpp Разве все исследования в мире не похожи на обезьян в «теореме о бесконечной обезьяне»? Учтите, что …

98 hypothesis-testing statistical-significance p-value

7

Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках

Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий Уилкоксона-Манна-Уитни, или парный тест знака. Как мы можем принять принципиальное решение о том, какой …

96 hypothesis-testing t-test nonparametric small-sample wilcoxon-mann-whitney

2

Как много мы знаем о p-хакерстве «в дикой природе»?

Фраза p- взлома (также: «выемка данных» , «отслеживание» или «промысел») относится к различным видам статистической халатности, в которой результаты становятся искусственно статистически значимыми. Есть много способов добиться «более значительного» результата, включая, но не ограничиваясь: анализ только «интересного» подмножества данных , в котором был найден паттерн; отсутствие правильной настройки для многократного …

94 hypothesis-testing statistical-significance p-value model-selection reproducible-research

3

Какие примеры, когда «наивный бутстрап» терпит неудачу?

Предположим, у меня есть набор данных выборки из неизвестного или сложного распределения, и я хочу сделать некоторый вывод по статистике TTT данных. Моя склонность по умолчанию является просто генерировать кучу образцов бутстраповских с заменой, и вычислить мою статистику TTT на каждый образец начальной загрузки , чтобы создать оценочное распределение для …

86 hypothesis-testing confidence-interval bootstrap

9

Что касается значений р, почему 1% и 5%? Почему не 6% или 10%?

Что касается p-значения s, мне интересно, почему % и % кажутся золотым стандартом для . Почему не другие значения, такие как % или %?111555"statistical significance"666101010 Есть ли фундаментальная математическая причина для этого или это просто широко распространенное соглашение?

80 hypothesis-testing statistical-significance p-value history

3

Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …

78 r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

4

Психологический журнал запретил р-значения и доверительные интервалы; действительно ли разумно прекратить их использование?

25 февраля 2015 года журнал « Базовая и прикладная социальная психология» опубликовал редакционную статью, запрещающую и доверительные интервалы во всех будущих статьях.ppp В частности, они говорят (форматирование и акцент мои): [...] перед публикацией авторы должны будут удалить все остатки NHSTP [процедура проверки значимости нулевой гипотезы] ( , , , утверждения …

73 hypothesis-testing confidence-interval p-value effect-size psychology

4

Когда использовать рамки Фишера и Неймана-Пирсона?

В последнее время я много читал о различиях между методом проверки гипотез Фишера и школой мысли Неймана-Пирсона. Мой вопрос, игнорируя философские возражения на мгновение; когда мы должны использовать подход статистического моделирования Фишера, а когда следует использовать метод уровней значимости Неймана-Пирсона и так далее? Есть ли практический способ решить, какую точку …

73 hypothesis-testing p-value methodology

8

Генерация случайной величины с определенной корреляцией с существующей переменной

Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако невозможно зафиксировать одну из результирующих переменных в существующей переменной. Любые идеи и ссылки на существующие функции …

71 r correlation random-variable random-generation independence assumptions random-variable unbiased-estimator regression hypothesis-testing heteroscedasticity generalized-least-squares distributions networks data-visualization sas reproducible-research philosophical time-series variance outliers quality-control mean multilevel-analysis average weighted-mean regression confidence-interval prediction-interval correlation matlab matrix data-mining maximum-likelihood r time-series survival predictive-models

9

Почему можно получить значительную статистику F (p <.001), но не значимые t-тесты регрессора?

Почему при множественной линейной регрессии возможно иметь очень значительную F-статистику (p <.001), но иметь очень высокие p-значения во всех t-тестах регрессора? В моей модели 10 регрессоров. Один имеет значение р 0,1, а остальные выше 0,9 Для решения этой проблемы см. Следующий вопрос .

70 hypothesis-testing regression t-test multicollinearity

Вопросы с тегом «hypothesis-testing»