Почему «статистически значимо» недостаточно?

46

Я завершил анализ данных и получил «статистически значимые результаты», что соответствует моей гипотезе. Однако студент-статистик сказал мне, что это преждевременный вывод. Почему? Что-нибудь еще нужно было включить в мой отчет?

— Джим фон
источник

4

Это во многом зависит от того, что вы подразумеваете под «получили статистически значимые результаты в соответствии с гипотезой». Если ваша гипотеза состоит в том, что ветер порождается деревьями, и ваш эксперимент показывает, что в 100% наблюдений, когда деревья двигали свои ветви, был ветер, вы находите его статистически значимым, и вуаля ваше заключение доказано. Что явно не так. Таким образом, это может быть одним из таких случаев.

— sashkello

1

Вам действительно понадобится последующее исследование, чтобы безопасно объявить «значительный результат» с уверенностью - используя хорошо спроектированный сбор данных, ту же модель и тот же тест гипотез. Кроме того, вам необходимо убедиться, что ваш текущий набор данных представляет «общее население», о котором вы заявляете, со значительным выводом (это ключевая проблема для вывода из «больших данных»)

— вероятностная

1

Конечно, ответ так же прост, как «корреляция не причинно-следственная связь»?

— Дробное

1

Вот мой любимый : люди, которые едят больше риса, рождают больше детей. Проверяя население всего мира, вы получите статистически значимые результаты ...

— Кароли Хорват

4

Отличные ответы, но я удивлен, что никто не предложил очевидное решение: спросите его / ее. Всякий раз, когда кто-то говорит вам, что вы ошибаетесь по поводу своей работы или чего-то еще, что вас волнует, просто спросите Сказать кому-то, что он неправ, потому что X, y и Z - это круто - это возможность для обучения. Но просто сказать кому-то, что он неправ, и отмахнуться - это хреновый ход.

— Сильвердраг

53

Проверка гипотезы и оценка параметров

Как правило, гипотезы оформляются в двоичном виде. Я положу гипотезы направленности на одну сторону, так как они не сильно меняют проблему. Обычно, по крайней мере в психологии, говорят о таких гипотезах, как: разница между групповыми средствами равна или не равна нулю; корреляция равна или не равна нулю; коэффициент регрессии равен или не равен нулю; r-квадрат равен или не равен нулю. Во всех этих случаях существует нулевая гипотеза об отсутствии эффекта и альтернативная гипотеза об эффекте.

Это бинарное мышление, как правило, не то, что нас больше всего интересует. Как только вы задумаетесь над вопросом исследования, вы почти всегда обнаружите, что вы действительно заинтересованы в оценке параметров. Вас интересует фактическая разница между групповыми средними, или размер корреляции, или размер коэффициента регрессии, или объясненная величина дисперсии.

Конечно, когда мы получаем выборку данных, выборочная оценка параметра не совпадает с параметром совокупности. Таким образом, нам нужен способ количественной оценки нашей неопределенности относительно того, каким может быть значение параметра. С частой точки зрения, доверительные интервалы предоставляют средства для выполнения, хотя байесовские пуристы могут утверждать, что они не позволяют строго делать выводы, которые вы, возможно, захотите сделать. С байесовской точки зрения вероятные интервалы по задним плотностям предоставляют более прямые средства для количественной оценки вашей неопределенности в отношении значения параметра совокупности.

Параметры / размеры эффекта

Отказ от бинарного подхода к проверке гипотез заставляет вас думать непрерывно. Например, какая разница в размерах в группе означает теоретически интересную? Как бы вы отобразили разницу между групповыми средствами на субъективный язык или практические значения? Стандартизированные меры воздействия наряду с контекстными нормами являются одним из способов построения языка для количественной оценки значения различных параметров. Такие меры часто называют «величинами эффекта» (например, d, r, Коэна и т. Д.). Тем не менее, совершенно разумно и часто предпочтительнее говорить о важности эффекта с использованием нестандартных мер (например, различие в группе означает значимые нестандартные переменные, такие как уровень доходов, ожидаемая продолжительность жизни и т. Д.). $R^2$

В психологии (и других областях) есть огромная литература, критикующая акцент на p-значениях, проверке значимости нулевых гипотез и т. Д. (См. Этот поиск Google Scholar ). В этой литературе часто рекомендуются отчеты о размерах эффектов с доверительными интервалами в качестве разрешения (например, Целевая группа APA by Wilkinson, 1999).

Шаги для отказа от проверки бинарных гипотез

Если вы думаете о принятии этого мышления, я думаю, что есть постепенно более сложные подходы, которые вы можете использовать:

Подход 1а. Сообщите точечную оценку вашего выборочного эффекта (например, средние групповые различия) как в необработанном, так и в стандартизированном выражении. Когда вы сообщаете о своих результатах, обсудите, что такое значение будет означать для теории и практики.
Подход 1b. Добавьте к 1a, по крайней мере, на очень базовом уровне, некоторое чувство неопределенности вокруг вашей оценки параметра на основе размера вашей выборки.
Подход 2. Также опишите доверительные интервалы для величин эффекта и включите эту неопределенность в свои мысли о вероятных значениях интересующего параметра.
Подход 3. Сообщите байесовские достоверные интервалы и изучите влияние различных допущений на этот вероятный интервал, таких как выбор предыдущего, процесс генерирования данных, подразумеваемый вашей моделью, и так далее.

Среди множества возможных ссылок вы увидите, как Эндрю Гельман много говорит об этих проблемах в своем блоге и в своих исследованиях.

Рекомендации

Никерсон, РС (2000). Проверка значимости нулевой гипотезы: обзор старой и продолжающейся полемики. Психологические методы, 5 (2), 241.
Уилкинсон Л. (1999). Статистические методы в психологических журналах: методические указания и объяснения. Американский психолог, 54 (8), 594. PDF

— Джером англим
источник

12

В дополнение к комментарию Джерома, могу ли я порекомендовать вам прочитать эссе Зилиака и Макклоски о культе статистической значимости. Это не самая потрясающая статистика, но она предоставляет вдумчивое и занимательное обсуждение того, почему размеры эффекта, практическая значимость и функции потерь чрезвычайно важны. deirdremccloskey.com/docs/jsm.pdf

— Джим

Я думаю, может быть, иногда р следует установить ниже, чем 0,05. Спасибо всем: Гунг, Джероми и Джим

— Джим Фон

1

О Зиляке [NB] и Макклоски: если вы заняты, сначала прочитайте phil.vt.edu/dmayo/personal_website/… Если вы не заняты, все равно сначала прочитайте.

— Ник Кокс

Пожалуйста, @JimVon. FWIW, я иногда думаю, что р должен быть установлен выше, чем 0,05. Это просто зависит.

— gung - Восстановить Монику

1

Рад видеть, что доктора Гельмана назвали здесь. Очевидно, он даже не любит сообщать p-значения, не говоря уже о том, чтобы использовать их для серьезного вывода. Он также хорошо объясняет стандартизацию всех ваших переменных.

— Talktalker

26

Просто чтобы добавить к существующим ответам (которые, кстати, здорово). Важно понимать, что статистическая значимость является функцией размера выборки .

Когда вы получаете все больше и больше данных, вы можете найти статистически значимые различия, куда бы вы ни посмотрели. Когда объем данных огромен, даже самые незначительные эффекты могут привести к статистической значимости. Это не означает, что указанные эффекты имеют какое-либо практическое значение.

При тестировании на различия одних значений недостаточно, поскольку требуемый размер эффекта для получения статистически значимого результата уменьшается с увеличением размера выборки . На практике фактический вопрос обычно заключается в том, есть ли эффект данного минимального размера (чтобы иметь отношение). Когда выборки становятся очень большими, становятся почти бессмысленными в ответе на фактический вопрос. $p$ $p$

— Марк Клазен
источник

Именно об этом и говорится в моем слайде 13 :)

— Стефан Лоран,

6

+1 за это. Люди, не осознающие значимости, зависят от размера выборки.

— Fomite

12

Если бы существовали разумные основания подозревать, что ваша гипотеза может быть верна до того, как вы начали свое исследование; и вы провели хорошее исследование (например, вы не вызвали никаких смущений); и ваши результаты соответствовали вашей гипотезе и были статистически значимыми; тогда я думаю, что ты в порядке, насколько это возможно.

Однако вы не должны думать, что значение - это все, что важно в ваших результатах. Во-первых, вы также должны посмотреть на величину эффекта (см. Мой ответ здесь: Размер эффекта как гипотеза для проверки значимости ). Возможно, вы также захотите немного изучить свои данные и посмотреть, сможете ли вы найти какие-нибудь потенциально интересные сюрпризы, за которыми стоит следить.

— Gung - Восстановить Монику
источник

Вы имеете в виду, что гипотеза должна быть разумной? И как судить, приведет ли моя гипотеза к бессмысленному анализу данных? Post-hoc должен раскрыть «потенциально интересные сюрпризы»?

— Джим Фон

Я имею в виду, что, вероятно, была какая-то законная причина для того, чтобы провести исследование на 1-м месте. Текущие теоретические знания и / или недавние исследования показали, что ваша гипотеза может быть верной. Ваша гипотеза вряд ли "приведет к бессмысленному анализу данных", если она не является непоследовательной. Потенциально интересные сюрпризы / особенности ваших данных вполне могут быть обнаружены после операции; тот факт, что это сюрпризы, означает, что вы не знали, что они произойдут, когда вы запланировали исследование. Вопрос, касающийся «post-hoc», заключается в том, следует ли верить неожиданностям - они должны быть подтверждены будущими исследованиями.

— gung - Восстановить Монику

7

Прежде чем сообщать об этом, об этом и об этом, начните с формулировки того, что вы хотите узнать из своих экспериментальных данных. Основная проблема с обычными проверками гипотез (эти тесты мы изучаем в школе ...) заключается не в бинарности: основная проблема заключается в том, что это тесты для гипотез, которые не являются интересующими гипотезами. Смотрите слайд 13 здесь (скачать PDF, чтобы оценить анимацию). Что касается размеров эффекта, нет общего определения этого понятия . Честно говоря, я бы не рекомендовал использовать это для неэкспертных статистиков, это технические, а не естественные меры «эффекта». Ваша интересующая гипотеза должна быть сформулирована в терминах, понятных неспециалистам.

— Стефан Лоран
источник

1

Одно небольшое дополнение - нулевая гипотеза должна фактически означать что-то вне контекста текущего анализа данных для применения стандарта HT. Это не должно быть «изобретено», чтобы у вас было что отвергать в пользу вашей теории / находки.

— вероятностная

2

Я далеко не эксперт по статистике, но одна вещь, которая была подчеркнута на курсах по статистике, которые я делал на сегодняшний день, это вопрос "практической значимости". Я полагаю, что это намекает на то, о чем говорят Джероми и Ган, когда ссылаются на «размер эффекта».

У нас был пример в классе 12-недельной диеты, который имел статистически значимые результаты потери веса, но 95% доверительный интервал показал среднюю потерю веса от 0,2 до 1,2 кг (хорошо, данные, вероятно, были составлены, но это иллюстрирует точку) , Хотя «статистически значимо» »отличается от нуля, является ли потеря веса в 200 г за 12 недель« практически значимым »результатом для человека с избыточным весом, пытающегося выздороветь?

— kesahli
источник

Это точка, следующая за моим слайдом 13 :)

— Стефан Лоран

2

Это также пример проверки «неправильной» нулевой гипотезы. Это не тот вывод, который вас интересует. Лучшим тестом гипотезы будет то, что потеря веса составляет менее 5 кг против более 5 кг.

— вероятностная

1

На это невозможно ответить точно, не зная больше деталей вашего исследования и критики человека. Но здесь есть одна возможность: если вы выполнили несколько тестов и решили сосредоточиться на том, который вышел, p<0.05и игнорировать другие, то это «значение» было ослаблено фактом вашего избирательного внимания к нему. В качестве интуитивного насоса помните, что это p=0.05означает, что «этот результат будет происходить случайно (только) 5% времени, даже если нулевая гипотеза верна». Таким образом, чем больше тестов вы выполняете, тем больше вероятность того, что хотя бы один из них будет «значительным» результатом просто случайно, даже если там нет никакого эффекта. См. Http://en.wikipedia.org/wiki/Multiple_comparisons и http://en.wikipedia.org/wiki/Post-hoc_analysis.

— Еж
источник

0

Я предлагаю вам прочитать следующее:

Андерсон Д.Р., Бернхэм К.П., Томпсон В.Л., 2000. Проверка нулевых гипотез: проблемы, распространенность и альтернатива. J. Wildl. Управление. 64, 912-923. Гигеренцер Г., 2004. Бессмысленная статистика. Журнал социально-экономических 33, 587-606. Джонсон, Д.Х., 1999. Незначительность статистического тестирования значимости. Журнал управления дикой природой 63, 763-772.

Нулевые гипотезы редко интересны в том смысле, что из любого эксперимента или набора наблюдений есть два результата: правильное отклонение нулевого значения или ошибка II типа. Размер эффекта - это то, что вам, вероятно, интересно определить, и после этого вы должны получить доверительные интервалы для этого размера эффекта.

— Том
источник