Я завершил анализ данных и получил «статистически значимые результаты», что соответствует моей гипотезе. Однако студент-статистик сказал мне, что это преждевременный вывод. Почему? Что-нибудь еще нужно было включить в мой отчет?
Я завершил анализ данных и получил «статистически значимые результаты», что соответствует моей гипотезе. Однако студент-статистик сказал мне, что это преждевременный вывод. Почему? Что-нибудь еще нужно было включить в мой отчет?
Ответы:
Как правило, гипотезы оформляются в двоичном виде. Я положу гипотезы направленности на одну сторону, так как они не сильно меняют проблему. Обычно, по крайней мере в психологии, говорят о таких гипотезах, как: разница между групповыми средствами равна или не равна нулю; корреляция равна или не равна нулю; коэффициент регрессии равен или не равен нулю; r-квадрат равен или не равен нулю. Во всех этих случаях существует нулевая гипотеза об отсутствии эффекта и альтернативная гипотеза об эффекте.
Это бинарное мышление, как правило, не то, что нас больше всего интересует. Как только вы задумаетесь над вопросом исследования, вы почти всегда обнаружите, что вы действительно заинтересованы в оценке параметров. Вас интересует фактическая разница между групповыми средними, или размер корреляции, или размер коэффициента регрессии, или объясненная величина дисперсии.
Конечно, когда мы получаем выборку данных, выборочная оценка параметра не совпадает с параметром совокупности. Таким образом, нам нужен способ количественной оценки нашей неопределенности относительно того, каким может быть значение параметра. С частой точки зрения, доверительные интервалы предоставляют средства для выполнения, хотя байесовские пуристы могут утверждать, что они не позволяют строго делать выводы, которые вы, возможно, захотите сделать. С байесовской точки зрения вероятные интервалы по задним плотностям предоставляют более прямые средства для количественной оценки вашей неопределенности в отношении значения параметра совокупности.
Отказ от бинарного подхода к проверке гипотез заставляет вас думать непрерывно. Например, какая разница в размерах в группе означает теоретически интересную? Как бы вы отобразили разницу между групповыми средствами на субъективный язык или практические значения? Стандартизированные меры воздействия наряду с контекстными нормами являются одним из способов построения языка для количественной оценки значения различных параметров. Такие меры часто называют «величинами эффекта» (например, d, r, Коэна и т. Д.). Тем не менее, совершенно разумно и часто предпочтительнее говорить о важности эффекта с использованием нестандартных мер (например, различие в группе означает значимые нестандартные переменные, такие как уровень доходов, ожидаемая продолжительность жизни и т. Д.).
В психологии (и других областях) есть огромная литература, критикующая акцент на p-значениях, проверке значимости нулевых гипотез и т. Д. (См. Этот поиск Google Scholar ). В этой литературе часто рекомендуются отчеты о размерах эффектов с доверительными интервалами в качестве разрешения (например, Целевая группа APA by Wilkinson, 1999).
Если вы думаете о принятии этого мышления, я думаю, что есть постепенно более сложные подходы, которые вы можете использовать:
Среди множества возможных ссылок вы увидите, как Эндрю Гельман много говорит об этих проблемах в своем блоге и в своих исследованиях.
Просто чтобы добавить к существующим ответам (которые, кстати, здорово). Важно понимать, что статистическая значимость является функцией размера выборки .
Когда вы получаете все больше и больше данных, вы можете найти статистически значимые различия, куда бы вы ни посмотрели. Когда объем данных огромен, даже самые незначительные эффекты могут привести к статистической значимости. Это не означает, что указанные эффекты имеют какое-либо практическое значение.
При тестировании на различия одних значений недостаточно, поскольку требуемый размер эффекта для получения статистически значимого результата уменьшается с увеличением размера выборки . На практике фактический вопрос обычно заключается в том, есть ли эффект данного минимального размера (чтобы иметь отношение). Когда выборки становятся очень большими, становятся почти бессмысленными в ответе на фактический вопрос.р
Если бы существовали разумные основания подозревать, что ваша гипотеза может быть верна до того, как вы начали свое исследование; и вы провели хорошее исследование (например, вы не вызвали никаких смущений); и ваши результаты соответствовали вашей гипотезе и были статистически значимыми; тогда я думаю, что ты в порядке, насколько это возможно.
Однако вы не должны думать, что значение - это все, что важно в ваших результатах. Во-первых, вы также должны посмотреть на величину эффекта (см. Мой ответ здесь: Размер эффекта как гипотеза для проверки значимости ). Возможно, вы также захотите немного изучить свои данные и посмотреть, сможете ли вы найти какие-нибудь потенциально интересные сюрпризы, за которыми стоит следить.
Прежде чем сообщать об этом, об этом и об этом, начните с формулировки того, что вы хотите узнать из своих экспериментальных данных. Основная проблема с обычными проверками гипотез (эти тесты мы изучаем в школе ...) заключается не в бинарности: основная проблема заключается в том, что это тесты для гипотез, которые не являются интересующими гипотезами. Смотрите слайд 13 здесь (скачать PDF, чтобы оценить анимацию). Что касается размеров эффекта, нет общего определения этого понятия . Честно говоря, я бы не рекомендовал использовать это для неэкспертных статистиков, это технические, а не естественные меры «эффекта». Ваша интересующая гипотеза должна быть сформулирована в терминах, понятных неспециалистам.
Я далеко не эксперт по статистике, но одна вещь, которая была подчеркнута на курсах по статистике, которые я делал на сегодняшний день, это вопрос "практической значимости". Я полагаю, что это намекает на то, о чем говорят Джероми и Ган, когда ссылаются на «размер эффекта».
У нас был пример в классе 12-недельной диеты, который имел статистически значимые результаты потери веса, но 95% доверительный интервал показал среднюю потерю веса от 0,2 до 1,2 кг (хорошо, данные, вероятно, были составлены, но это иллюстрирует точку) , Хотя «статистически значимо» »отличается от нуля, является ли потеря веса в 200 г за 12 недель« практически значимым »результатом для человека с избыточным весом, пытающегося выздороветь?
На это невозможно ответить точно, не зная больше деталей вашего исследования и критики человека. Но здесь есть одна возможность: если вы выполнили несколько тестов и решили сосредоточиться на том, который вышел, p<0.05
и игнорировать другие, то это «значение» было ослаблено фактом вашего избирательного внимания к нему. В качестве интуитивного насоса помните, что это p=0.05
означает, что «этот результат будет происходить случайно (только) 5% времени, даже если нулевая гипотеза верна». Таким образом, чем больше тестов вы выполняете, тем больше вероятность того, что хотя бы один из них будет «значительным» результатом просто случайно, даже если там нет никакого эффекта. См. Http://en.wikipedia.org/wiki/Multiple_comparisons и http://en.wikipedia.org/wiki/Post-hoc_analysis.
Я предлагаю вам прочитать следующее:
Андерсон Д.Р., Бернхэм К.П., Томпсон В.Л., 2000. Проверка нулевых гипотез: проблемы, распространенность и альтернатива. J. Wildl. Управление. 64, 912-923. Гигеренцер Г., 2004. Бессмысленная статистика. Журнал социально-экономических 33, 587-606. Джонсон, Д.Х., 1999. Незначительность статистического тестирования значимости. Журнал управления дикой природой 63, 763-772.
Нулевые гипотезы редко интересны в том смысле, что из любого эксперимента или набора наблюдений есть два результата: правильное отклонение нулевого значения или ошибка II типа. Размер эффекта - это то, что вам, вероятно, интересно определить, и после этого вы должны получить доверительные интервалы для этого размера эффекта.