Двухсторонние тесты ... Я просто не уверен. В чем смысл?

58

Следующий отрывок из записи: В чем различия между односторонним и двусторонним тестами? , на сайте помощи статистики UCLA.

... рассмотреть последствия пропуска эффекта в другом направлении. Представьте, что вы разработали новый препарат, который, по вашему мнению, является улучшением по сравнению с существующим препаратом. Вы хотите максимизировать свою способность обнаруживать улучшение, поэтому вы выбираете односторонний тест. При этом вы не сможете проверить, что новый препарат менее эффективен, чем существующий.

Изучив абсолютные основы проверки гипотез и узнав, что такое один против двухсторонних тестов ... Я понимаю основы математики и повышенную способность обнаружения односторонних тестов и т. Д. Но я просто не могу обернуться вокруг своей головы вокруг одного ... Какой смысл? Я действительно не понимаю, почему вы должны разделить свою альфу между двумя крайностями, если ваш примерный результат может быть только в одном или другом, или ни в одном.

Возьмите пример сценария из приведенного выше текста. Как вы могли «не проверить» результат в противоположном направлении? Вы имеете в виду ваш образец. Вы имеете в виду свое население. Простая арифметика говорит вам, что выше. Что можно проверить или не проверить в обратном направлении? Что мешает вам просто начинать с нуля с противоположной гипотезы, если вы ясно видите, что выборочное среднее значение далеко в другом направлении?

Еще одна цитата с той же страницы:

Выбор одностороннего теста после выполнения двухстороннего теста, который не смог отклонить нулевую гипотезу, не подходит, независимо от того, насколько «близким» к значительному был двусторонний тест.

Я предполагаю, что это также относится к переключению полярности вашего одностороннего теста. Но как этот «сфокусированный» результат может быть менее достоверным, чем если бы вы просто выбрали правильный односторонний тест?

Очевидно, я упускаю большую часть картины здесь. Все это кажется слишком произвольным. Это, я полагаю, в том смысле, что то, что означает «статистически значимый» - 95%, 99%, 99,9% ... Произвольно для начала.

hypothesis-testing statistical-significance inference

— FromTheAshes
источник

18

Мне кажется, это очень хороший вопрос, +1.

— gung - Восстановить Монику

5

Хотя совершенно очевидно, что вы должны разработать свой эксперимент и свои тесты до сбора данных, я нахожу их пример с наркотиками довольно интригующим, учитывая тот факт, что новые препараты часто тестируются с помощью одностороннего теста без особых протестов .

— P-Gn

3

@ user1735003 ироническая статья, которую можно встретить, учитывая, что многие фармацевтические испытания, регулирующие настроение / поведение, подвергаются все более пристальному вниманию со стороны наблюдателей. Интересный Кокран о риталине здесь . «Утверждаемое превосходство плацебо» - это то, что любой пробник назвал бы «вредом», поэтому я не нахожу это невероятным. Но в этих испытаниях, если исследования останавливаются для вреда, сигнал от неблагоприятных событий.

— AdamO

10

«У вас есть среднее значение выборки. У вас есть среднее значение популяции ... Что мешает вам начать с нуля с противоположной гипотезой, если вы ясно видите, что среднее значение выборки далеко в другом направлении?» , Нет, весь смысл проверки гипотез заключается в том, что у вас нет среднего значения популяции, и вы используете среднее значение выборки, чтобы проверить предположение о среднем значении популяции (нулевая гипотеза). Таким образом, нет «ясно видеть, что выборочное среднее значение далеко» , потому что это именно то, что вы тестируете, а не данные.

— СОСТОЯНИЕ

1

Беда в том, что часто вы не знаете полярности, поэтому вам нужно запустить двухсторонний тест. Представьте себе, что вы подключаете вольтметр к источнику постоянного тока, если вы не знаете, какой разъем ПОЛОЖИТЕЛЬНЫЙ

— Аксакал,

45

Думайте о данных как о вершине айсберга - все, что вы можете видеть над водой, это верхушка айсберга, но в действительности вы заинтересованы в том, чтобы узнать что-то обо всем айсберге.

Статистики, ученые, работающие с данными, и другие, работающие с данными, стараются не допустить, чтобы то, что они видят над линией воды, повлияло на их оценку того, что скрыто за линией воды. По этой причине в ситуации проверки гипотез они склонны формулировать свои нулевые и альтернативные гипотезы, прежде чем они увидят верхушку айсберга, основываясь на своих ожиданиях (или их отсутствии) того, что может произойти, если они смогут увидеть айсберг полностью. ,

Просмотр данных для формулирования ваших гипотез - плохая практика, и ее следует избегать - это все равно что ставить телегу перед лошадью. Напомним, что данные поступают из одной выбранной выборки (возможно, с использованием механизма случайного выбора) из целевой популяции / вселенной, представляющей интерес. Выборка имеет свои особенности, которые могут отражать или не отражать основную популяцию. Почему вы хотите, чтобы ваши гипотезы отражали узкую часть населения вместо всего населения?

Еще один способ думать об этом заключается в том, что каждый раз, когда вы выбираете выборку из целевой группы (используя механизм случайного выбора), выборка будет давать разные данные. Если вы используете данные (которые вы не должны !!!), чтобы руководить своей спецификацией нулевых и альтернативных гипотез, ваши гипотезы будут по всей карте, в основном обусловленные уникальными особенностями каждого образца. Конечно, на практике мы рисуем только одну выборку, но было бы очень тревожно подумать, что если кто-то еще проведет такое же исследование с другой выборкой того же размера, ему придется изменить свои гипотезы, чтобы отразить реальности их образец.

У одного из профессоров моей аспирантуры было очень мудрое изречение: «Мы не заботимся о выборке, за исключением того, что она говорит нам кое-что о населении» . Мы хотим сформулировать наши гипотезы, чтобы узнать что-то о целевой группе населения, а не об одной выборке, которую мы случайно выбрали из этой группы.

— Изабелла Гемент
источник

1

@ subhashc.davar: Если вы не видите актуальности моего ответа, это не значит, что кто-то другой не увидит. Пожалуйста, помните, что ответы предназначены для всего сообщества, а не только для человека, который задал вопрос. Я был бы рад удалить мой ответ, если вы сильно к этому относитесь.

— Изабелла Гемент

7

@ subhashc.davar Пример может помочь: скажем, вы проверяете, влияет ли перекус на производительность. Вы запускаете эксперимент и обнаруживаете небольшой выигрыш в закусках. Большой! Запустите односторонний тест, чтобы увидеть, не перекусили ли> перекусили. Проблема: что бы вы сделали, если бы взяли образец, где закуски показали себя хуже? Вы бы сделали односторонний тест для закусок <не закусок? Если это так, то вы допускаете ошибку и позволяете примерам образцов руководствоваться при тестировании.

— RM

21

Анекдот от моего профессора: «Мы посетили новорожденную дочь друга в родильном отделении. 20 детей и 18 из 20 были в розовых шапках. Поэтому я сделал то, что сделал бы любой статистик: вычислил p-значение для пола, фактически равное 50 / 50. Это было очень статистически значимо. Итак, кто хочет написать эту статью со мной? Никто? Почему? Вы не можете использовать данные, которые генерировали гипотезу, для проверки гипотезы ".

— AdamO

4

@AdamO Я нашел твой комментарий лучшим объяснением, чем сам ответ. Я бы перефразировал последнее предложение, как «Вы не должны использовать те же данные, с которыми вы создали свою гипотезу, чтобы также проверить свою гипотезу». С этим связано и то, что можно изменить свою гипотезу на основе результатов любого теста, который вы ранее выбрали. Но вам следует проверить свою новую гипотезу с новыми данными.

— Кенни Эвитт

3

@KennyEvitt да, совершенно верно. Случайные результаты важны, и о них следует сообщать, но они не должны продаваться как заранее определенные гипотезы.

— AdamO

18

Я думаю, что при рассмотрении вашего вопроса будет полезно, если вы попытаетесь помнить цель / точки продаж тестирования значимости нулевой гипотезы (NHST); это всего лишь одна парадигма (хотя и очень популярная) для статистического вывода, а у других также есть свои сильные стороны (например, см. здесь для обсуждения NHST относительно байесовского вывода). Что является большим преимуществом NHST ?: Долгосрочный контроль ошибок . Если вы следуете правилам NHST (а иногда это очень важно), у вас должно быть четкое представление о том, насколько вероятно, что вы ошибетесь в своих выводах в долгосрочной перспективе.

Одно из самых строгих правил NHST заключается в том, что без каких-либо изменений в вашей процедуре тестирования вам достаточно одного взгляда на интересующий вас тест. Исследователи на практике часто игнорируют (или не знают) это правило (см Симмонс и др., 2012), проведение нескольких тестов после добавления волны данных, проверяя их $p$ -значения после добавления / удаления переменных в их моделях и т. д. Проблема в том, что исследователи редко бывают нейтральными в отношении результатов НХСТ; они прекрасно понимают, что значимые результаты, скорее всего, будут опубликованы, чем несущественные результаты (по причинам, которые являются ошибочными и законными; Rosenthal, 1979). Поэтому исследователи часто мотивируют добавлять данные / изменять модели / выбирать выбросы и многократно проверять, пока они не «обнаружат» значительный эффект (см. John et al., 2011, хорошее введение).

Противоречивая проблема создается вышеупомянутыми методами, хорошо описанными в Dienes (2008): если исследователи будут продолжать корректировать свои выборку / дизайн / модели до тех пор, пока их значение не будет достигнуто, то их желаемые долгосрочные коэффициенты ошибок ложноположительных результатов (часто ) и ложноотрицательные результаты (часто ) будут подходить к 1.0 и 0.0 соответственно (т.е. вы всегда будете отклонять , как когда оно ложно, так и когда оно истинно). $\alpha =.05$ $\beta =.20$ $H_0$

В контексте ваших конкретных вопросов исследователи используют двухсторонние тесты по умолчанию, когда они не хотят делать конкретные прогнозы относительно направления эффекта. Если они ошибаются в своих предположениях и запускают односторонний тест в направлении эффекта, их долгосрочная будет завышена. Если они посмотрят на описательную статистику и проведут односторонний тест, основанный на их взгляде на тренд, их долгосрочная будет завышена. Вы можете подумать, что на практике это не большая проблема, что теряют свое долгосрочное значение, но если они не сохраняют свое значение, возникает вопрос о том, почему вы используете подход к выводу, что отдает приоритет долгосрочному контролю ошибок. $\alpha$ $\alpha$ $p$

И наконец (и из личных предпочтений) у меня будет меньше проблем, если вы сначала проведете двусторонний тест, обнаружите его несущественным, затем выполните односторонний тест в направлении, подразумеваемом первым тестом, и было установлено, что это важно, если (и только если) вы выполнили строгую подтверждающую репликацию этого эффекта в другом образце и опубликовали репликацию в том же документе. Исследовательский анализ данных - с гибкостью, надувающей гибкую практику анализа, - это хорошо, если вы в состоянии воспроизвести свой эффект в новой выборке без той же аналитической гибкости.

Рекомендации

Dienes, Z. (2008). Понимание психологии как науки: введение в научный и статистический вывод . Пальгрейв Макмиллан.

John, LK, Loewenstein, G. & Prelec, D. (2012). Измерение распространенности сомнительных исследовательских практик со стимулами для правды. Психологическая наука , 23 (5), 524-532.

Розенталь Р. (1979). Проблема с выдвижным ящиком и допуск для нулевых результатов. Психологический вестник , 86 (3), 638.

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Ложноположительная психология: нераскрытая гибкость в сборе и анализе данных позволяет представить что-либо как существенное. Психологическая наука , 22 (11), 1359-1366.

— jsakaluk
источник

Очень хороший ответ. Помог мне собрать воедино некоторые проблемы, с которыми я столкнулся во время моего недавнего изучения исследовательских работ (в качестве непрофессионала), по-видимому, подтверждая идею о том, что односторонние p-значения можно «доверять», только если у вас есть причина быть уверенным в «отрицательном значении». корреляция "направление ложно.

— Venryx

10

К сожалению, мотивирующий пример разработки лекарств не очень хороший, поскольку мы не занимаемся разработкой лекарств. Мы используем разные, более строгие правила, чтобы остановить исследование, если тенденции на стороне вреда. Это для безопасности пациентов, а также потому, что лекарство вряд ли может волшебным образом качаться в направлении значимой пользы.

Так почему же два хвостовых теста ? (когда в большинстве случаев мы имеем некоторое априорное представление о возможном направлении воздействия, которое мы пытаемся смоделировать)

Нулевая гипотеза должна иметь некоторое сходство с верой в смысле правдоподобности, информированности и обоснованности. В большинстве случаев люди соглашаются, что «неинтересный результат» - это когда эффект 0, тогда как отрицательный или положительный эффект представляет равный интерес. Очень сложно сформулировать составную нулевую гипотезу, например, случай, когда мы знаем, что статистика может быть равна илименьше определенной суммы. Нужно быть очень недвусмысленным в отношении нулевой гипотезы, чтобы понять их научные выводы. Стоит отметить, что метод проверки составной гипотезы заключается в том, что статистика в рамках нулевой гипотезы принимает наиболее согласованное значение в диапазоне наблюдаемых данных. Так что, если эффект в положительном направлении, как и ожидалось, нулевое значение в любом случае принимается равным 0, и мы бесполезно поставили вопрос.

Двухсторонний тест означает проведение двух односторонних тестов с контролем для множественных сравнений! Двухсторонний тест на самом деле частично оценен, потому что в конечном итоге он становится более консервативным. Когда у нас есть четкое представление о направлении эффекта, два хвостатых теста дадут ложные положительные результаты в два раза реже с очень небольшим общим влиянием на мощность.

В случае оценки лечения в рандомизированном контролируемом исследовании, если вы попытаетесь продать мне односторонний тест, я перестану вас спрашивать: «Ну, подожди, почему мы считаем, что лечение на самом деле вредно? чтобы поддержать это? Есть ли даже уравновешенность [способность продемонстрировать полезный эффект]? " Логическая несогласованность одностороннего теста ставит под сомнение все исследование. Если действительно ничего не известно, любое значение, отличное от 0, считается интересным, и двухсторонний тест - это не просто хорошая идея, это необходимо.

— Adamo
источник

8

Один из способов подойти к этому - временно забыть о проверке гипотез и вместо этого подумать о доверительных интервалах. Односторонние тесты соответствуют односторонним доверительным интервалам, а двусторонние тесты соответствуют двусторонним доверительным интервалам.

Предположим, что вы хотите оценить среднее значение популяции. Естественно, вы берете образец и вычисляете среднее значение образца. Нет смысла брать точную оценку по номиналу, поэтому вы выражаете свой ответ через интервал, который, как вы уверены, содержит истинное среднее значение. Какой тип интервала вы выбираете? Двусторонний интервал, безусловно, является более естественным выбором. Односторонний интервал имеет смысл только тогда, когда вам просто не нужно находить верхнюю или нижнюю границу вашей оценки (потому что вы считаете, что уже знаете полезную границу в одном направлении). Как часто вы действительно уверены в ситуации?

Возможно, переключение вопроса на доверительные интервалы на самом деле не закрепляет его, но методологически непоследовательно предпочитать односторонние тесты, а двусторонние доверительные интервалы

— Джон Колман
источник

4

Изучив абсолютные основы проверки гипотез и узнав, что такое один против двухсторонних тестов ... Я понимаю основы математики и повышенную способность обнаружения односторонних тестов и т. Д. Но я просто не могу обернуться вокруг своей головы вокруг одного ... Какой смысл? Я действительно не понимаю, почему вы должны разделить свою альфу между двумя крайностями, если ваш примерный результат может быть только в одном или другом, или ни в одном.

Проблема в том, что вы не знаете, что значит население. Я никогда не сталкивался с реальным сценарием реального мира, который я знаю, истинное население означает.

Возьмите пример сценария из приведенного выше текста. Как вы могли «не проверить» результат в противоположном направлении? Вы имеете в виду ваш образец. Вы имеете в виду свое население. Простая арифметика говорит вам, что выше. Что можно проверить или не проверить в обратном направлении? Что мешает вам просто начинать с нуля с противоположной гипотезы, если вы ясно видите, что выборочное среднее значение далеко в другом направлении?

Я прочитал твой абзац несколько раз, но я все еще не уверен в твоих аргументах. Вы хотите перефразировать это? Вы не можете «проверить», не попадают ли ваши данные в выбранные вами критические регионы.

Я предполагаю, что это также относится к переключению полярности вашего одностороннего теста. Но как этот «сфокусированный» результат может быть менее достоверным, чем если бы вы просто выбрали правильный односторонний тест?

Цитата верна, потому что взлом p-значения неуместен. Как много мы знаем о p-хакерстве "в дикой природе"? имеет больше деталей.

Очевидно, я упускаю большую часть картины здесь. Все это кажется слишком произвольным. Это, я полагаю, в том смысле, что то, что означает «статистически значимый» - 95%, 99%, 99,9% ... Произвольно для начала. Помогите?

Это произвольно. Вот почему ученые, как правило, сообщают величину самого значения p (не только значимого или незначительного), а также величину эффекта.

— SmallChess
источник

Чтобы было ясно, я не пытаюсь оспаривать сами основы статистического вывода. Как я уже говорил, я только что изучил самые основы и испытываю трудности с пониманием того, как можно пропустить любые потенциальные результаты, если не использовать правильный тест.

— FromTheAshes

Скажи, что твой приятель Джо изобрел новый продукт, который, по его утверждению, значительно ускоряет рост растений. Заинтригованный, вы разрабатываете надежное исследование с контрольной группой и группой лечения. Ваш нулевой гип. в том, что не будет никаких изменений в росте, ваш альтернативный гип. в том, что волшебный спрей Джо значительно увеличивает рост - так односторонний тест. Через 2 недели вы делаете свои последние наблюдения и анализируете результаты. Средний рост в группе лечения превышает 5 стандартных ошибок НИЖЕ контроля. Как этот очень важный вывод менее очевиден или действителен из-за вашего выбора теста?

— FromTheAshes

2

Если я попрошу вас коллировать головы или хвосты для подбрасывания монеты, вероятность того, что вы предскажете исход, составляет 50/50 (при условии сбалансированной монеты и честного флиппера). Однако, если я сначала подброшу монету и позволю вам взглянуть на нее, а затем сделать свой прогноз, она больше не будет 50/50. Если вы проводите односторонний тест с альфа-уровнем 0,01, но затем, после просмотра результатов, измените направление теста, поскольку p <0,01 в другом направлении, ваш риск ошибки типа I невелик .01 но намного выше. Обратите внимание, что наблюдаемое значение p и частота ошибок типа I - это не одно и то же.

— dbwilson

@FromTheAshes нет ничего плохого в попытке бросить вызов самим основам. Статистическая проверка гипотез не является бесполезной, но она содержит огромные логические недостатки, и абсолютно разумно оспаривать их!

— камбала

3

Ну, все различия зависят от вопроса, на который вы хотите ответить. Если вопрос звучит так: «Является ли одна группа ценностей больше другой?» Вы можете использовать односторонний тест. Чтобы ответить на вопрос: «Отличаются ли эти группы ценностей?» Вы используете двухсторонний тест. Примите во внимание, что набор данных может быть статистически выше, чем другой, но не статистически отличаться ... и это статистика.

— Рамон Л. Зегпи
источник

1

«Если вопрос:« Является ли одна группа ценностей больше, чем другая? » Вы можете использовать односторонний тест. Точнее, если вопрос «Является ли * эта конкретная группа больше остальных», то вам следует использовать двусторонний тест.

— накопление

Следует отметить, что это подразумевает, что если вы задаете этот вопрос: «И, кстати, если кажется, что другая группа на самом деле больше, мне все равно». Если вы увидите противоположное тому, что ожидаете, а затем переключитесь в направлении проверки гипотезы, тогда вы просто лгали себе и должны были начать двусторонний тест с самого начала.

— Дейсон

2

Но как этот «сфокусированный» результат может быть менее достоверным, чем если бы вы просто выбрали правильный односторонний тест?

Альфа-значение - это вероятность того, что вы отклоните значение NULL, учитывая, что значение NULL равно true. Предположим, что ваш ноль в том, что среднее значение выборки обычно распределяется со средним нулем. Если P (выборочное среднее> 1 | H0) = 0,05, то правило «Собрать выборку и отклонить нулевое значение, если среднее значение выборки больше 1» имеет вероятность, учитывая, что нулевое истинное значение, составляет 5% от отклоняя ноль. Правило «Собрать выборку, и если среднее значение выборки является положительным, отклонить нулевое значение, если среднее значение выборки больше 1, а если среднее значение выборки отрицательное, отклонить нулевое значение, если среднее значение выборки меньше 1», имеет вероятность того, что нулевое значение истинно, составляет 10% от отклонения нулевого значения. Таким образом, первое правило имеет альфа 5%, а второе правило имеет альфа 10%. Если вы начнете с двустороннего теста, и затем измените его на односторонний тест, основанный на данных, затем вы следуете второму правилу, поэтому было бы неточно сообщать о вашей альфе как 5%. Альфа-значение зависит не только от данных, но и от того, какие правила вы соблюдаете при их анализе. Если вы спрашиваете, зачем использовать метрику с этим свойством, а не то, что зависит только от данных, это более сложный вопрос.

— Acccumulation
источник

2

Относительно 2-го пункта

Выбор одностороннего теста после выполнения двухстороннего теста, который не смог отклонить нулевую гипотезу, не подходит, независимо от того, насколько «близким» к значительному был двусторонний тест.

у нас есть то, что, если null равен true, первый двусторонний тест ложно отклоняется с вероятностью , но односторонний может также отклоняться на втором этапе. $\alpha$

Таким образом, общая вероятность отклонения будет превышать , и вы не будете тестировать на том уровне, который, по вашему мнению, тестируете больше - вы чаще получаете ложные отклонения, чем в случаев, когда стратегия применяется к истинные нулевые гипотезы. $\alpha$ $\alpha\cdot 100\%$

В целом, мы ищем которые мы можем выразить как Два события в объединении не пересекаются, так что мы после Для второго слагаемого существует вероятностная масса между верхним и квантилями (т. е. точки отклонения односторонние и двусторонние тесты), то есть совместная вероятность того, что двусторонний тест не отклонит, а односторонний. Следовательно,

P (two-sided rejects or one-sided does, but two sided doesn't)

$P(\text{two-sided rejects or one-sided does, but two sided doesn't})$

P (two-sided rejects \cup (one-sided does \cap two sided doesn't))

$P(\text{two-sided rejects} \cup \text{(one-sided does} \cap \text{two sided doesn't)})$

P (two-sided rejects) + P (one-sided does \cap two sided doesn't)

$P(\text{two-sided rejects}) +P(\text{one-sided does} \cap \text{two sided doesn't})$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

P (one-sided does \cap two sided doesn't) = α / 2

$P(\text{one-sided does} \cap \text{two sided doesn't})=\alpha/2$ так что общая вероятность отклонения этой стратегии равна сути, мы просто складываем вероятности того, что тестовая статистика попадает слева от квантиля, между верхними и квантилями или справа от квантиль.

α + \frac{α}{2} > α

$\alpha+\frac{\alpha}{2}>\alpha$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

1 - α / 2

$1-\alpha/2$

Вот небольшая числовая иллюстрация:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

— Кристоф Ханк
источник

1

Это всего лишь один произвольный способ взглянуть на это: для чего используется статистический тест? Вероятно, наиболее частая причина для проведения теста - это то, что вы хотите убедить людей (например, редакторов, рецензентов, читателей, аудиторию), что ваши результаты «достаточно случайны», чтобы их можно было отметить. И как-то мы пришли к выводу, что - произвольная, но все же универсальная истина. $p < \alpha = 0.05$

Для любой другой разумной причины для проведения испытаний, вы бы никогда не соглашайтесь на фиксированном от , но вы бы разнообразить от случая к случаю, в зависимости от того, насколько важны были последствия, что вы рисуете из теста. $\alpha$ $0.05$ $\alpha$

Вернемся к убеждению людей, что что-то «достаточно далеко от случайного», чтобы соответствовать универсальному критерию значимости. У нас есть нечувствительный, но общепринятый критерий, который мы считаем «не случайным» при для двустороннего тестирования $\alpha=0.05$ . Эквивалентным критерием было бы посмотреть на данные, решить, какой способ проверить, и провести линию при . Второй эквивалентен первому, но это не то, с чем мы исторически обосновались. $\alpha=0.025$

Как только вы начинаете делать односторонние тесты с вы начинаете подозревать неуместное поведение или ловкость значимости. Не делай этого, если хочешь убедить людей! $\alpha=0.05$

Тогда, конечно, есть такая вещь, называемая исследователями степенью свободы . Вы можете найти значение в любом виде данных, если у вас есть достаточно данных и вы можете протестировать их так, как пожелаете. Вот почему вы должны принять решение о проведении теста, прежде чем посмотреть на данные. Все остальное приводит к невоспроизводимым результатам испытаний. Я советую зайти на youtube и посмотреть на выступление Эндрю Гелманса «Преступления по данным», чтобы узнать больше об этом.

— Бернхард
источник

1

Хм, нулевая гипотеза не в том, что результаты случайны. Это может сбить с толку клиницистов и ученых, которые очень видят в результатах своей работы достижение определенного результата.

— AdamO

1

Ваш пункт «Как только вы начнете проводить односторонние тесты с ...», очень важен. Причина, по которой настолько распространен, состоит в том, что практический опыт Р.А. Фишера в Ротамстеде заключался в том, что наличие более чем стандартных отклонений от ожидаемого значения, как правило, заслуживало дальнейшего изучения, и из этого он выбрал двухсторонний критерий качестве практического правила. , а не наоборот. Таким образом, однохвостый эквивалент составит

α = 0.05

$α=0.05$

0.05

$0.05$

2

$2$

5 %

$5\%$

2.5 %

$2.5\%$

— Генри

1

На первый взгляд, ни одно из этих утверждений не утверждает, что двусторонний тест «превосходит» одностороннее исследование. Просто должна быть логическая связь между исследуемой гипотезой, связанной с проверяемым статистическим выводом.

Например:

... рассмотреть последствия пропуска эффекта в другом направлении. Представьте, что вы разработали новый препарат, который, по вашему мнению, является улучшением по сравнению с существующим препаратом. Вы хотите максимизировать способность обнаруживать улучшение, поэтому вы выбираете односторонний тест. При этом вы не сможете проверить, что новый препарат менее эффективен, чем существующий.

Прежде всего, это исследование наркотиков. Поэтому неправильность в обратном направлении имеет социальное значение вне рамок статистики. Поэтому, как многие говорили, здоровье не является лучшим для обобщения.

В приведенной выше цитате речь идет о тестировании препарата, когда другой уже существует. Поэтому для меня это означает, что ваш препарат считается уже эффективным. Утверждение касается сравнения двух эффективных лекарств после этого. При сравнении этих распределений, если вы пренебрегаете одной стороной населения ради улучшения ее сравнительных результатов? Это не только предвзятый вывод, но сравнение уже не является обоснованным: вы сравниваете яблоки с апельсинами.

Точно так же вполне могут быть точечные оценки, которые ради статистического вывода не имеют никакого значения для заключения, но имеют большое социальное значение. Это потому, что наш образец представляет жизни людей: то, что не может «повториться» и является бесценным.

С другой стороны, это утверждение подразумевает, что у исследователя есть стимул: «вы хотите максимизировать свою способность обнаруживать улучшение ...». Это понятие нетривиально, если случай изолирован как плохой протокол.

Выбор одностороннего теста после выполнения двухстороннего теста, который не смог отклонить нулевую гипотезу, не подходит, независимо от того, насколько «близким» к значительному был двусторонний тест.

Опять же, здесь подразумевается, что исследователь «переключает» свой тест: с двустороннего на односторонний. Это никогда не подходит. Обязательно иметь цель исследования перед тестированием. Всегда игнорируя удобство двухстороннего подхода, исследователи не могут более точно понять это явление.

Вот статья, посвященная этой самой теме, которая фактически доказывает, что двусторонние тесты были чрезмерно использованы.

Он обвиняет в чрезмерном использовании двустороннего теста из-за отсутствия:

четкое различие и логическая связь между гипотезой исследования и ее статистической гипотезой

Он занимает позицию и позицию исследователей:

может не знать о разнице между двумя выразительными способами или не понимать логического потока, в котором исследовательская гипотеза должна быть переведена в статистическую гипотезу. Ориентированное на удобство сочетание исследовательских и статистических гипотез может быть причиной чрезмерного использования двустороннего тестирования даже в ситуациях, когда использование двустороннего тестирования нецелесообразно.

необходимо понять точную статистику при интерпретации результатов статистического тестирования. Быть неточным под именем быть консервативным не рекомендуется. В этом смысле авторы считают, что просто сообщать о результатах тестирования, таких как «Было установлено, что они статистически значимы на уровне значимости 0,05 (т. Е. Р <0,05)», недостаточно.

Хотя двухстороннее тестирование является более консервативным в теории, оно разъединяет связь между гипотезой направленного исследования и ее статистической гипотезой, что может привести к вдвое завышенным значениям p.

Авторы также показали, что аргумент для нахождения значимого результата в противоположном направлении имеет значение только в контексте открытия, а не в контексте
обоснования . В случае проверки гипотезы исследования и лежащей в его основе теории, исследователи не должны одновременно рассматривать контекст открытия и обоснования.

https://www.sciencedirect.com/science/article/pii/S0148296312000550

— Aisync
источник

1

Часто тест значимости проводится для нулевой гипотезы против альтернативной гипотезы . Это когда однохвостый против двухвостого имеют значение.

Для значений p это (двухстороннее или одностороннее) не имеет значения! Дело в том, что вы выбираете критерий, который встречается только в доле от времени, когда нулевая гипотеза верна. Это либо два маленьких куска обоих хвостов, либо один большой кусок одного хвоста, или что-то еще. $\alpha$

Тип ошибки I не отличается для одного или двух сторонних тестов.
С другой стороны, для власти это имеет значение .

Если ваша альтернативная гипотеза асимметрична, то вы бы хотели сфокусировать критерий, чтобы отклонить нулевую гипотезу только на этом хвосте / конце; так что, когда альтернативная гипотеза верна, вы с меньшей вероятностью не отвергнете («примете») нулевую гипотезу.

Если ваша альтернативная гипотеза симметрична (вам не нужно размещать больше или меньше энергии на одной конкретной стороне), и отклонение / эффект с обеих сторон одинаково ожидаемы (или просто неизвестны / не информированы), тогда более эффективно использовать двусторонний тест (вы не теряете 50% мощности для хвоста, который вы не тестируете и где вы допустите много ошибок типа II).

Тип ошибки II отличается для односторонних и двусторонних тестов, а также в зависимости от альтернативной гипотезы.

Это становится все более похожим на байесовскую концепцию сейчас, когда мы начинаем включать предвзятые мнения о том, ожидаем ли мы, что эффект упадет с одной или с двух сторон, и когда мы хотим использовать тест (чтобы увидеть, можем ли мы фальсифицировать нулевая гипотеза) «подтвердить» или сделать более вероятным что-то вроде эффекта.

— Секст Эмпирик
источник

0

Итак, еще одна попытка ответа:

Я предполагаю, брать ли односторонний или двусторонний, полностью зависит от альтернативной гипотезы.

Рассмотрим следующий пример тестирования среднего значения в t-тесте:

$H_0: \mu=0$

$H_a: \mu \neq 0$

Теперь, если вы наблюдаете очень отрицательное среднее значение выборки или очень положительное среднее значение выборки, ваша гипотеза вряд ли будет верной.

С другой стороны, вы будете готовы принять свою гипотезу, если ваше среднее значение выборки близко к , отрицательное или положительное . Теперь вам нужно выбрать интервал, в котором, если ваше среднее значение выборки упадет, вы не отклоните свою нулевую гипотезу. Очевидно, вы бы выбрали интервал, который имеет как отрицательные, так и положительные стороны около . Таким образом, вы выбираете двусторонний тест. $0$ $0$

Но что, если вы не хотите проверять , а . Теперь интуитивно, что мы хотим сделать здесь, это то, что если значение выборки означает очень отрицательное, то мы можем определенно отклонить наш нуль. Таким образом, мы хотели бы отклонить ноль только для дальних отрицательных значений выборочного среднего. $\mu=0$ $\mu\geq 0$

Но ждать! Если это моя нулевая гипотеза, как бы я установил свое нулевое распределение? Нулевое распределение среднего значения выборки известно для некоторого предполагаемого значения параметра совокупности (здесь ). Но при текущем нуле это может принимать много значений. $0$

Допустим, мы можем сделать бесконечные нулевые гипотезы. Каждый для принятия положительного значения . Но подумайте об этом: в нашей первой гипотезе , если мы отвергаем ноль только при наблюдении очень далекого отрицательного среднего значения выборки, то каждая следующая гипотеза с также отвергнет его. Потому что для них среднее значение выборки еще дальше от параметра населения. В общем, все, что нам нужно сделать, это сделать одну гипотезу, но одностороннюю . $\mu$ $H_0: \mu=0$ $H_0: \mu>0$

Таким образом, ваше решение становится:

$H_0: \mu=0$

$H_a: \mu <0$

Лучший пример - тест Дики-Фуллера на стационарность.

Надеюсь это поможет. (Хотел включить диаграммы, но отвечал с мобильного).

— Dayne
источник