Размер эффекта как гипотеза для проверки значимости

37

Сегодня в клубе Cross Validated Journal (почему вас там не было?) @Mbq спросил:

Как вы думаете, мы (современные исследователи данных) знаем, что означает значение? И как это связано с нашей уверенностью в наших результатах?

@Michelle ответил так, как обычно делают некоторые (включая меня):

Я нахожу концепцию значимости (основанную на p-значениях) все менее и менее полезной, поскольку продолжаю свою карьеру. Например, я могу использовать очень большие наборы данных, поэтому все статистически значимо ( ) $p<.01$

Вероятно, это глупый вопрос, но разве проблема не в проверяемой гипотезе? Если вы проверите нулевую гипотезу «А равно В», то вы знаете, что ответ «Нет». Большие наборы данных только приблизят вас к этому неизбежно верному выводу. Я полагаю, что именно Деминг однажды привел пример с гипотезой «количество волосков на правой стороне ягненка равно количеству волосков на его левой стороне». Ну, конечно, это не так.

Лучшей гипотезой было бы: «А не отличается от В более чем на столько». Или, в примере с бараниной, «количество волосков по бокам ягненка не отличается более чем на X%».

Имеет ли это смысл?

hypothesis-testing p-value large-data

— Карлос Аккиоли
источник

1) Проверка средней эквивалентности (при условии, что это то, что вам нужно) в некоторых случаях может быть упрощена до проверки значимости их средней разности. Со стандартной ошибкой для этой оценки разницы вы можете выполнить все виды тестирования сортов «не отличается от B более ...». 2) Что касается размера выборки - да, для больших сс значение важности уменьшается, но это все еще важно для небольших выборок, где вы не можете просто генерировать дополнительные значения.

— Ондрей

11

Re "Конечно, это не так." По предположению, ягненок имеет порядка волосков с каждой стороны. Если таких волосков четное число и они распределены случайным образом с равными шансами по обеим сторонам, а стороны четко очерчены, то вероятность того, что оба числа точно равны, равна 0,178%. В большом стаде из нескольких сотен вы должны ожидать, что такой идеально сбалансированный ягненок рождается, по крайней мере, раз в десять лет (при условии, что ровное количество волосков происходит примерно в 50% случаев). Или: почти у каждого старого овцевода был такой ягненок!

10^{5}

$10^5$

— whuber

1

@whuber Это определяется целью анализа. Лучшей аналогией была бы минимальная величина эффекта, которая оправдывала бы дальнейшие инвестиции в препарат после испытания. Недостаточно просто наличие статистически значимого эффекта, так как разработка лекарственного средства стоит дорого, и могут возникнуть побочные эффекты, которые необходимо учитывать. Это не статистический вопрос, а практический.

— Дикран Marsupial

2

@whuber Я подозреваю, что в большинстве приложений, где нет практической информации для определения минимального размера эффекта, представляющего интерес, тогда стандартный тест гипотезы подходит, например, проверка на нормальность. Как байесовец я бы согласился с мнением, что это проблема оптимизации, а не проблема проверки гипотез. Часть проблемы с тестами гипотез является результатом статистического подхода к поваренной книге, где тесты выполняются как традиция без должного учета цели упражнения или истинного значения результата (конечно, все ИМХО).

— Дикран Marsupial

1

@DikranMarsupial - это не ключ к тому, что студенты обучаются тестам наизусть, как показано ниже, а не важности хорошего дизайна обучения? Поможет ли больший упор на дизайн исследования решить некоторые проблемы - не обязательно с большими наборами данных?

— Мишель

25

Что касается тестирования значимости (или чего-то еще, что по существу делает то же самое, что и тестирование значимости), я долго думал, что наилучшим подходом в большинстве ситуаций, вероятно, будет оценка стандартизированной величины эффекта с 95% -ным доверительным интервалом относительно этого. размер эффекта. Там нет ничего действительно нового - математически вы можете перетасовывать туда-сюда между ними - если p-значение для 'nil' null <0,05, то 0 будет лежать за пределами 95% -ного доверительного интервала, и наоборот. Преимущество этого, на мой взгляд, психологическое; то есть он делает существенную информацию, которая существует, но которую люди не могут видеть, когда сообщают только p-значения. Например, легко увидеть, что эффект дико «значительный», но смехотворно маленький; или «незначительный», но только потому, что полосы ошибок огромны, тогда как ожидаемый эффект более или менее соответствует ожидаемому. Они могут быть в паре с необработанными значениями и их CI.

Теперь, во многих областях необработанные значения имеют внутреннее значение, и я признаю, что возникает вопрос о том, стоит ли еще вычислять меры величины эффекта, учитывая, что у нас уже есть значения, такие как средние значения и уклоны. Примером может служить замедление роста; мы знаем, что значит для 20-летнего белого мужчины быть на 6 +/- 2 дюйма короче (т.е. на 15 +/- 5 см), чем они были бы в противном случае, так зачем упоминать ? Я склонен полагать, что в обоих отчетах все еще может быть ценность, и могут быть написаны функции для их вычисления, так что это очень мало дополнительной работы, но я признаю, что мнения будут разными. В любом случае, я утверждаю, что точечные оценки с доверительными интервалами заменяют значения p в качестве первой части моего ответа. $d=-1.6\pm.5$

С другой стороны, я думаю, что больший вопрос заключается в том, «выполняет ли тест значимости то, что мы действительно хотим?». Я думаю, что реальная проблема заключается в том, что для большинства людей, анализирующих данные (то есть практикующих специалистов, а не статистиков), тестирование значимости может стать полнотой анализа данных. Мне кажется, что самое важное - это иметь принципиальный способ думать о том, что происходит с нашими данными, и проверка значимости нулевой гипотезы, в лучшем случае, очень малая часть этого. Позвольте мне привести воображаемый пример (я признаю, что это карикатура, но, к сожалению, я боюсь, что это несколько правдоподобно):

Боб проводит исследование, собирая данные о том или ином. Он ожидает, что данные будут нормально распределены, плотно сгруппированы вокруг некоторого значения, и намеревается провести t-тест с одной выборкой, чтобы увидеть, «существенно ли отличаются» его данные от некоторого предварительно определенного значения. Собрав свой образец, он проверяет, нормально ли распределяются его данные, и обнаруживает, что это не так. Вместо этого они не имеют ярко выраженного комка в центре, но относительно высоки в течение заданного интервала и затем затягиваются длинным левым хвостом. Боб беспокоится о том, что он должен сделать, чтобы его тест был действительным. В конце концов он что-то делает (например, преобразование, непараметрический тест и т. Д.), А затем сообщает статистику теста и значение p.

Я надеюсь, что это не так неприятно. Я не хочу насмехаться над кем-то, но я думаю, что нечто подобное иногда случается. Если этот сценарий произойдет, мы все можем согласиться, что это плохой анализ данных. Однако проблема не в том, что статистика теста или значение p неверны; мы можем утверждать, что данные были обработаны должным образом в этом отношении, Я бы сказал, что проблема заключается в том, что Боб занимается тем, что Кливленд называет «анализом данных». Похоже, он считает, что единственная цель - получить правильное значение p, и очень мало думает о своих данных за пределами достижения этой цели. Он даже мог бы перейти к моему предложению выше и сообщить о стандартизированном размере эффекта с 95% -ным доверительным интервалом, и это не изменило бы то, что я считаю более серьезной проблемой (это то, что я имел в виду, делая «по сути то же самое»). "другим способом). В данном конкретном случае тот факт, что данные не выглядели так, как он ожидал (то есть не были нормальными), является реальной информацией, это интереснои, возможно, очень важно, но эта информация по сути просто выбрасывается. Боб не признает этого из-за сосредоточенности на проверке значимости. На мой взгляд, это реальная проблема с проверкой значимости.

Позвольте мне остановиться на нескольких других упомянутых перспективах, и я хочу четко заявить, что я никого не критикую.

Часто упоминается, что многие люди на самом деле не понимают p-значения (например, думая, что они являются вероятностью, что ноль истинен) и т. Д. Иногда утверждают, что, если бы люди использовали байесовский подход, эти проблемы уходи. Я полагаю, что люди могут подходить к анализу байесовских данных таким же образом, как и к механическим. Тем не менее, я думаю, что неправильное понимание значения p-значений было бы менее вредным, если бы никто не думал, что получение p-значения было целью.
Существование «больших данных», как правило, не связано с этой проблемой. Большие данные только дают понять, что организация анализа данных вокруг «значимости» не является полезным подходом.
Я не верю, что проблема в проверяемой гипотезе. Если бы люди только хотели увидеть, находится ли оценочное значение вне интервала, а не равно ли оно точечному значению, могут возникнуть многие из тех же самых проблем. (Опять же, я хочу пояснить, я знаю, что вы не «Боб» .)
Для справки, я хочу упомянуть, что мое собственное предложение из первого абзаца не решает проблему, как я пытался указать.

Для меня это ключевой вопрос: что мы действительно хотим, так это принципиальный способ думать о том, что произошло . То, что это означает в любой данной ситуации, не вырезано и высушено. Как передать это студентам в классе методов не ясно и не легко. Проверка значимости имеет много инерции и традиций. На уроке статистики понятно, чему и как учить. Для студентов и практиков становится возможным разработать концептуальную схему для понимания материала и контрольный список / блок-схему (я видел некоторые!) Для проведения анализа. Тестирование на значимость может естественным образом перерасти в тщательный анализ данных, и никто не будет глупым, ленивым или плохим. Это проблема.

— Gung - Восстановить Монику
источник

Мне нравятся доверительные интервалы :). Один вопрос: Вы имели в виду, что расчет размера эффекта в отдельности - это нормально?

— Мишель

@ Мишель, я не совсем уверена, что ты имеешь в виду под "post hoc", но, вероятно, Например, вы собираете некоторые данные, , & , а затем вычисляете . Это предвзятая и самая простая ситуация, но вы поняли.

{\bar{x}}_{1} = 10

$\bar{x}_1=10$

{\bar{x}}_{2} = 14

$\bar{x}_2=14$

S D = 6

$SD=6$

d = .67

$d=.67$

— gung - Восстановить Монику

Да, я думаю, что мы согласны здесь.

— Мишель

+1 История Боба напоминает мне об этом: pss.sagepub.com/content/early/2011/10/17/0956797611417632

— Карлос Аккиоли

+1 Я предпочитаю достоверные интервалы сам. Что касается пункта 1, я бы сказал, что байесовские альтернативы с меньшей вероятностью приведут к тщательному анализу данных, поскольку определение вероятности не настолько противоречиво, что значительно упрощает формулировку вопроса, который вы на самом деле хотите задать, статистическим образом. , Настоящая проблема заключается в том, что для выполнения теста требуются интегралы, которые слишком сложны для широкого применения таких методов. Надеемся, что программное обеспечение будет развиваться до такой степени, что пользователь сможет сосредоточиться на постановке вопроса и оставить все остальное за компьютером.

— Дикран Сумчатый

18

Почему мы настаиваем на любой форме проверки гипотез в статистике?

В замечательной книге « Статистика как принципиальный аргумент» Роберт Абельсон утверждает, что статистический анализ является частью принципиального аргумента в отношении рассматриваемого предмета. Он говорит, что вместо того, чтобы оценивать как гипотезы, которые будут отвергнуты или не отклонены (или даже приняты!?!), Мы должны оценивать их на основе того, что он называет критериями MAGIC:

Величина - насколько она велика? Артикуляция - это полно исключений? Это понятно? Общность - как это вообще применимо? Интересность - Заботимся ли мы о результате? Достоверность - Можем ли мы в это поверить?

Мой обзор книги в моем блоге

— Питер Флом - Восстановить Монику
источник

4

Проблема спровоцирована некоторыми профессорами. Мой доктор философии по психометрии, который находится в отделении психологии. Я слышал, как профессора из других подразделений кафедры говорили что-то вроде «просто сообщите значение р, вот что имеет значение». Моя работа - консультирование, в основном с аспирантами и исследователями в социальной, поведенческой, образовательной и медицинской областях. Количество дезинформации, которую дают докторские комитеты, поражает.

— Питер Флом - Восстановить Монику

1

+1 за «Почему ...», это большая часть того, что я пытался понять в своем ответе.

— gung - Восстановить Монику

Другая часть того, что я пытался понять в своем ответе, заключается в том, что я думаю, что это происходит естественно. Кстати, нечестно получить два отзыва ;-), вы можете объединить их.

— gung - Восстановить Монику

13

Ваш последний вопрос не только имеет смысл: в настоящее время разумные отраслевые статистики не проверяют значительную разницу, но проверяют значительную эквивалентность, то есть проверяют нулевую гипотезу вида где устанавливается пользователем и действительно относится к понятию «размер эффекта». Самым распространенным тестом на эквивалентность является так называемый TOST . Тем не менее стратегия направлена на то, чтобы доказать, что два средства и значительно -close, например, - это среднее значение для некоторого метода измерения, а $H_0\colon \{|\mu_1-\mu_2|>\epsilon\}$ $\epsilon$ $\mu_1$ $\mu_2$ $\epsilon$ $\mu_1$ $\mu_2$ для другого метода измерения, и во многих ситуациях более разумно оценивать эквивалентность между наблюдениями, а не средствами. Для этого мы могли бы выполнить проверку гипотез на таких количествах, что , и такая проверка гипотез относится к интервалам допуска. $\Pr(|X_1-X_2|>\epsilon)$

— Стефан Лоран
источник

(+1) И добро пожаловать в 1000 репутации. Приветствия.

— кардинал

6

Традиционные тесты гипотез говорят вам, есть ли статистически значимые доказательства существования эффекта, в то время как мы часто хотим знать о существовании доказательств практически значимого эффекта.

Конечно, можно сформировать байесовские «тесты гипотез» с минимальным размером эффекта (IIRC есть пример этого в книге Дэвида Маккея «Теория информации, вывод и алгоритмы обучения», я посмотрю ее, когда у меня будет момент ,

Тестирование нормальности - еще один хороший пример, мы обычно знаем, что данные на самом деле не распределяются нормально, мы просто проверяем, есть ли доказательства, что это не является разумным приближением. Или тестирование на уклон монеты, мы знаем, что она вряд ли будет полностью смещена, поскольку она асимметрична.

— Дикран Сумчатый
источник

6

Многое из этого сводится к тому, какой вопрос вы на самом деле задаете, как вы планируете учебу и даже что вы подразумеваете под равным.

Однажды я опубликовал интересную небольшую вставку в British Medical Journal, в которой говорилось о том, что люди понимают под определенными фазами. Оказывается, что «всегда» может означать, что что-то происходит всего лишь в 91% случаев (BMJ VOLUME 333 26 AUGUST 2006 стр. 445). Поэтому, может быть, считается, что равенство и эквивалентность (или в пределах X% для некоторого значения X) означают одно и то же. И давайте зададим компьютеру простое равенство, используя R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

Теперь чистый математик, использующий бесконечную точность, может сказать, что эти 2 значения не равны, но R говорит, что они есть, и для большинства практических случаев они будут (если вы предложите дать мне (1e + 5 + 1e-50), но сумма оказалась (1e + 5 - 1e-50), я бы не отказался от денег, потому что они отличались от обещанных). $\$$ $\$$

Далее, если нашей альтернативной гипотезой является мы часто пишем как хотя технически реальный ноль - , но мы работаем с равенством как ноль поскольку, если мы можем показать, что больше, чем то мы также знаем, что он больше всех значений, меньших . И разве двусторонний тест - это не просто 2 односторонних теста? В конце концов, действительно ли вы сказали бы, что но отказались бы сказать, какая сторона ? Это частично объясняет тенденцию к использованию доверительных интервалов вместо значений р, когда это возможно, если мой доверительный интервал для $H_a: \mu > \mu_0$ $H_0: \mu=\mu_0$ $H_0: \mu \le \mu_0$ $\mu$ $\mu_0$ $\mu_0$ $\mu \ne \mu_0$ $\mu_0$ $\mu$ $\mu$ включает тогда как я, возможно, не хочу верить, что точно равен , я не могу точно сказать, на какой стороне лежит, что означает, что они могут также быть равными для практических целей , $\mu_0$ $\mu$ $\mu_0$ $\mu_0$ $\mu$

Многое из этого сводится к тому, чтобы задать правильный вопрос и разработать правильное исследование для этого вопроса. Если у вас будет достаточно данных, чтобы показать, что практически бессмысленная разница статистически значима, то вы потратили впустую ресурсы, получая такое количество данных. Было бы лучше решить, какой будет значимая разница, и составить исследование, чтобы дать вам достаточно силы, чтобы обнаружить эту разницу, но не меньше.

И если мы действительно хотим подстричься, как определить, какие части ягненка находятся справа, а какие - слева? Если мы определяем его линией, которая по определению имеет равное количество волосков на каждой стороне, то ответ на поставленный выше вопрос становится «Конечно, это так».

— Грег Сноу
источник

Я подозреваю, что ответ, который вы получите от R, является просто результатом некоторой арифметической задачи с плавающей запятой, а не осознанным решением игнорировать несущественные различия. Рассмотрим классический пример (.1 + .2) == .3 «Чистый математик» скажет вам, что они равны на любом уровне точности, но R возвращает FALSE.

— Гала

@ GaëlLaurans, моя точка зрения такова, что из-за округления (сознательного от человека или от компьютера) понятия совершенно равные и в пределах X% для достаточно малого X практически одинаковы.

— Грег Сноу

5

С организационной точки зрения, будь то правительство с вариантами политики или компания, желающая развернуть новый процесс / продукт, использование простого анализа затрат и выгод также может помочь. В прошлом я утверждал, что (игнорируя политические причины), учитывая известную стоимость новой инициативы, какова точка безубыточности для числа людей, которые должны быть положительно затронуты этой инициативой? Например, если новая инициатива заключается в том, чтобы привлечь на работу больше безработных, а затраты на эту инициативу $100,000достигнуты, достигнет ли она как минимум сокращения трансфертов по безработице $100,000? Если нет, то эффект от инициативы практически не значителен.

Для результатов в отношении здоровья значение статистической жизни приобретает важное значение. Это связано с тем, что пособия по болезни начисляются в течение всей жизни (и, следовательно, выгоды корректируются в сторону понижения стоимости на основе ставки дисконтирования ). Таким образом, вместо статистической значимости можно получить аргументы о том, как оценить ценность статистической жизни и какую ставку дисконтирования следует применять.

— Мишель
источник