Интерпретация незначимых результатов как «трендов»

16

Недавно два разных сотрудника использовали своего рода аргумент о различиях между условиями, которые мне кажутся некорректными. Оба этих сотрудника используют статистику, но они не являются статистиками. Я новичок в статистике.

В обоих случаях я утверждал, что, поскольку в эксперименте не было существенной разницы между двумя условиями, было неверно делать общее утверждение об этих группах в отношении манипуляции. Обратите внимание, что «сделать общее утверждение» означает что-то вроде написания: «Группа A использовала X чаще, чем группа B».

Мои коллеги возразили: «Несмотря на то, что существенной разницы нет, эта тенденция сохраняется» и «Несмотря на то, что существенной разницы нет, разница есть». Для меня оба они звучат как двусмысленность, т. Е. Они изменили значение «разницы» с: «разницы, которая, вероятно, будет результатом чего-то другого, кроме случайности» (то есть статистической значимости), на «любой не нулевая разница в измерении между группами ».

Был ли правильный ответ моих коллег? Я не стал с ними связываться, потому что они опередили меня.

statistical-significance

— amdex
источник

Я нашел эти статьи полезными Все еще не значимыми и маргинально значимыми

— user20637

26

Это большой вопрос; ответ во многом зависит от контекста.

В целом, я бы сказал, что вы правы : утверждение безоговорочного общего утверждения типа «группа А использовала Х чаще, чем группа В» вводит в заблуждение. Было бы лучше сказать что-то вроде

в нашей экспериментальной группе А использовали Х чаще, чем группу В, но мы очень не уверены, как это отразится на общей популяции

или

хотя в нашем эксперименте группа A использовала X 13% чаще, чем группа B, наша оценка разницы в общей популяции не ясна : вероятные значения варьируются от A при использовании X 5% реже, чем в группе B до A при использовании X 21% чаще, чем группа B

или

группа А использовала X на 13% чаще, чем группа В, но разница не была статистически значимой (95% ДИ от -5% до 21%; р = 0,75)

С другой стороны: ваши коллеги правы в том, что в этом конкретном эксперименте группа A использовала X чаще, чем группа B. Однако люди редко заботятся об участниках конкретного эксперимента; они хотят знать, как ваши результаты будут обобщены для большей популяции, и в этом случае общий ответ таков: вы не можете с уверенностью сказать, будет ли случайно выбранная группа A использовать X более или менее часто, чем случайно выбранная группа B.

Если вам нужно было сегодня сделать выбор, использовать ли лечение A или лечение B для увеличения использования X, при отсутствии какой-либо другой информации или различий в расходах и т. Д., Тогда выбор A будет вашим лучшим выбором. Но если вы хотите, чтобы вам было удобно делать правильный выбор, вам нужно больше информации.

Обратите внимание, что вы не должны говорить «нет разницы между группой A и группой B в их использовании X», или «группа A и группа B используют X одинаковое количество». Это верно ни для участников вашего эксперимента (где А использовал Х на 13% больше), ни среди населения в целом; в большинстве реальных ситуаций вы знаете, что действительно должен быть некоторый эффект (независимо от того, насколько он незначителен) от А до В; Вы просто не знаете, в каком направлении это идет.

— Бен Болкер
источник

5

Прекрасный ответ, Бен! Интересно, можно ли изменить ваше второе примерное утверждение для ясности, чтобы отразить суть первого примерного утверждения: «хотя группа А использовала X на 13% чаще, чем группа B В НАШЕМ ЭКСПЕРИМЕНТЕ, разница В ИСПОЛЬЗОВАНИИ X МЕЖДУ ГРУППАМИ В ОБЩЕМ НАСЕЛЕНИЕ не было ясным : правдоподобный диапазон ЭТОГО РАЗНООБРАЗИЯ изменился от А с использованием Х 5% реже, чем в группе В, до А, использующего Х 21% чаще, чем в группе В.

— Изабелла Гемент

3

спасибо, частично включены (пытается сбалансировать краткость / ясность и точность ...)

— Бен Болкер

8

+1 Я думаю, что многие люди не понимают, что в отсутствие статистических данных наблюдаемые различия вполне могут быть противоположны тому, что происходит с населением!

— Дэйв

@Dave: даже если наличие «статистического доказательства» (статистически значимого p-значения?), «Наблюдаемые различия вполне могут быть противоположностью того, что происходит с населением»

— boscovich

@boscovich Конечно, я говорил абсолютно, когда мы работаем со статистикой, но я думаю о нем как о незначительном значении р, означающем, что вы действительно не представляете, что происходит с населением. По крайней мере, при значительном значении p вы достигли определенного установленного порога доказательств того, что вы что-то знаете. Но определенно возможно получить значительное значение p, когда оно неверно определило направление. Эта ошибка должна происходить время от времени.

— Дейв

3

Это сложный вопрос!

Перво-наперво, любой порог, который вы можете выбрать для определения статистической значимости, является произвольным. Тот факт, что большинство людей использует значение, не делает его более правильным, чем любое другое. Так что, в некотором смысле, вы должны думать о статистической значимости как о «спектре», а не как о черно-белом объекте. $5\%$ $p$

$H_0$ $A$ $B$ $X$ $Y$ $H_0$ $p$ $p$ $H_0$ чтобы быть правдой (т. е. без тренда).

$p$ $H_0$ $H_0$ $p$ $H_0$

$p$ $23\%$ $23\%$ $23\%$ $H_0:=$ $0.5\%$ $p-$

$X$ $\beta$ $H_0:$ $\beta=0$ $\beta \leq 0$

$\beta=0$

$4\%$

Я надеюсь, что это слишком многословное объяснение поможет вам разобраться в ваших идеях. Суть в том, что вы абсолютно правы! Мы не должны заполнять наши отчеты, будь то исследования, бизнес или что-то еще, необоснованными заявлениями, подкрепленными небольшим количеством доказательств. Если вы действительно думаете, что есть тенденция, но не достигли статистической значимости, то повторите эксперимент с большим количеством данных!

— Дэвид
источник

1

+1 за указание на то, что любой порог значимости является произвольным (и, следовательно, из результатов в выборке невозможно вывести абсолютные утверждения об общей популяции - все, что вы получите, - это более высокие вероятности).

— Питер - Восстановить Монику

0

Значительный эффект просто означает, что вы измерили маловероятную аномалию (маловероятно, если бы нулевая гипотеза, отсутствие эффекта, была бы верной). И, как следствие, это должно быть подвергнуто сомнению с высокой вероятностью (хотя эта вероятность не равна p-значению и также зависит от предыдущих мнений).

В зависимости от качества эксперимента вы можете измерить один и тот же размер эффекта , но это может быть не аномалией (что не исключено, если нулевая гипотеза окажется верной).

Когда вы наблюдаете эффект, но он не является значимым, тогда действительно (эффект) все еще может быть там, но он только незначителен (измерения не показывают, что нулевая гипотеза должна подвергаться сомнению / отвергаться с высокой вероятностью). Это означает, что вы должны улучшить свой эксперимент, собрать больше данных, чтобы быть более уверенными.

Таким образом, вместо эффекта дихотомии по сравнению с отсутствием эффекта вы должны пойти на следующие четыре категории:

Изображение с https://en.wikipedia.org/wiki/Equivalence_test, объясняющее процедуру двухсторонних t-тестов (TOST)

Вы, кажется, находитесь в категории D, тест не дает результатов. Ваши коллеги могут ошибаться, говоря, что эффект есть. Однако в равной степени неправильно утверждать, что эффекта нет!

— Секст Эмпирик
источник

p

$p$

@ Дэвид, я полностью согласен с вами, что значение p является более точной мерой для «вероятности того, что мы сделаем ошибку условной, что нулевая гипотеза верна» (или вероятность увидеть такие экстремальные результаты), и это не прямо выразить «вероятность того, что нулевая гипотеза неверна». Однако я чувствую, что значение p не предназначено для использования в этом «официальном» смысле. Значение p используется, чтобы выразить сомнение в нулевой гипотезе, чтобы выразить, что результаты указывают на аномалию, и аномалии должны заставить нас сомневаться в нулевом ....

— Sextus

.... в вашем случае, когда вы показываете, что бросаете вызов нулевому эффекту (бросаете вызов идее, что никто не может предсказать монеты), предоставляя редкий случай (точно так же, как у женщины с дегустацией чая), тогда у нас действительно должны быть сомнения в нулевом гипотеза. На практике нам нужно было бы установить для этого подходящее p-значение (поскольку на самом деле можно было бы бросить вызов нулевому значению просто), и я бы не стал использовать уровень 1%. Высокая вероятность сомневаться в нулевом значении не должна приравниваться, один к одному, с p-значением (поскольку эта вероятность больше является байесовской концепцией).

— Секст Эмпирик

Я адаптировал текст, чтобы убрать эту неверную интерпретацию.

— Секст Эмпирик

0

Похоже, они спорят р-значение против определения «тренд».

Если вы разместите данные на графике прогона, вы можете увидеть тренд ... серию точек графика, которые показывают, что тенденция растет или уменьшается с течением времени.

Но, когда вы делаете статистику по нему ... значение р предполагает, что это не имеет значения.

Для значения p, чтобы показать небольшое значение, но для них, чтобы увидеть тренд / прогон в серии данных ... это должен быть очень слабый тренд.

Итак, если бы это было так, я бы прибегнул к p-значению. IE: хорошо, да, в данных есть тренд / прогон ... но он настолько незначителен и незначителен, что статистика показывает, что не стоит продолжать анализ.

Незначительная тенденция - это то, что может быть связано с какой-то предвзятостью в исследованиях ... может быть, что-то очень незначительное ... что-то, что может быть только один раз в эксперименте, который, как оказалось, создает небольшую тенденцию.

Если бы я был менеджером группы, я бы сказал им, чтобы они перестали тратить время и деньги, копаясь в незначительных тенденциях, и искали более важные.

— blahblah
источник

0

Похоже, что в этом случае они мало обосновывают свои претензии и просто злоупотребляют статистикой, чтобы прийти к заключению, которое они уже сделали. Но бывают случаи, когда нормально не быть таким строгим с отсечками p-val. Это (как использовать статистическую значимость и предельные значения pval) - это спор, который бушует с тех пор, как Фишер, Нейман и Пирсон впервые заложили основы статистического тестирования.

Допустим, вы строите модель и решаете, какие переменные включить. Вы собираете немного данных, чтобы провести предварительное исследование потенциальных переменных. Теперь есть одна переменная, которая действительно интересует бизнес-команда, но ваше предварительное исследование показывает, что эта переменная не является статистически значимой. Однако «направление» переменной соответствует тому, что ожидала бизнес-команда, и хотя оно не соответствовало порогу значимости, оно было близко. Возможно, предполагалось, что это имеет положительную корреляцию с результатом, и вы получили бета-коэффициент, который был положительным, но значение pval было чуть выше предела 0,05.

В этом случае вы можете пойти дальше и включить его. Это своего рода неформальная байесовская статистика - ранее существовало твердое убеждение, что это полезная переменная, и первоначальное исследование показало некоторые доказательства в этом направлении (но не статистически значимые доказательства!), Поэтому вы даете ей преимущество сомнения и держать его в модели. Возможно, с большим количеством данных станет более очевидным, как они связаны с интересующим результатом.

Другим примером может быть то, где вы строите новую модель и смотрите на переменные, которые использовались в предыдущей модели - вы могли бы продолжать включать предельную переменную (которая находится на пороге значимости), чтобы сохранить некоторую преемственность от модели моделировать.

По сути, в зависимости от того, что вы делаете, есть причины быть более и менее строгими в отношении таких вещей.

С другой стороны, также важно помнить, что статистическая значимость не должна подразумевать практическую значимость! Помните, что в основе всего этого лежит размер выборки. Соберите достаточно данных, и стандартная ошибка оценки сократится до 0. Это будет иметь какое-либо значение, независимо от того, насколько оно мало, «статистически значимо», даже если в реальном мире это различие не будет иметь значения. Например, предположим, что вероятность попадания конкретной монеты на головы была .500000000000001. Это означает, что теоретически вы можете спроектировать эксперимент, который заключит, что монета нечестная, но для всех целей и целей монета может рассматриваться как честная монета.

— прибыль на акцию
источник