Является ли ЛСД Фишера таким плохим, как они говорят?


22

Когда мы проводим эксперименты (на небольших размерах выборки (обычно размер выборки на группу лечения составляет около 7-8)) в двух группах, мы используем t-критерий для проверки на разницу. Однако, когда мы выполняем ANOVA (очевидно, для более чем двух групп), мы используем что-то вроде Bonferroni (LSD / # парных сравнений) или Tukey как post hoc, и как студент, я был предупрежден от используя наименьшую значительную разницу Фишера (ЛСД).

Теперь дело в том, что ЛСД похож на парный t-критерий (я прав?), И поэтому единственное, что он не учитывает, это то, что мы проводим множественные сравнения. Насколько важно, когда речь идет, скажем, о 6 группах, если значение ANOVA само по себе значимо?

Или, другими словами, есть ли какая-либо научная / статистическая причина для использования ЛСД Фишера?


1
Не могли бы вы уточнить, кто такие « они », и привести примеры того, что они говорят? (Насколько плохо они говорят, что это? Давайте уясним, что мы обсуждаем здесь.) Я видел некоторую критику ЛСД, некоторые оправданные, но я не знаю, видел ли я то, что вы Видно, ни то, что я видел, потребовало бы совершенно той характеристики, которая у вас есть.
Glen_b

+1, если вы пришли сюда, пытаясь выяснить, какой сайт обмена стеками говорит о ЛСД Тимоти Лириса
PW Kad

@Glen_b Они относятся к ученым в области биомедицинских наук. Слова моего профессора заключались в том, чтобы процитировать «Используйте Бонферрони или Тьюки. Используйте ЛСД только в отчаянии. Если это не поможет, используйте другой ЛСД :)»
Rover Eye

Ответы:


10

ЛСД Фишера действительно представляет собой серию парных t-тестов, в каждом из которых в качестве оценки суммарной дисперсии используется среднеквадратичная ошибка значимой ANOVA (и, естественно, учитываются соответствующие степени свободы). Значимость ANOVA является дополнительным ограничением этого теста.

Он ограничивает частоту ошибок по семейным отношениям до альфы только в особом случае 3 групп. У Хауэлла есть очень хорошее и относительно простое объяснение того, как это происходит в главе 16 его книги « Фундаментальная статистика для поведенческих наук», 8-е издание, Дэвид С. Хауэлл .

Выше 3 групп альфа быстро надувается (как заметил @Alexis выше). Это не совсем подходит для 6 групп. Я полагаю, что именно эта ограниченная применимость заставляет большинство людей предлагать игнорировать ее как вариант.


18

Насколько важны множественные сравнения при работе с 6 группами? Ну ... с шестью группами вы имеете дело максимум с возможныхпараллельныхпопарных сравнений. Я позволю неоценимому Рэндаллу Манро рассмотреть важность множественных сравнений:6(6-1)2знак равно15

введите описание изображения здесь

И я добавлю, что если, как и в первом предложении, вы предлагаете, чтобы иногда у вас было семь групп, то максимальное количество попарных тестов ad hoc составляет 7(7-1)2знак равно21


1
Точка хорошо сделана. Однако разве это не ставит под сомнение, что если у нас очень мало групп (скажем, 3 (3 попарно) или 4 (6 попарно)), вероятность случайного нахождения значимого значения мала? (опять же, ЛСД защищен значением ANOVA)
Rover Eye

2
α

2
@Rover Наличие 6 попарных тестов, которые все проходят с p> 0.05, уже означает, что теперь у вас p> 0.26, это довольно существенное изменение.
Во

Я не спрашиваю после чего-либо практического, просто размышлял вслух. Но ваша точка зрения хорошо сделана. @ Правда, ошибка имеет тенденцию к умножению. Спасибо вам обоим.
Rover Eye

10

Тест Фишера так же плох, как все говорят, что это с точки зрения Неймана-Пирсона, и если вы делаете то, что подразумевает ваш вопрос - после значительного теста ANOVA для каждой индивидуальной разницы. Вы можете увидеть это во многих опубликованных статьях . Но тестирование всех различий после ANOVA или любого из них не является ни необходимым, ни рекомендуемым. И тест Фишера не был создан в соответствии с теорией статистического вывода Неймана-Пирсона.

Важно помнить, что, когда Фишер предложил ЛСД, он на самом деле не считал многократное тестирование важной проблемой, потому что не считал, что отсечение значимости является жестким и быстрым правилом для определения важности результатов или нет. Можно было бы построить ЛСД как простой способ просмотреть данные там, где могут быть существенные результаты, но не в качестве арбитра того, что имело смысл. Помните, что это был Фишер, который сказал, что вы должны просто запустить больше предметов, если р > 0,05.

И почему вы думаете, что тестирование - это хорошая идея? Подумайте, почему вы запускаете ANOVA в первую очередь. Вас, вероятно, учили, что это потому, что запуск нескольких t-тестов проблематичен, как вы понимаете в своем вопросе. Тогда почему вы управляете ими или их эквивалентом после? Я знаю, что это происходит, но мне еще не нужно было проводить тест после ANOVA. ANOVA говорит вам, что ваш шаблон данных не является набором равных значений, что там может быть какое-то значение. Многие люди зациклены на том, что тест не говорит вам, где находятся значимые биты, но они забывают, что данные и теории говорят вам об этом.


Спасибо за документы. Вы ставите вопрос о том, почему люди используют пост-hoc после ANOVA. Честно говоря, я действительно не знаю. Мне сказали, что ANOVA - это блоб-тест, и, как вы упомянули, нам нужно было выяснить, в чем заключается значение. И если честно, мне интересно знать, как вы сообщаете только о ANOVA.
Rover Eye

1
Дайте мне образец данных, и я расскажу вам, как я сообщу об ANOVA. Краткая версия, что вы описываете данные. Предметы, очень близкие друг к другу, будут сгруппированы в описании, а те, которые находятся далеко друг от друга, считаются значимыми различиями (но все они относительно). Допустим, у меня есть A = 20, B = 58, C = 61, p = 0,03. Я бы сообщил статистику и сказал бы, что A ниже, чем B и C, которые похожи. Итак, все зависит от данных. Я могу вообразить последовательность элементов, которая немного проблематична (A = 10, B = 20, C = 30) в некоторых логических выводах, но тогда, возможно, я должен был сделать регрессию.
Джон

Это довольно интересный способ сообщить об ANOVA, и я могу видеть, к чему вы клоните. Хотя я, конечно, могу обсудить это со своими руководителями, я не слишком уверен, хотят ли они нарушить «норму» представления ANOVA без постхока. Попытка найти научные публикации, в которых сообщается об использовании этого метода.
Rover Eye

2
Что-то значимое в данных. Довольно часто очевидно, что это должно быть. Выполнение специальных упражнений для демонстрации очевидного просто показывает, что вы не знаете, что делает ANOVA в первую очередь.
Джон

6

Рассуждения о ЛСД Фишера могут быть распространены на случаи за N = 3.

Я подробно остановлюсь на примере четырех групп. Чтобы сохранить уровень ошибок по типу I для всей семьи на уровне 0,05 или ниже, достаточно поправочного коэффициента множественного сравнения, равного 3 (то есть альфа-коэффициент сравнения на 0,05 / 3), хотя между четырьмя группами было проведено шесть сравнений. Это потому что:

  • в случае, если все четыре истинных средних равны, совокупность Anova по четырем группам ограничивает семейную ошибку до 0,05;
  • в случае, если три из истинных средних равны, а четвертое отличается от них, есть только три сравнения, которые потенциально могут привести к ошибке типа I;
  • в случае, если два из истинных средних равны и отличаются от двух других, которые равны друг другу, есть только два сравнения, которые могут потенциально привести к ошибке типа I.

Это исчерпывает возможности. Во всех случаях вероятность нахождения одного или нескольких p- значений ниже 0,05 для групп, истинные средние значения которых равны, остается на уровне или ниже 0,05, если поправочный коэффициент для множественных сравнений равен 3, и это является определением частоты ошибок по семейным причинам.

Это рассуждение для четырех групп является обобщением объяснения Фишера для его метода наименьшего существенного различия трех групп. Для N групп поправочный коэффициент, если критерий омнибуса Anova является значимым, составляет ( N -1) ( N -2) / 2. Таким образом, поправка Бонферрони с коэффициентом N ( N -1) / 2 слишком сильна. Достаточно использовать альфа-поправочный коэффициент 1 для N = 3 (поэтому ЛСД Фишера работает для N = 3), коэффициент 3 для N = 4, коэффициент 6 для N = 5, коэффициент 10 для 10 N = 6 и т. Д.


+1. Это очень хорошее дополнение к теме. Добро пожаловать на сайт!
говорит амеба, восстанови Монику

Каждая описанная вами ситуация не требует дополнительного тестирования.
Джон

1
Можете ли вы указать литературную ссылку для этого (N-1)(N-2)/2результат?
rvl
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.