Как проверить гипотезу об отсутствии групповых различий?


39

Представьте, что у вас есть исследование с двумя группами (например, мужчины и женщины), которое рассматривает числовую зависимую переменную (например, результаты тестов интеллекта), и у вас есть гипотеза, что между группами нет различий.

Вопрос:

  • Что такое хороший способ проверить, нет ли групповых различий?
  • Как бы вы определили размер выборки, необходимый для адекватного тестирования на отсутствие групповых различий?

Начальные мысли:

  • Было бы недостаточно сделать стандартный t-тест, потому что отказ отклонить нулевую гипотезу не означает, что интересующий параметр равен или близок к нулю; это особенно касается небольших образцов.
  • Я мог бы взглянуть на 95% доверительный интервал и проверить, что все значения находятся в достаточно малом диапазоне; возможно плюс или минус 0,3 стандартных отклонения.

что вы подразумеваете под "это предполагает, что нулевая гипотеза верна"?
Робин Жирар

Если вы хотите контролировать вероятность ошибочного объявления «есть разница», вам нужно разделить две гипотезы (я уже упоминал, мне нравится эта цитата: stats.stackexchange.com/questions/726/… ;))
Робин Джирард

@Robin p-значение теста значимости нулевой гипотезы - это вероятность увидеть как или более экстремальные данные, чем те, которые наблюдаются при условии, что нулевая гипотеза верна; но, возможно, я мог бы лучше сформулировать вышеприведенное утверждение.
Джером Энглим

@Robin Я изменил вопрос, чтобы попытаться прояснить мою точку зрения
Jeromy Anglim

Ответы:


20

Я думаю, что вы спрашиваете о проверке на эквивалентность . По сути, вам нужно решить, насколько велика разница для вас, чтобы все же сделать вывод, что две группы фактически эквивалентны. Это решение определяет 95% (или другие) доверительные интервалы, и расчеты размера выборки производятся на этой основе.

На эту тему есть целая книга .

Очень распространенным клиническим «эквивалентом» тестов эквивалентности является тест / испытание неполноценности . В этом случае вы «предпочитаете» одну группу над другой (установленный метод лечения) и разрабатываете свой тест, чтобы показать, что новый метод не уступает установленному режиму при некотором уровне статистических данных.

Я думаю, что мне нужно отдать должное Харви Мотульски за сайт GraphPad.com (в разделе «Библиотека» ).


16

Помимо уже упомянутой возможности какого-либо теста на эквивалентность , большинство из которого, насколько мне известно, в основном направляются по старой доброй частой традиции, существует возможность проведения тестов, которые действительно дают количественную оценку доказательств в пользу нуль-гипотезы, а именно байесовские тесты .

Реализация байесовского t-критерия может быть найдена здесь: Wetzels R., Raaijmakers, JGW, Jakab E., & Wagenmakers, E.-J. (2009). Как количественно оценить поддержку и против нулевой гипотезы: гибкая реализация WinBUGS байесовского t-теста по умолчанию. Psychonomic Bulletin & Review, 16, 752-760.

Существует также учебник о том, как сделать все это в R:

http://www.ruudwetzels.com/index.php?src=SDtest


Альтернатива (возможно, более современный подход) байесовского t-критерия представлена ​​(с кодом) в этой статье Крушке:

Крушке, JK (2013). Байесовская оценка заменяет t-критерий . Журнал экспериментальной психологии: общее , 142 (2), 573–603. DOI: 10,1037 / a0029146


Все реквизиты для этого ответа (до добавления Крушке) должен перейти к моему коллеге Дэвиду Келлену. Я украл его ответ на этот вопрос .


Мне было интересно, если кто-нибудь предоставит байесовский подход. Превосходно. Спасибо.
Джером Энглим

1
Возможно, стоит обновить этот ответ, включив в него ссылку на потрясающий пакет BayesFactor для R.
crsh

13

После ответа Тилаколео я провел небольшое исследование.

Пакет эквивалентности в R имеет tost()функцию.

См. Robinson and Frose (2004) « Проверка модели с использованием тестов эквивалентности » для получения дополнительной информации.


Спасибо за ссылку и указатель на equivalenceпакет.
ЧЛ

8

7

Недавно я подумал об альтернативном способе «проверки эквивалентности», основанном на расстоянии между двумя распределениями, а не между их средствами.

Существует несколько методов, обеспечивающих доверительные интервалы для перекрытия двух гауссовских распределений:enter image description here

O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1P2

O(P1,P2)>0.9P1P20.110%

μ1μ2

|μ1μ2|TV(P1,P2)

|μ1μ2|σ


Есть ли у вас какие - либо ресурсы , показывающие перекрытия быть использованы в некоторых реальных проблемах? Это звучит невероятно многообещающе, но мне не ясно, как можно было бы применить это в реальной проблеме (где ваши выводы потенциально удалены на несколько шагов из «этого дистрибутива очень похож на X»), что затрудняет понимание того, как это 10% ТВ переводит на величину влияния на умозаключения).
Stumpy Джо Пит

1
@StumpyJoePete Я написал что-то в том же духе в своем блоге: stla.github.io/stlapblog/posts/…
Стефан Лоран,

5

В медицинских науках предпочтительно использовать подход с доверительным интервалом, а не два односторонних теста (тост). Я также рекомендую составить график точечных оценок, КИ и априорно определенных полей эквивалентности, чтобы сделать вещи очень ясными.

Ваш вопрос, вероятно, будет решен с помощью такого подхода.

Рекомендации CONSORT для исследований неполноценности / эквивалентности весьма полезны в этом отношении.

См. Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ и CONSORT Group. Отчетность о рандомизированных исследованиях, не связанных с неполноценностью и эквивалентностью: расширение утверждения CONSORT. JAMA. 2006, 8 марта; 295 (10): 1152-60. (Ссылка на полный текст.)


1
Я не обязательно скажу, что доверительные интервалы предпочтительнее. Фактически доверительные интервалы соответствуют проверке гипотез. TOST может быть достигнуто путем просмотра доверительных интервалов, полученных путем пересечения двух односторонних доверительных интервалов, которые соответствуют двум односторонним t-тестам, которые используются в процедуре.
Майкл Р. Черник

4

Да. Это проверка эквивалентности. По сути, вы переворачиваете нулевую и альтернативную гипотезу и основываете размер выборки на мощности, чтобы показать, что разница средних находится в пределах окна эквивалентности. Блэквелдер назвал это «Доказательством нулевой гипотезы». Это обычно делается в фармацевтических клинических испытаниях, где проверяется эквивалентность генерического препарата продаваемому лекарственному средству или сравнивается одобренное лекарственное средство с новым препаратом (часто называемым биоэквивалентностью). Односторонняя версия называется неполноценностью. Иногда препарат может быть одобрен, просто показывая, что новый препарат не уступает рыночному конкуренту. Shao и Pigeot разработали последовательный подход начальной загрузки к биоэквивалентности, используя кроссовер.


0

Различия в начальной загрузке (например, разница между средними значениями) между двумя группами выборок и проверка статистической значимости. Более подробное описание этого подхода, хотя и в другом контексте, можно найти здесь http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/


1
Вы путаете ошибочность принятия нулевой гипотезы о разнице и находите доказательства того, что две величины эквивалентны .
Алексис
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.