Семейная граница ошибок: приводит ли повторное использование наборов данных в различных исследованиях независимых вопросов к множественным проблемам тестирования?

Если группа исследователей выполняет множественные (гипотезные) тесты на заданном наборе данных, существует большой объем литературы, в которой утверждается, что они должны использовать некоторую форму коррекции для множественного тестирования (Bonferroni и т. Д.), Даже если тесты независимы. У меня такой вопрос: применяется ли эта же логика к нескольким группам, проверяющим гипотезы на одном и том же наборе данных? Сказал другой путь - каков барьер для семейных ошибок? Должны ли исследователи ограничиваться повторным использованием наборов данных только для исследования?

hypothesis-testing multiple-comparisons

— toypajme
источник

Ответы:

Я категорически не согласен с прыжком @fcoppens от признания важности исправления множественных гипотез в рамках одного исследования к утверждению, что «По одним и тем же рассуждениям, то же самое справедливо, если несколько команд выполняют эти тесты».

Нет сомнений в том, что чем больше будет выполнено исследований и чем больше гипотез будет проверено, тем больше будет ошибок типа I. Но я думаю, что здесь есть путаница по поводу значения «семейных ошибок» и того, как они применяются в реальной научной работе.

Во-первых, помните, что исправления множественного тестирования, как правило, возникали в последующих сравнениях, для которых не было заранее сформулированных гипотез. Совсем не ясно, требуются ли такие же исправления при наличии небольшого заранее определенного набора гипотез.

Во-вторых, «научная правда» отдельной публикации не зависит от истинности каждого отдельного утверждения в публикации. Хорошо спланированное исследование подходит к общей научной (в отличие от статистической) гипотезе с разных точек зрения и объединяет различные типы результатов для оценки научной гипотезы. Каждый отдельный результат может быть оценен статистическим тестом.

Однако, по аргументу @fcoppens, если хотя бы один из этих отдельных статистических тестов совершил ошибку I типа, то это привело бы к «ложному убеждению в« научной истине »». Это просто неправильно.

«Научная истинность» научной гипотезы в публикации, в отличие от достоверности отдельного статистического теста, как правило, происходит из комбинации различных типов доказательств. Упорство на нескольких типах доказательств делает достоверность научной гипотезы устойчивой к отдельным ошибкам, которые неизбежно происходят. Когда я оглядываюсь на свои 50 или около того научных публикаций, мне будет трудно найти любую, которая остается настолько безупречной в каждой детали, на которую, похоже, настаивает @fcoppens. Но я так же трудно найти какой - либо , где научныйгипотеза была совершенно неверной. Возможно, неполное; сделал несоответствующим последующим событиям в этой области, конечно. Но не «неправильно» в контексте состояния научных знаний того времени.

В-третьих, аргумент игнорирует затраты на ошибки типа II. Ошибка типа II может закрыть целые области многообещающих научных исследований. Если бы следовали рекомендациям @fcoppens, частота ошибок типа II значительно возросла бы в ущерб научному предприятию.

Наконец, рекомендации невозможно выполнить на практике. Если я проанализирую набор общедоступных данных, у меня не будет возможности узнать, использовал ли их кто-то еще или для какой цели. У меня нет возможности исправить чьи-либо проверки гипотез. И, как я утверждаю выше, я не должен был.

— магистр педагогических наук
источник

Я дал вопрос щедрость, потому что я хотел поставить его «заранее». Причина, по которой я хотел сделать это, заключалась в том, что я думаю, что этому не уделяется достаточного внимания, и тому, и этому - очевидно, как я понял из своего ответа, - больше нет «никаких дискуссий» по этому поводу. Как видно, это может быть интересное обсуждение, поэтому вы получите (+1)

@fcoppens спасибо за то, что принесли это "заранее"

— EdM

После этой публикации я наткнулся на замечательную статью Зальцберга, посвященную этой теме, которая называется «О сравнении классификаторов: ошибки, которых следует избегать, и рекомендуемый подход» ( cs.ru.nl/~tomh/onderwijs/lrs/lrs_files/salzberg97comparing. pdf ) Я ценю обсуждение. Этот тип вопросов поднимает пропасть между статистикой и машинным обучением / другими прикладными областями, которая обсуждалась в этом посте: stats.stackexchange.com/questions/1194/… ....

— toypajme

Статья Бреймана также посвящена этой теме: projecteuclid.org/euclid.ss/1009213726 . Я надеюсь, что эти документы могут послужить легкой ссылкой для тех, кто интересуется текущими исследованиями и опубликованными дискуссиями по этой теме.

— toypajme

α = 0.05

$\alpha=0.05$

$\alpha=5\%$ $H_0^{(1)}$ $H_1^{(1)}$ $H_0^{(2)}$ $H_1^{(2)}$

$H_0^{(1)}$ $\alpha=5\%$

$1 - (1-\alpha)^2$ $\alpha=5\%$ $9.75\%$

В тестировании статистической гипотезы можно найти только статистическое подтверждение альтернативной гипотезы, отвергнув нулевое значение, отклонив нулевое, можно сделать вывод, что существуют доказательства в пользу альтернативной гипотезы. (см. также Что следует, если мы не сможем отвергнуть нулевую гипотезу? ).

Таким образом, ложное отклонение нулевого дает нам ложное доказательство, поэтому ложное убеждение в «научной истине». Вот почему следует избегать этой инфляции типа I (почти удвоения ошибки типа I); ошибки более высокого типа I предполагают больше ложных убеждений в том, что что-то научно доказано . Поэтому люди «контролируют» тип Ierror на уровне семьи.

$5\%$

По тем же соображениям, то же самое верно, если несколько команд выполняют эти тесты (на тех же данных).

Очевидно, что приведенные выше результаты верны только в том случае, если мы работаем над одними и теми же данными . Чем отличается то, когда они работают на разных образцах?

$\sigma$ $H_0: \mu = 0$ $H_1: \mu \ne 0$ $\alpha=5\%$

$o$ $1.96\sigma$ $-1.96\sigma$

$5\%$ $H_0$ $H_0$ $\mu=0$ $H_0$ $o \not \in [-1.96\sigma;1.96\sigma$ $H_0$

Поэтому, если мы используем те же данные, возможно, что выводы тестов основаны на выборке, которая была составлена с «плохим шансом». С другим примером контекст другой.

— Сообщество
источник

Я не фанат использования «доказательств» в отношении научных доказательств.

— Алексис

@Alexis: это конечно потому, что английский не является моим родным языком, но я подумал, что «доказательства» и «доказательства» больше похожи на синонимы, но это не так?

Формальное «доказательство», на мой взгляд, принадлежит математике. Или, менее формально, принадлежит юриспруденции. Для меня доказательство не принадлежит науке, потому что это подразумевает конец исследования и начало догмы, а наука в основном касается исследования. Например, в английском (и в США) у нас есть риторическая игра, в которой люди, выступающие против эволюции, скажут: «биологическая эволюция - это просто теория, и она не была научно доказана ». Конечно, хитрость заключается в том, чтобы заставить слушателей забыть, что наука никогда не доказывает, а только предоставляет доказательства.

— Алексис