Являются ли большие наборы данных неподходящими для проверки гипотез?


129

В недавней статье в Amstat Новости , авторы (Марк ван дер Лан и Шерри Роуз) заявил , что «Мы знаем , что для достаточно больших размеров выборки, каждое исследование, в том числе те , в которых нулевая гипотеза об отсутствии эффекта верно - будет объявить статистически значимый эффект.

Ну, я, например, этого не знал. Это правда? Означает ли это, что проверка гипотез бесполезна для больших наборов данных?


10
+1: этот вопрос обычно выставляет некоторые интересные точки зрения.
user603 9.09.10

7
Более подробное обсуждение больших наборов данных можно найти на stats.stackexchange.com/q/7815/919 . (Основное внимание уделяется регрессионному моделированию.)
whuber


8
Если большая выборка заставляет вас думать, что тестирование гипотез было неправильным инструментом, то тестирование гипотез на самом деле не отвечало на правильный вопрос и на небольших выборках - что оно было неправильным, просто стало более очевидным при больших выборках, но те же соображения актуальны , Если значительный результат при очень малой величине эффекта заставляет вас сказать: «Ну, это не то, что я хотел, я хотел, чтобы он сказал мне, если это важно», тогда проверка гипотез была просто неправильным инструментом для начала. Для такого рода проблем есть более подходящие инструменты (например, доверительные интервалы, тесты на эквивалентность и т. Д.).
Glen_b

Ответы:


91

Это не верно. Если нулевая гипотеза верна, она не будет отклоняться чаще при больших размерах выборки, чем при небольшой. Существует ошибочный коэффициент отклонения, который обычно устанавливается равным 0,05 (альфа), но он не зависит от размера выборки. Таким образом, буквально утверждение является ложным. Тем не менее, возможно, что в некоторых ситуациях (даже целых полях) все нули являются ложными и, следовательно, все будут отклонены, если N достаточно велико. Но разве это плохо?

Что верно, так это то, что тривиально малые эффекты могут быть «значительными» при очень больших размерах выборки. Это не означает, что у вас не должно быть таких больших выборок. Это означает, что то, как вы интерпретируете результаты, зависит от величины эффекта и чувствительности теста. Если у вас очень маленький размер эффекта и высокочувствительный тест, вы должны признать, что статистически значимые результаты могут не иметь смысла или быть полезными.

Учитывая, что некоторые люди не верят, что проверка нулевой гипотезы, когда нулевое значение истинно , всегда имеет частоту ошибок, равную точке отсечения, выбранной для любого размера выборки, вот простая симуляция для Rдоказательства этой точки. Сделайте N настолько большим, насколько вам нравится, и частота ошибок типа I останется постоянной.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

8
+1: действительно, все три ответа здесь логически согласуются друг с другом.
user603 9.09.10

1
Наконец, я нашел разоблачение того, что профессор (не статистик) сказал мне давным-давно.
Джейс

1
@Sympa, нет. Тот факт, что SE снижается при увеличении N, не означает, что вы всегда найдете эффект с большим N (см. Моделирование). Имейте в виду, что по мере снижения SE качество оценки эффекта возрастает. Если эффект популяции отсутствует, то гораздо вероятнее, что он будет близок к 0 и не покажет разницы. Фактически, распределение значений p является плоским независимо от размера выборки, когда значение равно нулю (напишите для этого собственную имитацию). Там нет противоречия в ответе.
Джон

4
Тогда ты ошибаешься. Возможно, вы захотите прочитать и другие ответы здесь. Поскольку вы не можете проследить взаимосвязь между моделированием и проверкой гипотез, я полагаю, что могу лишь указать на ваше основное утверждение о том, что при уменьшении стандартной ошибки t возрастает, а p снижается. Это верно только в том случае, если эффект остается постоянным. Но эффект является случайной выборкой, и когда истинный эффект равен 0, тогда, когда N увеличивается, наблюдаемый эффект имеет тенденцию к снижению. Следовательно, даже если N увеличивает SE, оно уменьшается, оно не будет увеличивать значения t, поскольку числитель в значении t также будет меньше.
Джон

1
Тот факт, что rnorm не может произвести иррациональное число, не имеет значения в данном примере. Даже если он не выводит точно нормально из среднего значения 0 и sd из 1, это не так нормально для обоих образцов. Уровень ошибок типа I может быть немного ниже 0,05, но он должен оставаться постоянным независимо от N. И это не относится ко всем симуляциям, так как я мог бы выбрать дискретное, где это не проблема. (Если вы действительно хотели поднять эзотерическую проблему, вам следовало бы рассмотреть псевдослучайность.)
Джон

31

Я согласен с ответами, которые появились, но хотел бы добавить, что, возможно, вопрос может быть перенаправлен. Проверять гипотезу или нет - это вопрос исследования, который должен, по крайней мере в целом, быть независимым от объема данных. Если вам действительно нужно проверить гипотезу, сделайте это, и не бойтесь вашей способности обнаруживать небольшие эффекты. Но сначала спросите, входит ли это в ваши цели исследования.

Теперь для некоторых придирок:

  • Некоторые нулевые гипотезы абсолютно верны по построению. Когда вы тестируете, например, генератор псевдослучайных чисел для равнораспределения, и этот PRG действительно равнораспределен (что было бы математической теоремой), то имеет место нулевое значение. Вероятно, большинство из вас может подумать о более интересных реальных примерах, возникающих в результате рандомизации в экспериментах, где лечение действительно не имеет никакого эффекта. (Я бы протянул всю литературу по esp в качестве примера. ;-)

  • В ситуации, когда «простой» ноль тестируется по сравнению с «сложной» альтернативой, как в классических t-тестах или z-тестах, обычно требуется размер выборки, пропорциональный чтобы определить величину эффекта . Существует практическая верхняя граница для этого в любом исследовании, подразумевая, что есть практическая нижняя граница для обнаруживаемой величины эффекта. Итак, теоретически дер Лаан и Роуз верны, но мы должны позаботиться о применении их заключения. ϵ1/ϵ2ϵ


Разве все это не является причиной ошибки типа I по сравнению с ошибкой типа II (или мощностью)? Если зафиксировать вероятность ошибки типа I ( ) на уровне 0,05, то, очевидно (за исключением дискретного случая), будет 0,05, независимо от того, велика выборка или нет. Но для данной вероятности ошибки типа I 0,05, например, мощность или вероятность того, что вы обнаружите эффект, когда он есть, больше для больших размеров выборки. α

@fcop Ваши комментарии, хотя и правильные, похоже, направлены на другие ответы. Они упускают суть этого, который предполагает, что не все статистические анализы должны быть проверкой гипотезы. Ошибки типа I и II имеют значение только при проведении формальных проверок гипотез.
whuber

ОП ссылается на утверждение: «Мы знаем, что при достаточно больших размерах выборки каждое исследование, включая те, в которых нулевая гипотеза не оказывает влияния на истинность, будет объявлять статистически значимый эффект». Таким образом, если вы проверяете, например, против тогда в больших выборках мощность настолько высока, что вы «обнаруживаете» даже небольшие отклонения от 1. Поэтому я думаю, что их утверждение неверно, но эта мощность в больших выборках позволяет вам обнаружить очень маленькие различия. H 1 : μ 1H0:μ=1H1:μ1

@fcop Спасибо, что объяснили. Я согласен с вашими рассуждениями: когда значение NULL истинно, тогда даже большие исследования обнаружат значительный эффект с вероятностью, максимально равной размеру их теста, то есть они вряд ли найдут значительный эффект.
whuber

19

Тестирование гипотез традиционно фокусировалось на значениях р для получения статистической значимости, когда альфа менее 0,05 имеет существенную слабость. И это то, что при достаточно большом размере выборки любой эксперимент может в конечном итоге отвергнуть нулевую гипотезу и обнаружить незначительные различия, которые оказываются статистически значимыми.

По этой причине фармацевтические компании структурируют клинические испытания для получения одобрения FDA с очень большими образцами. Большая выборка уменьшит стандартную ошибку до нуля. Это, в свою очередь, искусственно увеличит t-стат и соразмерно снизит значение p до 0%.

Я собираюсь в научных сообществах, которые не подвержены экономическим стимулам и связанным с ними конфликтам интересов. Тестирование гипотез переходит от любых измерений p-значения к измерениям Effect Size. Это связано с тем, что единицей статистического расстояния или дифференцирования в анализе размера эффекта является стандартное отклонение, а не стандартная ошибка. И стандартное отклонение полностью не зависит от размера выборки. С другой стороны, стандартная ошибка полностью зависит от размера выборки.

Таким образом, любой, кто скептически относится к проверке гипотез, получая статистически значимые результаты, основанные на больших выборках и методологиях, связанных с p-значением, имеет право быть скептиком. Им следует повторить анализ, используя те же данные, но вместо этого использовать статистические тесты Effect Size. И затем проследите, считается ли размер эффекта материальным или нет. Таким образом, вы можете заметить, что куча различий, которые являются статистически значимыми, связаны с несущественным размером эффекта. Это то, что иногда имеют в виду исследователи, когда результат статистически значим, но не «клинически значим». Под этим подразумевается, что одно лечение может быть лучше, чем плацебо, но разница настолько незначительна, что не будет иметь никакого значения для пациента в клиническом контексте.


1
Большой образец одного человека - маленький образец другого. :)
Итератор

3
Разве вы не задали неправильный вопрос тогда? Может быть, процесс одобрения FDA должен определять больший выигрыш по сравнению с плацебо (возможно, связанный с затратами на лекарство, включая его побочные эффекты), а не просто требовать статистической значимости? Потому что вполне может быть реальная разница, хотя и очень маленькая, и эта разница была статистически значимой, какой бы маленькой она ни была.
Эмиль Викстрем

FDA не требует «просто статистической значимости». Это было бы абсурдно. Все в отрасли понимают, что означает «клинически значимый». FDA взвешивает статистические данные об эффективности препарата, измеренные по клиническим конечным точкам, таким как ремиссия, с точки зрения здоровья и безопасности. Пожалуйста, прочитайте рекомендации FDA, прежде чем делать необоснованные утверждения.
qwr

15

Тест гипотез (частых), точно, решает вопрос о вероятности наблюдаемых данных или что-то более экстремальное, вероятно, предполагая, что нулевая гипотеза верна. Эта интерпретация безразлична к размеру выборки. Эта интерпретация действительна, независимо от того, имеет ли образец размер 5 или 1 000 000.

Важным предупреждением является то, что тест имеет отношение только к ошибкам выборки. Любые ошибки измерения, проблемы с выборкой, охват, ошибки ввода данных и т. Д. Выходят за рамки ошибки выборки. По мере увеличения размера выборки ошибки, не связанные с выборкой, становятся более влиятельными, поскольку небольшие отклонения могут привести к значительным отклонениям от модели случайной выборки. В результате тесты значимости становятся менее полезными.

Это никоим образом не является показателем значимости тестирования. Тем не менее, мы должны быть осторожны с нашими атрибутами. Результат может быть статистически значимым. Тем не менее, мы должны быть осторожны с тем, как мы делаем атрибуцию, когда размер выборки велик. Является ли это различием из-за нашего предположительного процесса генерации с учетом ошибки выборки или это является результатом какой-либо из множества возможных ошибок, не связанных с выборкой, которые могут повлиять на статистику теста (которую статистика не учитывает)?

Еще одним соображением, касающимся больших выборок, является практическая значимость результата. Значительный тест может предложить (даже если мы можем исключить ошибку, не связанную с выборкой) разницу, которая в практическом смысле тривиальна. Даже если этот результат маловероятен с учетом модели выборки, имеет ли он значение в контексте проблемы? Учитывая достаточно большую выборку, разница в несколько долларов может быть достаточной для получения статистически значимого результата при сравнении доходов между двумя группами. Это важно в каком-то значимом смысле? Статистическая значимость не может заменить здравый смысл и знание предмета.

Кроме того, ноль не является ни истинным, ни ложным. Это модель. Это предположение. Мы предполагаем, что нулевое значение истинно, и оцениваем нашу выборку с точки зрения этого предположения. Если наша выборка будет маловероятной, учитывая это предположение, мы больше доверяем нашей альтернативе. Вопрос о том, является ли нулевое значение когда-либо истинным на практике, является неправильным пониманием логики проверки значимости.


3
Это поддерживает аргумент в пользу увеличения сложности модели, поскольку размеры выборки становятся большими - в случае большой выборки ошибка выборки больше не является доминирующим источником неопределенности. Конечно, это только «имеет смысл» в байесовской структуре, которая допускает другие источники неопределенности, кроме ошибки выборки.
вероятностная

13

Одно простое замечание, не сформулированное непосредственно в другом ответе, заключается в том, что просто неверно, что «все нулевые гипотезы являются ложными».

Простая гипотеза о том, что у физической монеты вероятность головы точно равна 0,5, это неверно.

Но сложная гипотеза о том, что физическая монета имеет вероятность головы больше 0,499 и меньше 0,501, может быть верной. Если это так, ни один тест гипотезы - независимо от того, сколько монет выпало в нее - не сможет отклонить эту гипотезу с вероятностью, большей (тесты связаны с ложными срабатываниями).α

α


9

В определенном смысле [все] многие нулевые гипотезы [всегда] ложны (группа людей, живущих в домах с нечетными числами, никогда не зарабатывает в среднем точно так же, как группа людей, живущих в домах с четными числами).

Tαn0.5Tααn

Это не дефект статистических тестов. Просто следствие того факта, что без дополнительной информации (априорной) у нас есть большое количество мелких несоответствий с нулем, которые должны быть приняты в качестве доказательства против нуля. Неважно, насколько банальными окажутся эти несоответствия.

P^(|μ¯1μ¯2|2>η|η,X)


Это странно ... интуитивно кажется, что это противоречит Закону больших чисел.
Карлос Аккиоли

Карлос:> Вы можете быть более конкретным?
user603 9.09.10

n

1
@Carlos - но конвергенция не означает равенство; это гарантировано только для недостижимого предела бесконечности. Так что нет никакого противоречия ;-)

5

Короткий ответ - нет". Исследования по проверке гипотез в асимптотическом режиме бесконечных наблюдений и множественных гипотез были очень и очень активными в последние 15-20 лет из-за использования данных на основе микрочипов и финансовых данных. Длинный ответ находится на странице курса Стат 329, «Крупномасштабный Одновременный вывод», преподанный в 2010 году Брэдом Эфроном. Целая глава посвящена крупномасштабная проверка гипотез.


7
Я считаю, что книга Эфрона фокусируется на большом количестве переменных (и возникающих в результате многочисленных проблем тестирования), а не на размере выборки.
Галит Шмуэли

4

Проверка гипотезы для больших данных должна учитывать желаемый уровень различия, а не то, есть ли разница или нет. Вас не интересует H0, что оценка точно равна 0. Общий подход состоял бы в том, чтобы проверить, больше ли разница между нулевой гипотезой и наблюдаемым значением, чем данное пороговое значение.

X1¯>X2¯

T=X1¯X2¯δS2n+δS2nN(δS2n,1)
T=X1¯X2¯S2nN(δS2n,1)

H0:X1¯X2¯=δ

X1¯X2¯δS2nN(0,1)

HAX1¯X2¯>δ

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Который дает :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100 

в первом уравнении нет копий / прошлых опечаток?
user603 10.09.10

Я этого не вижу?
Джорис Мейс

4

«Значит ли это, что проверка гипотез бесполезна для больших наборов данных?»

Нет, это не значит. Общее сообщение состоит в том, что решения, принимаемые после проведения проверки гипотезы, должны всегда учитывать предполагаемый размер эффекта, а не только значение p. В частности, в экспериментах с очень большими размерами выборки необходимость учитывать размер эффекта становится существенной. Конечно, в общем, пользователям это не нравится, потому что процедура становится менее «автоматической».

Рассмотрим этот пример моделирования. Предположим, у вас есть случайная выборка из 1 миллиона наблюдений из стандартного нормального распределения,

n <- 10^6
x <- rnorm(n)

0.01

y <- rnorm(n, mean = 0.01)

95%2.5×1014

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

95%[0.013,0.008]

Является ли различие между двумя популяционными средствами этого порядка значимым для конкретной проблемы, которую мы изучаем, или нет?


Я согласен со всем в вашем ответе, за исключением первого предложения, которое я бы изменил на «Да, обычно это означает», потому что при больших выборках в миллион или около того размеры эффекта ТАК малы.
zbicyclist

α

3

HST:d1=1.23,d2=1.11,di

Но обычно эти гипотезы не интересуют. Если вы подумаете о том, что вы на самом деле хотите сделать с помощью теста на гипотезы, вы скоро поймете, что вам следует отвергать нулевую гипотезу только в том случае, если у вас есть что-то лучшее, чтобы заменить ее. Даже если ваш ноль не объясняет данные, нет смысла выбрасывать их, если у вас нет замены. Теперь вы всегда заменяете ноль гипотезой "верная вещь"? Вероятно, нет, потому что вы не можете использовать эту гипотезу «уверенная вещь» для обобщения за пределами вашего набора данных. Это не намного больше, чем распечатка ваших данных.

Итак, что вы должны сделать, это указать гипотезу, что вы на самом деле были бы заинтересованы в действии, если бы они были правдой. Затем проведите соответствующий тест для сравнения этих альтернатив друг с другом, а не с каким-то несоответствующим классом гипотез, которые, как вы знаете, являются ложными или непригодными.

H0:μ=0H1:μ{±1,±2,±3,±4,±5,±6}0.5100

По сути, вывод заключается в том, что вам нужно указать пространство своих гипотез - те гипотезы, которые вас действительно интересуют. Похоже, что с большими данными это становится очень важной вещью, просто потому, что ваши данные имеют так много разрешающей способности. Также кажется, что важно сравнивать как гипотезу - точка с точкой, соединение с соединением - чтобы получить результаты с хорошим поведением.


3

Нет. Это правда, что все полезные точечные гипотезы согласованы и, таким образом, покажут значительный результат, если только размер выборки достаточно велик и существует некоторый не относящийся к делу эффект. Чтобы преодолеть этот недостаток проверки статистических гипотез (уже упомянутых выше в ответе Гаэтанского Льва), существуют тесты на релевантность. Они похожи на тесты эквивалентности, но еще менее распространены. Для теста релевантности заранее указывается размер минимального релевантного эффекта. Тест релевантности может основываться на доверительном интервале для эффекта: если доверительный интервал и область релевантности не пересекаются, вы можете отклонить нулевое значение.

Однако ван дер Лаан и Роуз предполагают в своем утверждении, что даже истинные нулевые гипотезы проверяются в исследованиях. Если нулевая гипотеза верна, вероятность отклонить не больше, чем альфа, особенно в случае больших выборок и даже неправильно определенных. Я могу только видеть, что распределение выборок систематически отличается от распределения населения,


3

В статье, о которой вы упомянули, есть верный смысл в том, что касается стандартных тестов на частоту. Вот почему тестирование для данного размера эффекта очень важно. Чтобы проиллюстрировать, вот анова между 3 группами, где группа B немного отличается от группы A и C. попробуйте это в r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Как и ожидалось, при большем количестве образцов на тест статистическая значимость теста увеличивается: введите описание изображения здесь


2

Я думаю, что они имеют в виду, что часто делают предположение о плотности вероятности нулевой гипотезы, которая имеет «простую» форму, но не соответствует истинной плотности вероятности.

Теперь с небольшими наборами данных у вас может не хватить чувствительности, чтобы увидеть этот эффект, но с достаточно большим набором данных вы отвергнете нулевую гипотезу и придете к выводу, что существует новый эффект, вместо того чтобы заключить, что ваше предположение о нулевой гипотезе неверно.


1
Я не знаю, имели ли вы в виду Марк и Шерн, но просто перефразирую вашу точку зрения - если модель для данных с нулевым значением является «неправильной», то вы отклоните нулевую гипотезу для достаточно больших данных.

1

α

H0H1

Мощность увеличивается с размером выборки (при прочих равных условиях).

Но утверждение, что «мы знаем, что для достаточно больших размеров выборки каждое исследование, включая те, в которых нулевая гипотеза не оказывает влияния, является правдоподобным, объявляет статистически значимый эффект». это неверно.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.