Что случилось со статистической значимостью в регрессии, когда размер данных гигантский?


13

Я читал этот вопрос о крупномасштабной регрессии ( ссылка ), где Уубер указал на интересный момент:

«Практически любой выполняемый вами статистический тест будет настолько мощным, что почти наверняка будет выявлен« значительный »эффект. Вы должны уделять больше внимания статистической значимости, такой как величина эффекта, а не значимость».

--- whuber

Мне было интересно, может ли это быть чем-то, что может быть доказано, или просто обычным явлением на практике?

Любой указатель на доказательство / обсуждение / симуляцию будет действительно полезным.


1
Размер эффекта имеет значение. (+1 к ответу Glen_b). Для краткого примера: если бы мы страдали ожирением, мы бы не изменили нашу существующую диету на новую, более дорогую, если бы она приводила к потере веса на 0,05 кг через месяц, даже если она имела значение . Мы все еще были бы тучными, только беднее. Насколько нам известно, такое незначительное снижение веса может быть связано только с тем, что медицинская клиника ведет запись с места здания без лифта на четвертый этаж того же здания. (Хороший вопрос + 1)0,0000000001p0.0000000001
usεr11852

Ответы:


10

Это довольно много общего.

Представьте, что есть небольшой, но ненулевой эффект (т. Е. Некоторое отклонение от нуля, которое может определить тест).

При малых размерах выборки вероятность отклонения будет очень близка к частоте ошибок типа I (шум влияет на небольшой эффект).

По мере увеличения размеров выборки предполагаемый эффект должен сходиться к этому эффекту совокупности, в то же время неопределенность оценочного эффекта уменьшается (обычно как ) до тех пор, пока вероятность того, что нулевая ситуация будет достаточно близка к предполагаемому эффекту, что она все еще вероятна в случайно выбранной выборке из совокупности, не уменьшится практически до нуля.n

То есть, с точечными нулями, в конечном итоге отклонение становится неизбежным, потому что практически во всех реальных ситуациях всегда будет какое-то отклонение от нуля.


«... потому что почти во всех реальных ситуациях всегда есть некоторое отклонение от нуля». Так оно и есть, и его даже можно увидеть. Это было бы довольно хорошим свойством или нет?
Триларион,

«Нуль» здесь относится к нулевой гипотезе о том, что коэффициент равен нулю?
Араш Ховайда

Я думаю, что ответ Glen_b является общим и применимым к любой проверке гипотез с нулевой точкой. В контексте регрессии, да, ноль в том, что коэффициент равен нулю. Мое собственное понимание, хотя ...
Bayesric

4

Это не доказательство, но нетрудно показать влияние размера выборки на практике. Я хотел бы использовать простой пример из Wilcox (2009) с небольшими изменениями:

H0:μ50α=.05

Мы можем использовать t-тест для этого анализа:

T=X¯μos/n

X¯s

T=455011/10=1.44.

Если вы посмотрите на таблицу, содержащую критические значения распределения Стьюдента с ν степенями свободыtν , вы увидите, что для , Pv=101P(T1.83)=.05T=1.44

T=455011/100=4.55

Для , P (v=1001P(T1.66)=.05 - оценка стандартной ошибки среднего. Таким образом, вы можете увидетькак подобная интерпретация применяется, например, гипотеза тесты на коэффициенты регрессии получены в линейной регрессии, гдеT= & beta ; Js/nT=β^jβj(0)se(β^j)


Wilcox, RR, 2009. Базовая статистика: понимание традиционных методов и современных представлений . Издательство Оксфордского университета, Оксфорд.


1
Спасибо за ответ. Ваш ответ содержит конкретную демонстрацию ответа Glen_b: когда размер выборки очень большой, крошечное отклонение от нуля (на практике всегда есть крошечное отклонение) будет воспринято как значительный эффект.
Bayesric

2

В регрессии, для общей модели, тест на F. Здесь

F=RSS1RSS2p2p1RSS2np2
RSS1RSS2

1
Спасибо за ответ. Однако я скептически отношусь к тому, что «когда N становится больше, F становится больше»; когда N увеличивается, RSS2 также увеличивается, мне не ясно, почему F станет больше.
Bayesric

@Peter Flom это нереально, но вы можете посмотреть здесь stats.stackexchange.com/questions/343518/…
user3022875
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.