Регресс по всему населению


10

Что означает стандартная ошибка коэффициента в регрессии, когда все население включено?

Я был так озадачен этим вопросом. Потому что, как мне кажется, стандартные ошибки не имеют смысла, когда включается все население - нет необходимости делать статистические выводы, поскольку у вас уже есть все население.

Но он так широко используется даже многими статьями, опубликованными в ведущих журналах. Например, если я изучаю взаимосвязь между темпами роста ВВП страны и ее плотностью населения, я запустил регрессию:

GDPi=α+βPopi+γXi+ϵi

со всеми 195 странами на земле. В случае, все страны (население) включены. Но вся литература до сих пор говорит о статистической значимости коэффициентов.

Может ли кто-нибудь объяснить, является ли это неправильным использованием статистического вывода при регрессии по всему населению?


На этот вопрос ответили в сети статистики. Смотрите здесь . В основном статистика не имеет никакого отношения. «Регрессия» - это чисто математическое устройство.
Лучоначо

@luchonacho Мое мнение таково, что этот вопрос здесь актуален в отношении контента, который у нас, естественно, частично совпадает с stats.SE). Я согласен, что это по сути дубликат, хотя. Я нашел обсуждение того, что делать с межсайтовыми дубликатами здесь: meta.stackexchange.com/questions/172307/…
jmbejara

@jmbejara Спасибо за ссылку. Хорошо знать.
Лучоначо

Это похоже на другую подходящую ссылку. В нем обсуждается смежный метод, называемый рандомизированным выводом, который обсуждается в Athey Imbens (2017). jasonkerwin.com/nonparibus/2017/09/25/…
jmbejara

Ответы:


4

Первоначально я пометил этот вопрос для модераторов, чтобы проверить, будет ли лучше перейти на сайт статистики SE Cross Validated. Но так как ОП представил очень специфический пример эконометрики, я считаю, что (очень глубокая) концепция «популяция / выборка» может быть с пользой обсуждена для целей этого примера.

Первый вопрос , который обсуждается в ответе @AdamBailey: если рассматривать «все страны мира» для данного года или года и помечать данные как «население», то следующий год должен принадлежать другому населению. Если он принадлежит к другой популяции, то как мы можем использовать результаты одной популяции, чтобы сделать вывод для другой популяции? Так что, действительно, здесь наше «население» является двумерным , страной и периодом времени - и в этом смысле, когда горизонт времени не ограничен, у нас в руках только образец.

GDPi,i=1,..n

Таким образом, наши данные являются лишь одной из возможных комбинированных реализаций этих случайных величин. Эти реализации возникли не только в результате детерминистических / инженерных отношений / причинности (отраженных в коэффициентах), но и под влиянием случайных факторов. В этом смысле данные не являются «чистым / типичным» изображением «населения» - они содержат шум, неструктурные помехи, разовые шоки и т. Д.

Затем эта неопределенность будет перенесена на оценку коэффициентов, которые мы пытаемся оценить, поскольку мы предполагаем, что эти коэффициенты описывают причинность или совместное движение до того, как случайные элементы влияют на конечное значение зависимой переменной.

В связи с обоими вышеупомянутыми аспектами, говорить о «стандартной ошибке оценок» вполне допустимо и в этом случае, а затем применять статистические тесты, как обычно.


5

Важно учитывать, что именно представляет население, для чего делается вывод. В этом контексте легко не заметить аспект времени.

Предположим, например, что цель состоит в прогнозировании ВВП на ближайшие два года для каждой страны в мире. Тогда совокупность интересов представляет собой набор пар вида «страна, год». Это не просто «все страны», и даже если прогнозная модель была оценена путем регрессии на данных текущего и прошлых лет для каждой страны, это не означает, что все население, представляющее интерес, было включено.

Если кто-то действительно начинает с полного набора данных для всей совокупности интересов, то все, что можно сделать, это вычислить итоговую статистику. Это может включать стандартные отклонения, но было бы неуместно называть эти стандартные ошибки, поскольку этот термин относится к распределению выборки, тогда как единственной «выборкой» в этом случае является целая совокупность.


Большое спасибо. Просто чтобы прояснить ситуацию, я обновил вопрос: «все страны» в этом случае считаются целым населением? Если нет, то это означает, что они являются «образцами» некоторого «сверхпопуляционного населения» - предположим, что в «параллельной вселенной» есть миллионы стран, и 195 стран на Земле независимо и одинаково распределены между ними и случайным образом Разве это не слишком надуманное предположение?
Акира Осава
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.