Что вы можете сделать, когда у вас есть предикторные переменные, основанные на средних значениях группы с различными размерами выборки?

Рассмотрим классическую задачу анализа данных, где у вас есть результат и как он связан с рядом предикторов . Основным типом приложения здесь является то, что $Y_{i}$ $X_{i1}, ..., X_{ip}$

$Y_{i}$ - это некоторый результат на уровне группы, например, уровень преступности в городе . $i$
Предикторами являются характеристики группового уровня, такие как демографические характеристики города $i$ .

Основная цель - подогнать регрессионную модель (возможно, со случайными эффектами, но пока забудьте об этом):

E (Y_{i} | X_{i}) = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p}

$E(Y_{i} | {\bf X}_{i} ) = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip}$

Возникают ли какие-то технические трудности, когда один (или более) предикторов являются результатом опроса, который имеет разные размеры выборки для каждой единицы? Например, предположим, что $X_{i1}$ - это итоговый балл по городу $i$ который представляет собой средний ответ по выборке людей из города $i$ но размеры выборки, на которых основывались эти средние значения, сильно отличаются:

\begin{array}{cc} C i t y & S a m p l e s i z e \\ 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ ⋮ & ⋮ \end{array}

$\begin{array}{c|c} {\rm City} & {\rm Sample \ size} \\ \hline 1 & 20 \\ 2 & 100 \\ 3 & 300 \\ 4 & 5 \\ 5 & 3 \\ \vdots & \vdots \\ \end{array}$

Поскольку переменные-предикторы не имеют одинакового значения, в некотором смысле, для каждого города, я боюсь, что обусловливание этих переменных в регрессионной модели, как будто все они «созданы равными», может вызвать некоторые вводящие в заблуждение выводы.

Есть ли название для этого типа проблемы? Если да, то есть ли исследование, как справиться с этим?

Моя мысль - рассматривать ее как переменную предиктора, измеренную с ошибкой, и делать что-то в этом направлении, но в погрешностях измерения есть гетероскедастичность, так что это будет очень сложно. Я мог бы думать об этом неправильно или делать это более сложным, чем это, но любое обсуждение здесь было бы полезно.

regression measurement-error errors-in-variables

— макрос
источник

Это называется проблемой «гетероскедастических ошибок в переменных». (Эта фраза является хорошей целью для поиска в Google.) Недавно (2007 г.) Делагл и Мейстер предложили непараметрическую оценку плотности ядра в статье JASA . Аннотация о некоторых параметрических методах (метод моментов и MLE) предлагает некоторые дополнительные подходы: sciencedirect.com/science/article/pii/S1572312709000045 . (Я недостаточно знаком с исследованием, чтобы дать вам авторитетный ответ о том, как обращаться с вашим конкретным набором данных.)

— whuber

@whuber +1 для обоих комментариев. Я думаю, что "ошибки в переменных" было пропущенным ключевым словом, которое я искал. Если ниже никто не даст убедительного ответа, который я мог бы принять, я посмотрю литературу и вернусь, чтобы опубликовать то, что я в итоге получу как ответ.

— Макро

Ответы:

Статья «Модель гетероскедастических структурных ошибок в переменных с ошибкой уравнения» можно скачать на странице автора:

http://www.ime.usp.br/~patriota/curriculo-eng.html#Published_papers

в основном вы должны учитывать изменчивость обеих переменных, чтобы избежать противоречивых оценок, ненадежных проверок гипотез и доверительных интервалов.

— Александр патриота
источник

Один из способов справиться с этим - предположить, что в каждом городе есть распределение с одинаковой дисперсией для отдельных ответов. Тогда среднее измерение каждого города для предиктора будет иметь дисперсию , где - это число людей в среднем по городу . Это был бы простой способ справиться с гетероскедастичностью. Я не знаю никакого специального названия для этой формы проблемы регрессии. $σ^2$ $X_i$ $σ^2/n_i$ $n_i$ $i$

— Майкл Р. Черник
источник

Это кажется разумным, хотя я надеялся вообще избежать моделирования ошибки измерения. Если бы я пошел в этом направлении, что бы вы использовали для оценки влияния предиктора, измеренного с ошибкой? Я использовал один метод под названием SIMEX, но это кажется необычным, и мне интересно, есть ли другие варианты.

— Макро

@Macro Я не знаком со специальным программным обеспечением для моделирования регрессии с функцией дисперсии для оценки.

— Майкл Р. Черник

Макрос, как правило, в регрессии гомоскедастических ошибок в переменных, если ошибки в IV небольшие по сравнению с ошибками в DV, вы можете спокойно игнорировать первый и прибегнуть к обычной регрессии. Это дает вам быстрый и простой способ решить проблему.

— whuber

@ whuber, спасибо - это полезно. Кажется, что если это эмпирическое правило имеет смысл, то в случае гетероскедастичности имело бы смысл использовать «если наибольшая дисперсия ошибок в IV мала по сравнению с дисперсией ошибок в DV, вы можете спокойно проигнорировать проблему» разумное правило, которое является условием, которое может быть действительно выполнено в данных, на которые я смотрю.

— Макро

σ^{2} \approx 1

$\sigma^2 \approx 1$

\approx 1 / n

$\approx 1/n$

(.05, 1)

$(.05,1)$

Y_{i}

$Y_i$