Рассмотрим классическую задачу анализа данных, где у вас есть результат и как он связан с рядом предикторов . Основным типом приложения здесь является то, что Х я 1 , . , , , Х я р
- это некоторый результат на уровне группы, например, уровень преступности в городе .
Предикторами являются характеристики группового уровня, такие как демографические характеристики города .
Основная цель - подогнать регрессионную модель (возможно, со случайными эффектами, но пока забудьте об этом):
Возникают ли какие-то технические трудности, когда один (или более) предикторов являются результатом опроса, который имеет разные размеры выборки для каждой единицы? Например, предположим, что - это итоговый балл по городу который представляет собой средний ответ по выборке людей из города но размеры выборки, на которых основывались эти средние значения, сильно отличаются:
Поскольку переменные-предикторы не имеют одинакового значения, в некотором смысле, для каждого города, я боюсь, что обусловливание этих переменных в регрессионной модели, как будто все они «созданы равными», может вызвать некоторые вводящие в заблуждение выводы.
Есть ли название для этого типа проблемы? Если да, то есть ли исследование, как справиться с этим?
Моя мысль - рассматривать ее как переменную предиктора, измеренную с ошибкой, и делать что-то в этом направлении, но в погрешностях измерения есть гетероскедастичность, так что это будет очень сложно. Я мог бы думать об этом неправильно или делать это более сложным, чем это, но любое обсуждение здесь было бы полезно.