Популяция r-квадрат может быть определена исходя из фиксированных или случайных оценок:
Фиксированные оценки: размер выборки и конкретные значения предикторов остаются фиксированными. Таким образом, представляет собой долю дисперсии, объясняемой в результате уравнением регрессии населения, когда значения предикторов поддерживаются постоянными.
Случайные оценки: конкретные значения предикторов взяты из распределения. Таким образом, относится к доле дисперсии, объясненной в результате в совокупности, где значения предикторов соответствуют распределению предикторов в совокупности.
Ранее я спрашивал, имеет ли это различие большое значение для оценок . Я также обычно спрашивал о том, как рассчитать объективную оценку .
Я вижу, что с увеличением размера выборки различие между фиксированной и случайной оценкой становится менее важным. Тем не менее, я пытаюсь подтвердить, предназначен ли скорректированный для оценки фиксированной оценки или случайной оценки ρ 2 .
Вопросов
- Предназначен ли скорректированный для оценки фиксированной или случайной оценки ρ 2 ?
- Существует ли принципиальное объяснение того, как формула для скорректированного r-квадрата относится к той или иной форме ?
Предыстория моей путаницы
Когда я читаю «Инь и Фань» (2001, стр. 206), они пишут:
Одним из основных допущений модели множественной регрессии является то, что значения независимых переменных являются известными константами и фиксируются исследователем перед экспериментом. Только зависимая переменная может варьироваться от образца к образцу. Эта модель регрессии называется моделью фиксированной линейной регрессии .
Однако в социальных и поведенческих науках значения независимых переменных редко фиксируются исследователями и также подвержены случайным ошибкам. Поэтому была предложена вторая модель регрессии для приложений, в которой как зависимые, так и независимые переменные могут варьироваться (Binder, 1959; Park & Dudycha, 1974). Эта модель называется случайной моделью (или моделью коррекции). Хотя оценки максимального правдоподобия коэффициентов регрессии, полученные из случайной и фиксированной моделей, одинаковы при предположениях о нормальности, их распределения сильно различаются. Случайная модель настолько сложна, что необходимы дополнительные исследования, прежде чем ее можно будет принять вместо обычно используемой модели фиксированной линейной регрессии. Поэтому обычно применяется фиксированная модель, даже когда предположения не выполнены полностью (Claudy, 1978). Такое применение модели фиксированной регрессии с нарушенными допущениями может привести к «переоснащению», потому что случайная ошибка, вносимая из неидеальных выборочных данных, имеет тенденцию быть заглавной в процессе. В результате выборочный коэффициент множественной корреляции, полученный таким образом, имеет тенденцию переоценивать истинную множественную корреляцию населения (Claudy, 1978; Cohen & Cohen, 1983; Cummings, 1982).