Предсказатель с большей дисперсией «лучше»?

13

У меня есть концептуальный вопрос "базовая статистика". Будучи студентом, я хотел бы знать, думаю ли я об этом совершенно неправильно и почему, если это так:

Допустим, я гипотетически пытаюсь взглянуть на взаимосвязь между «проблемами управления гневом» и сказать «развод» (да / нет) в рамках логистической регрессии, и у меня есть возможность использовать две разные оценки управления гневом - обе из 100.
Оценка 1 исходит из анкеты рейтингового инструмента 1 и другого моего выбора; оценка 2 исходит из другой анкеты. Гипотетически, у нас есть основания полагать из предыдущей работы, что проблемы управления гневом вызывают развод.
Если в моей выборке из 500 человек дисперсия 1-го балла намного выше, чем 2-го балла, есть ли основания полагать, что 1-й балл лучше использовать в качестве предиктора развода на основе его дисперсии?

Мне это инстинктивно кажется правильным, но так ли это?

regression logistic

— N26
источник

Интересный вопрос, я полагаю, что ответ Уубера это прекрасно объясняет. Мой первый ответ на этот вопрос был: «Повышенная дисперсия не влечет за собой более высокую дискриминацию по классу».

— Жубарб

11

Несколько быстрых моментов:

Дисперсия может быть произвольно увеличена или уменьшена путем выбора другой шкалы для вашей переменной. Умножение масштаба на константу больше единицы увеличит дисперсию, но не изменит предсказательную силу переменной.
Возможно, вы путаете разницу с надежностью. При прочих равных условиях (и при условии, что существует, по крайней мере, некоторое истинное предсказание оценки), повышение надежности, с которой вы измеряете конструкцию, должно увеличить ее предсказательную силу. Проверьте это обсуждение коррекции для затухания .
Если предположить, что обе шкалы состоят из двадцати пятибалльных пунктов и, таким образом, имеют общие баллы от 20 до 100, то версия с большей дисперсией также будет более надежной (по крайней мере, с точки зрения внутренней согласованности).
Надежность внутренней согласованности - не единственный стандарт, по которому можно судить о психологическом тесте, и это не единственный фактор, который отличает предсказательную силу одной шкалы от другой для данной конструкции.

— Джером англим
источник

9

Простой пример помогает нам определить, что важно.

Пусть

Y = C + γ X_{1} + ε

$Y = C + \gamma X_1 + \varepsilon$

где и - параметры, - оценка по первому инструменту (или независимая переменная), а представляет несмещенную ошибку iid. Пусть счет на втором инструменте будет связан с первым через $C$ $\gamma$ $X_1$ $\varepsilon$

X_{1} = α X_{2} + β .

$X_1 = \alpha X_2 + \beta.$

Например, оценки по второму инструменту могут варьироваться от 25 до 75, а оценки по первому - от 0 до 100, при . Дисперсия в раза больше дисперсии . Тем не менее, мы можем переписать $X_1 = 2 X_2 - 50$ $X_1$ $\alpha^2$ $X_2$

Y = C + γ (α X_{2} + β) = (C + β γ) + (γ α) X_{2} + ε = C^{'} + γ^{'} X_{2} + ε .

$Y = C + \gamma(\alpha X_2 + \beta) = (C + \beta \gamma) + (\gamma \alpha) X_2 + \varepsilon = C' + \gamma' X_2 + \varepsilon.$

Параметры изменяются, а дисперсия независимой переменной изменяется , однако прогнозирующая способность модели остается неизменной .

В общем, отношения между и могут быть нелинейными. Что является лучшим показателем будет зависеть от того , имеет более тесную линейную зависимость к . Таким образом, проблема не в масштабе (как показывает дисперсия ), а должна решаться отношениями между инструментами и тем, что они используются для прогнозирования. Эта идея тесно связана с темой, которая исследовалась в недавнем вопросе о выборе независимых переменных в регрессии . $X_1$ $X_2$ $Y$ $Y$ $X_i$

Могут быть смягчающие факторы. Например, если и являются дискретными переменными и обе одинаково хорошо связаны с , то переменная с большей дисперсией может (если она достаточно равномерно распределена) допускает более тонкие различия между ее значениями и тем самым обеспечивает большую точность. Например , если оба инструмента представляют собой вопросники по шкале Лайкерта 1-5, оба одинаково хорошо коррелируют с , а ответы на - все 2 и 3, а ответы на распределены в диапазоне от 1 до 5, может быть предпочтительным на это основа. $X_1$ $X_2$ $Y$ $Y$ $X_1$ $X_2$ $X_2$

— Whuber
источник

1

Всегда проверяйте предположения для статистического теста, который вы используете!

Одним из допущений логистической регрессии является независимость от ошибок, что означает, что случаи данных не должны быть связаны. Например. Вы не можете измерить одних и тех же людей в разные моменты времени, что, боюсь, вы могли сделать с помощью опросов по управлению гневом.

Я также был бы обеспокоен тем, что с помощью двух опросов по управлению гневом вы в основном измеряете одно и то же, и ваш анализ может пострадать от мультиколлинеарности.

— Parbury
источник

1

Я думаю, что N26 предлагает мысленный эксперимент. То есть, если при разработке исследования у вас есть выбор между двумя шкалами, предпочтете ли вы prima facie ту, которая отличается большей дисперсией. Кроме того, наличие двух предикторов, которые представляют одну и ту же конструкцию, но измеряются по-разному, не нарушает допущение независимости наблюдений.

— Джером Англим