Как моделировать ограниченную целевую переменную?

У меня есть 5 переменных, и я пытаюсь предсказать мою целевую переменную, которая должна быть в диапазоне от 0 до 70.

Как я могу использовать эту информацию для лучшего моделирования моей цели?

regression bounds

— user333
источник

Ответы:

$\max(0, \min(70, \hat{y}))$ $\hat{y}$

Однако ограниченный диапазон повышает вероятность нелинейной связи между зависимой переменной ( ) и независимыми переменными ( ). Некоторые дополнительные показатели этого включают в себя: $y$ $x_i$

Больший разброс остаточных значений, когда находится в середине его диапазона, по сравнению с разбросом остаточных значений в обоих концах диапазона. $\hat{y}$
Теоретические причины конкретных нелинейных отношений.
Доказательство неправильной спецификации модели (получено обычными способами).
Значение квадратичных или старших членов в . $x_i$

Рассмотрим нелинейное повторное выражение в случае выполнения любого из этих условий. $y$

Есть много способов повторно выразить $y$ чтобы создать более линейные отношения с $x_i$ . Например, любую возрастающую функцию определенную в интервале можно «сложить», чтобы создать симметричную возрастающую функцию через . Если становится произвольно большим и отрицательным, когда его аргумент приближается к , свернутая версия отобразит во все действительные числа. Примеры таких функций включают логарифм и любую отрицательную степень. Использование логарифма эквивалентно «ссылке логита», рекомендованной @ user603. Другой способ, чтобы позволить $f$ $[0,70]$ $y \to f(y) - f(70-y)$ $f$ $0$ $f$ $[0,70]$ $G$ быть обратным CDF любого распределения вероятностей и определить . Использование нормального распределения дает преобразование «пробит». $f(y) = G(y/70)$

Один из способов использовать семейства преобразований - это экспериментировать: попробовать вероятное преобразование, выполнить быструю регрессию преобразованного отношению к и проверить невязки: они должны казаться независимыми от предсказанных значений (гомоскедастических и некоррелированных) , Это признаки линейной связи с независимыми переменными. Также помогает, если остатки обратно преобразованных предсказанных значений имеют тенденцию быть маленькими. Это указывает, что преобразование улучшило подгонку. Чтобы противостоять эффектам выбросов, используйте надежные методы регрессии, такие как итеративно взвешенные наименьшие квадраты . $y$ $x_i$ $y$

— Whuber
источник

+1 Отличный ответ! Можете ли вы экстраполировать или дать цитату, почему «большее изменение остаточных значений, когда y_hat находится в середине его диапазона, по сравнению с изменением остаточных значений на обоих концах диапазона» является показателем нелинейности?

— Энди МакКензи

@Andy Теоретически, такая гетероскедастичность не имеет прямой связи с нелинейностью, но на практике часто наблюдается, что преобразование, стабилизирующее дисперсию, имеет тенденцию к линеаризации отношений. Любая кривая, непрерывно растущая от минимума (например, 0) до максимума (например, 70), будет иметь максимальный наклон где-то в середине этого диапазона, что часто приводит также к большей остаточной дисперсии. Вот почему мы ожидаем, что остатки будут иметь большую дисперсию в середине и меньше на концах. Если это не так, мы можем надеяться на линейные отношения с нетрансформированной переменной.

— whuber

Важно учитывать, почему ваши значения ограничены в диапазоне 0-70. Например, если это число правильных ответов в тесте из 70 вопросов, то вам следует рассмотреть модели для переменных «количество успехов», таких как избыточная дисперсия биномиальной регрессии. Другие причины могут привести вас к другим решениям.

— Анико
источник

Преобразование данных: измените масштаб ваших данных, чтобы они лежали в $[0,1]$ и смоделируйте их, используя модель glm со ссылкой logit.

Редактировать: Когда вы масштабируете вектор (то есть делите все элементы по наибольшей записи), как правило, перед тем, как сделать это, проверяйте (глазные яблоки) для выбросов.

ОБНОВИТЬ

Предполагая, что у вас есть доступ к R, я бы перенес часть моделирования с надежной процедурой glm, см. $\verb+glmrob()+$ в пакете $\verb+robustbase+$ .

— user603
источник

Зажим данных в соответствии с рекомендациями здесь сместит наклоны в регрессии.

— whuber

Кроме того, я не вижу непосредственного значения в зажиме, основанном на выборочных квантилях, когда истинный диапазон данных известен априори.

— кардинал

@Cardinal Дело в том, что (например), возможно, 99% данных лежат в [0,1], а остальные значения равны 70: компактное ограничение диапазона не гарантирует отсутствие выбросов! Поэтому я согласен с духом совета, предложенного @ user603, несмотря на мою озабоченность по поводу возможного смещения в предлагаемом подходе.

— whuber

@whuber: Я склоняюсь к тому, чтобы использовать GLM, который был устойчив к выбросам, а не к этой форме зажима. Затем дайте возможность подгонке модели отрегулировать с помощью коэффициента «пересечение» и «наклон».

— кардинал

@Cardinal Да, это правильное решение. Я надеюсь, что использование такого GLM все еще будет сопровождаться диагностическими процедурами для проверки (приблизительной) линейности и независимости остатков.

— whuber