Ответы:
Когда ответ или результат ограничены, при подборе модели возникают различные вопросы, включая следующие:
Любая модель, которая могла бы предсказать значения для ответа вне этих границ, в принципе сомнительна. Следовательно , линейная модель может быть проблематичной , так как не существует никаких границ на Y = X Ь для предикторов X и коэффициентов Ь всякий раз , когда Х сами неограниченны в одном или обоих направлениях. Тем не менее, отношения могут быть достаточно слабыми, чтобы это не кусалось, и / или прогнозы вполне могли оставаться в пределах наблюдаемого или правдоподобного диапазона предикторов. С одной стороны, если ответом является некоторое среднее значение + шум, вряд ли имеет значение, какая модель подходит.
Так как ответ не может превышать своих границ, нелинейные отношения часто более вероятны с предсказанными ответами, привязанными к асимптотическому приближению к границам. Сигмовидные кривые или поверхности, такие как те, которые предсказаны логитными или пробитными моделями, привлекательны в этом отношении и теперь их нетрудно подобрать. Ответ, такой как грамотность (или часть, принимающая любую новую идею) часто показывает такую сигмовидную кривую во времени и правдоподобно почти с любым другим предиктором.
Ограниченный ответ не может иметь свойства дисперсии, ожидаемые в простой или ванильной регрессии. По мере того, как средний отклик приближается к нижней и верхней границам, дисперсия всегда приближается к нулю.
Модель должна быть выбрана в соответствии с тем, что работает, и знанием основного процесса генерации. То, знает ли клиент или аудитория о конкретных модельных семействах, также может служить ориентиром для практики
Обратите внимание, что я сознательно избегаю общих суждений, таких как хорошее / не хорошее, подходящее / не подходящее, правильное / неправильное. Все модели в лучшем случае являются приближениями, и то, какое приближение является привлекательным или достаточно хорошим для проекта, предсказать не так просто. Я обычно предпочитаю модели logit в качестве первого выбора для ограниченных ответов, но даже это предпочтение частично основано на привычке (например, на том, что я избегаю пробитные модели без особых на то причин) и частично на том, где я буду сообщать результаты, обычно читателям, которые или должен быть, статистически хорошо информирован.
Ваши примеры дискретных шкал приведены для оценок 1-100 (в заданиях, которые я отмечаю, 0, безусловно, возможно!) Или для оценок 1-17. Для таких шкал я обычно думал о подборе непрерывных моделей для ответов, масштабированных до [0, 1]. Тем не менее, есть практики, использующие модели порядковой регрессии, которые с радостью подгонят такие модели к масштабам с довольно большим количеством дискретных значений. Я рад, если они ответят, если они так настроены.
Я работаю в сфере медицинских исследований. Мы собираем результаты, о которых сообщали пациенты, например, физические функции или симптомы депрессии, и они часто оцениваются в формате, который вы упомянули: шкала от 0 до N, полученная путем суммирования всех отдельных вопросов в шкале.
Подавляющее большинство литературы, которую я рассмотрел, только что использовало линейную модель (или иерархическую линейную модель, если данные получены из повторных наблюдений). Я еще не видел, чтобы кто-нибудь использовал предложение @ NickCox для (дробной) логит-модели, хотя это вполне правдоподобная модель.
График ниже взят из моей предстоящей диссертации. Здесь я подгоняю линейную модель (красную) к балльной шкале депрессивных симптомов, которая была преобразована в Z-баллы, и (объяснительную) модель IRT синим цветом для тех же вопросов. В основном, коэффициенты для обеих моделей находятся в одном масштабе (то есть в стандартных отклонениях). На самом деле, есть существенное согласие в размере коэффициентов. Как намекал Ник, все модели ошибочны. Но линейная модель не может быть слишком неправильной в использовании.
(Примечание: модель, приведенная выше, подходила для пакета usint Фила Чалмерса mirt
в R. График, созданный с использованием ggplot2
и ggthemes
. Цветовая схема основана на стандартной цветовой схеме Stata.)
Линейная регрессия может «адекватно» описывать такие данные, но это маловероятно. Многие предположения о линейной регрессии имеют тенденцию нарушаться в данных такого типа до такой степени, что линейная регрессия становится необоснованной. Я просто выберу несколько предположений в качестве примеров,
Нарушения этих допущений смягчаются, если данные имеют тенденцию падать вокруг центра диапазона, далеко от краев. Но на самом деле, линейная регрессия не является оптимальным инструментом для такого рода данных. Гораздо лучшими альтернативами могут быть биномиальная регрессия или пуассоновская регрессия.
Если ответ занимает только несколько категорий, вы можете использовать методы классификации или порядковую регрессию, если ваша переменная ответа является порядковой.
Обычная линейная регрессия не даст вам ни дискретных категорий, ни ограниченных переменных отклика. Последнее можно исправить с помощью модели логита, как в логистической регрессии. Для чего-то вроде оценки теста с 100 категориями 1-100 вы могли бы также упростить свой прогноз и использовать ограниченную переменную ответа.
использовать cdf (накопительная функция распределения из статистики). если ваша модель y = xb + e, то измените ее на y = cdf (xb + e). Вам нужно будет изменить масштаб данных зависимых переменных, чтобы они упали между 0 и 1. Если это положительные числа, разделите их на максимум и возьмите предсказания вашей модели и умножьте на то же число. Затем проверьте соответствие и посмотрите, улучшат ли ограниченные прогнозы.
Вы, вероятно, хотите использовать постоянный алгоритм, чтобы заботиться о статистике для вас.