Использование логистической регрессии для непрерывной зависимой переменной


9

Недавно я получил ревизию для своей исследовательской работы, и ниже приводится комментарий рецензента к моей статье:

результаты, полученные на одной модели, не совсем убедительны, особенно линейная регрессия обычно имеет недостатки в работе с выбросами. Я предлагаю авторам также попробовать логистическую регрессию и сравнить соответствующие результаты с текущими результатами. Если бы подобные наблюдения были получены, результаты были бы более солидными.

Правильный ли комментарий рецензента? Является ли логистическая регрессия лучше, чем множественная линейная регрессия?

Проблема в том, что моя зависимая переменная не является категориальной, это переменная масштаба. Что я могу сделать сейчас? Какой другой метод регрессии вы рекомендуете оценить мою модель?

Оценка является зависимой переменной в следующей таблице. Периодичность, частота, срок владения и последний балл являются независимыми переменными.

введите описание изображения здесь

Я извлек эти переменные с сайта, и я предполагаю, что эти независимые переменные оказывают существенное влияние на оценку . Поэтому я представляю следующие модели:

введите описание изображения здесь


Кстати, значение R в квадрате для этой линейной модели составляет 0,316! Рецензент также прокомментировал это значение:

тогда результаты не убедительны, так как нет показателя качества изученных коэффициентов. Небольшое значение R ^ 2 не может указывать на хорошую производительность, поскольку модель может быть переоснащена.

0,316 является очень низким для R в квадрате? В предыдущих работах я много видел подобные значения.

введите описание изображения здесь


Это незначительный момент, но понимание того, как рассчитывается оценка, может помочь в получении хороших ответов. Не могли бы вы отредактировать свой вопрос, чтобы сообщить нам об этом?
whuber

Я редактирую свой пост. мои статистические знания не хороши. Буду очень благодарен, если вы поможете.
PSS

1
нет ли идеи о запуске логистической регрессии на непрерывной зависимой переменной ???
PSS

1
Счет должен быть между 0 и 100? В этом случае вы могли бы разделить на 100 и выполнить логистическую регрессию для результирующей переменной, которая всегда будет между 0 и 1 ... я чувствую себя немного странно, поступая таким образом, и я не уверен, насколько это разумно, но может быть, это то, что предлагает рецензент?
Сэм Ливингстон

2
Нет, масштабирование до 0-1 или отбрасывание ценной информации и классификация результатов не являются хорошими решениями вообще.
Фрэнк Харрелл

Ответы:


7

Пропорциональная модель порядковой логистической регрессии шансов должна хорошо работать для этой проблемы. Для эффективной реализации, которая может позволить тысячи уникальных значений смотрите функцию в пакете R.Yormrms


Я установил R и все необходимые пакеты. Не могли бы вы привести пример функции orm? Я не нашел путем поиска. Каким должен быть код для моей регрессионной модели?
PSS

1
Y

1

Вы также можете попробовать упорядоченные модели пробит / логит, присвоив значения 1, 2,3 и 4 баллам в 1-м, ....., 4-м процентилях соответственно.


Какую переменную вы предлагаете уменьшить до четырех нижних процентилей (из 100)? Что бы это произошло и почему?
whuber

-1

Вы можете дихотомизировать (преобразовать в двоичную переменную) счет. Если оценка от 0 до 100, вы можете присвоить 0 любому баллу меньше 50 и 1 в противном случае. Я никогда раньше не слышал, чтобы это был хороший способ борьбы с выбросами. Это может просто скрыть выбросы, поскольку невозможно будет различить очень высокие или низкие оценки. Это не имеет большого смысла для меня, но вы можете попробовать это.

βR2

R2R2

Я не собираюсь притворяться, что знаю много о статистике, но мне кажется, основываясь на его комментариях, что этот рецензент может знать еще меньше.


Большое спасибо за ваш ответ. Потому что все переменные перекошены, поэтому у меня они логически преобразованы. Я прав? Спасибо за разъяснение, что означает «переоснащение»! На самом деле, я не знал, что значит переоснащение. Теперь я могу ответить рецензенту и редактору. Кстати, что вы посоветуете мне сделать мою оценку более надежной? какой метод регрессии вы считаете лучшим?
PSS

6
Y

Я согласен с @FrankHarrell, что выбор произвольного порога для дихотомии ваших данных не имеет никакого смысла. Это весь ваш набор данных? Если у вас так мало наблюдений, ваши данные никогда не будут выглядеть нормально распределенными! Также вам необходимо понять тип данных, с которыми вы имеете дело. Какой диапазон значений они могут принять, разумно ли предположить, что они должны быть нормально распределены? Я собираюсь рассмотреть предложение Фрэнка об использовании порядковой логистической регрессии, но я предполагаю, что она использует порядок баллов вместо их значения в регрессии.
Понтикос

@PotentialScientist, не имеет значения, перекошены ли ваши дистрибутивы. В регрессии OLS (типичной) имеет значение только распределение остатков, см. Здесь: что, если остатки нормально распределены, но у вас нет . Вы также можете прочитать это: интерпретация-лог-преобразованного-предиктора , чтобы понять, что произошло с вашей моделью в результате преобразования ваших предикторов.
gung - Восстановить Монику

@PotentialScientist, как ты поживаешь? Если вы отредактируете свой вопрос, предоставив данные в формате CSV, я могу попытаться запустить функцию orm, предложенную профессором Харреллом, и мы сможем проанализировать результаты. Стоит изучить основы R (как читать в файле и запускать регрессию).
Понтикос

-1

Можно применить логистическую регрессию даже к непрерывной зависимой переменной. Это имеет смысл, если вы хотите убедиться, что предсказанное scoreвсегда находится в пределах [0, 100](по вашим скриншотам я вижу, что это по 100-балльной шкале).

Для этого просто разделите ваш счет на 100 и запустите логистическую регрессию с этой [0,1]целевой переменной, как в этом вопросе - вы можете сделать это, например, с Rпомощью

glm(y~x, family="binomial", data=your.dataframe)

R2

R20.3R2R2

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.