Каковы проблемы с использованием процентного результата в линейной регрессии?


11

У меня есть исследование, в котором многие результаты представлены в виде процентов, и я использую множественные линейные регрессии, чтобы оценить влияние некоторых категориальных переменных на эти результаты.

Мне было интересно, поскольку линейная регрессия предполагает, что результатом является непрерывное распределение, существуют ли методологические проблемы в применении такой модели к процентам, которые ограничены между 0 и 100?


1
Являются ли эти проценты непрерывными (например, процентное содержание сливок в молоке) или дискретными (например, биномиальные пропорции - подсчет в некоторой категории из общего подсчета)?
Glen_b

1
Хм ... я не понимаю разницу. Разве они не непрерывны? Во всяком случае, я думаю, что второе лучше описывает мои данные, так как мы говорим о людях из общего числа.
Бакабург

Распределение количества делений на число определенно дискретно. Действительно, числитель обычно моделируется как бином, а знаменатель обусловлен (рассматривается как константа), поэтому отношение обычно рассматривается как масштабированный бином. Однако, даже если знаменатель был также случайной величиной, отношение все равно было бы дискретным, поскольку его выборочное пространство счетно
Glen_b -Reinstate Monica

Ответы:


17

Я рассмотрю вопросы, относящиеся к дискретной или постоянной возможности:

  1. Проблема с описанием среднего

    У вас ограниченный ответ. Но модель, которую вы подходите, не ограничена, и поэтому может прорваться сквозь границы; некоторые из ваших установленных значений могут быть невозможны, и предсказанные значения в конечном итоге должны быть.

    Истинные отношения должны со временем становиться более плоскими, чем в середине, когда они приближаются к границам, поэтому ожидается, что они будут изгибаться каким-то образом.

  2. Проблема с описанием дисперсии

    Когда среднее значение приближается к границе, дисперсия также будет иметь тенденцию к снижению, при прочих равных условиях. Между средним и границей остается меньше места, поэтому общая изменчивость имеет тенденцию к снижению (в противном случае среднее значение будет стремиться отойти от границы с помощью точек, находящихся в среднем дальше на стороне, не близкой к границе.

(Действительно, если бы все значения населения в некоторой окрестности были точно на границе, дисперсия там была бы нулевой.)

Модель, которая имеет дело с такой границей, должна принимать во внимание такие эффекты.

Если пропорция для переменной подсчета, распространенной моделью для распределения пропорции является биномиальный GLM. Существует несколько вариантов формы отношения средней пропорции и предикторов, но наиболее распространенным будет логистический GLM (несколько других вариантов широко используются).

Если пропорция является непрерывной (например, процентное содержание сливок в молоке), существует несколько вариантов. Бета-регрессия представляется одним из наиболее распространенных вариантов. Опять же, он может использовать логистические отношения между средним и предикторами или использовать другую функциональную форму.

Смотрите также регрессия для результата (отношение или доля) между 0 и 1 .


1
+1, и я позволил себе добавить ссылку на то, что, возможно, можно считать нашей «главной» веткой по этой теме (ответ gung там также охватывает бета-версию и параметры логистики).
говорит амеба: восстанови Монику

2
Простой общий аргумент состоит в том, что среднее значение равно 0, что возможно только в том случае, если все значения равны 0, и аналогично, если 1 = 100% и все значения равны 1. Таким образом, дисперсия должна быть равна 0 в крайних значениях независимо от того, основаны ли пропорции на считать или измерять. Хотя возможно, что все остальные значения являются постоянными, на практике это происходит очень редко. Следовательно, дисперсия будет наибольшей для некоторого значения между 0 и 1.
Ник Кокс

Вы могли бы предоставить некоторые ссылки для 2 описанных проблем?
user1607

3

Это в точности то же самое, что и случай, когда результат находится между 0 и 1, и этот случай обычно обрабатывается с помощью обобщенной линейной модели (GLM), такой как логистическая регрессия. В Интернете есть много отличных учебников по логистической регрессии (и другим GLM), а также есть известная книга Агрести по этой теме.

Бета-регрессия является жизнеспособной, но более сложной альтернативой. Скорее всего, логистическая регрессия будет хорошо работать для вашего приложения и, как правило, ее будет легче реализовать с помощью большинства статистических программ.

Почему бы не использовать обычную регрессию наименьших квадратов? На самом деле люди, иногда под названием «линейная модель вероятности» (LPM). Наиболее очевидная причина, по которой LPM являются «плохими», заключается в том, что нет простого способа ограничить результат в определенном диапазоне, и вы можете получить прогнозы выше 1 (или 100% или любой другой конечной верхней границы) и ниже 0 (или некоторая другая нижняя граница). По той же причине прогнозы вблизи верхней границы имеют тенденцию быть слишком высокими, а прогнозы вблизи нижней границы - слишком низкими. Математическая основа линейной регрессии явно предполагает, что подобные тенденции не существуют. Как правило, нет веских причин для установки LPM вместо логистической регрессии.

Кроме того, оказывается, что все модели регрессии OLS, включая LPM, могут быть определены как особый вид GLM, и в этом контексте LPM связаны с логистической регрессией.


4
Хотя в целом большая часть этого ответа выглядит стоящей, в нем содержится некоторая дезинформация, которая может запутать читателей. Отчет о логистической регрессии в первом параграфе звучит как описание логоподобного преобразования зависимой переменной с последующей линейной регрессией: это не логистическая регрессия. Интерпретация коэффициентов тоже не совсем правильная. Более важная проблема с «LPM» состоит в том, что когда данные находятся вблизи крайностей, они, вероятно, демонстрируют асимметричное распределение остатков, что является важным нарушением предположения регрессии iid.
whuber

Я не думал, что это стоило попадать в коэффициенты шансов и тому подобное. Я просто разберусь с этим и позволю ОП читать дальше. Также хороший момент об остатках.
Shadowtalker

(+1) Спасибо за ваши конструктивные ответы!
whuber

2

Возможно, стоит изучить бета-регрессию (для которой, как я понимаю, существует пакет R), который, похоже, хорошо подходит для таких проблем.

http://www.jstatsoft.org/v34/i02/paper


7
Вы бы ответили еще лучше, если бы вы столкнулись с некоторыми из основных причин, почему линейная регрессия страдает, когда результат в процентах.
Алексис
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.