Расширение логистической регрессии для результатов в диапазоне от 0 до 1

9

У меня есть проблема регрессии, когда результаты не строго 0, 1, а скорее в диапазоне всех действительных чисел от 0 до 1, включая . $Y = [ 0, 0.12, 0.31, ..., 1 ]$

Эта проблема уже обсуждалась в этой теме , хотя мой вопрос немного отличается.

Я не могу использовать линейную регрессию по тем же причинам, что обычно используется логистическая регрессия. В линейной регрессии A) очень большие значения IV сместят прогнозируемый результат до 1 и B) результат линейной регрессии не ограничен пределами 0,1.

Глядя на эту функцию логистической стоимости из моего учебника я понимаю, что уравнение предназначено для расчета стоимость больше 0, только если и не имеют одинаковое значение 0 или 1.

Стоимость знак равно - Y журнал (час (Икс)) - (1 - Y) журнал (1 - час (Икс))

$\text{Cost} = -y \log(h(x)) - (1 - y) \log(1-h(x))$

y

$y$

x

$x$

Можно ли использовать логистическую регрессию, изменив функцию стоимости для измерения всех ошибок гипотез?

regression logistic

— Роберт Кубрик
источник

9

У вас есть несколько вариантов. Два из них могут быть:

Если вы преобразуете свой помощью логистического преобразования вы можете попытаться подогнать линейную регрессию через обычные наименьшие квадраты к этой преобразованной переменной ответа. $Y$ $\log(\frac{y}{1-y})$
В качестве альтернативы, вы могли бы поместить исходную переменную в обобщенную линейную модель с логистическим преобразованием в качестве переменной ссылки и с отношением между дисперсией и иметь такое же значение, как если бы это была биномиальная переменная, подгоняемая итеративно переоцененными наименьшими квадратами. Это в основном то же самое, что «использование логистической регрессии». $Y$

Какой из них использовать, будет зависеть от структуры ошибок, и единственный способ решить - это подогнать их обоих и посмотреть, какая из них имеет остаточную структуру, которая наилучшим образом соответствует предположениям модели. Я подозреваю, что между ними будет не так много выбора. Безусловно, любой из этих вариантов будет большим улучшением прямой линейной регрессии с нетрансформированным по причинам, которые вы говорите. $Y$

— Питер Эллис
источник

2

(+1) Вариант 2: Как правило, вы затем оцениваете избыточную дисперсию и используете ее для расчета стандартных ошибок - «квазибиномиальной» модели, в которой соотношение между дисперсией и средним значением Y пропорционально, а не равно биноминальная переменная.

— Scortchi - Восстановить Монику

@ Scortchi: Это то, что glm()функция в R делает, когда он получает непрерывный ответ и family=quasibinomial? Т.е. он будет оценивать коэффициенты с, family=binomialа затем, на дополнительном этапе, вычислять стандартные ошибки с учетом чрезмерной дисперсии? Если да, это то же самое, что вычисление «устойчивых стандартных ошибок»? У меня есть некоторые соответствующие данные, и я попробовал обе семьи с glm; Я получаю одинаковые коэффициенты, но разные стандартные ошибки. Спасибо.

— амеба

1

@amoeba: Да, это так. Но «устойчивые стандартные ошибки» обычно означают использование сэндвич-оценки или тому подобного.

— Scortchi - Восстановить Монику

9

Когда Y ограничен, бета-регрессия часто имеет смысл; см. статью «Лучшая соковыжималка для лимона»

Это учитывает эффекты пола и потолка; это также позволяет моделировать дисперсию и среднее значение.

— Питер Флом
источник

0

Поскольку у не строго ноль или одна (как вы сказали) стоимость всегда должна быть больше нуля. Так что я не думаю, что вам нужна модификация в модели.

— метрика
источник

0

Я предлагаю две альтернативные модели:

Если ваши результаты (переменные y) упорядочены, попробуйте модель Ordered Probit.

Если ваши результаты (переменные y) не упорядочены, попробуйте модель Multinomial Logit.

— сила
источник