Лог-линейная регрессия против логистической регрессии

21

Может ли кто-нибудь предоставить четкий список различий между логарифмической регрессией и логистической регрессией? Я понимаю, что первая - это простая модель линейной регрессии, но я не знаю, когда следует использовать каждую из них.

— user38133
источник

19

Название немного неправильное. Логолинейные модели традиционно использовались для анализа данных в формате таблицы сопряженности. Хотя «данные подсчета» не обязательно должны следовать распределению Пуассона, лог-линейная модель на самом деле является просто моделью регрессии Пуассона. Отсюда и название «log» (регрессионные модели Пуассона содержат функцию «log»).

«Логарифмически изменяемая исходная переменная» в модели линейной регрессии не является логарифмической моделью (и не является экспоненциальной конечной переменной, как предполагает «логлинейная»). И логарифмические модели, и логистические регрессии являются примерами обобщенных линейных моделей , в которых взаимосвязь между линейным предиктором (таким как логарифмические коэффициенты или логарифмические числа) линейна в переменных модели. Это не «простые модели линейной регрессии» (или модели, использующие обычный формат ). $E[Y|X] = a + bX$

Несмотря на все это, можно получить эквивалентный вывод об ассоциациях между категориальными переменными, используя логистическую регрессию и пуассоновскую регрессию. Просто в модели Пуассона переменные результата рассматриваются как ковариаты. Интересно, что вы можете настроить некоторые модели, которые заимствуют информацию между группами способом, очень похожим на модель пропорциональных шансов, но это не совсем понятно и используется редко.

Примеры получения эквивалентного вывода в моделях логистической и пуассоновской регрессии с использованием R проиллюстрированы ниже:

y <- c(0, 1, 0, 1)
x <- c(0, 0, 1, 1)
w <- c(10, 20, 30, 40)

## odds ratio for relationship between x and y from logistic regression
glm(y ~ x, family=binomial, weights=w)

## the odds ratio is the same interaction parameter between contingency table frequencies
glm(w ~ y * x, family=poisson)

Интересно, что отсутствие связи между и означает, что отношение шансов равно 1 в модели логистической регрессии, и, аналогично, член взаимодействия равен 0 в логлинейной модели. Дает вам представление о том, как мы измеряем условную независимость в данных таблицы непредвиденных обстоятельств. $y$ $x$

— Adamo
источник

Опять же, это, вероятно, показывает мою неопытность, но не могли бы вы дать определение таблицам непредвиденных обстоятельств? Это может также помочь другим, кто сталкивается с этим вопросом.

— user38133

Таблицы сопряженности (обычно) представляют собой двухмерные таблицы, которые перечисляют все возможные ответы двух переменных и показывают частоту наблюдений в ячейках. Например, у вас может быть таблица непредвиденных обстоятельств 2 к 2, показывающая статус курения (никогда не бывает в настоящее время) и рак (легкое без рака), который вы использовали бы для оценки связи между курением и риском развития рака.

— AdamO

15

Я не думаю, что я бы назвал одну из них "простой моделью линейной регрессии". Хотя возможно использовать log или logit преобразования в качестве функции связи для ряда различных моделей, обычно подразумевается, что они относятся к конкретным моделям. Например, «логистическая регрессия» понимается как обобщенная линейная модель (GLiM) для ситуаций, когда переменная отклика распределена в виде бинома . Кроме того, «логарифмическая регрессия» обычно понимается как Poisson GLiM, применяемый к многопользовательским таблицам сопряженности., Другими словами, помимо того факта, что они обе являются регрессионными моделями / GLiM, я не считаю, что они обязательно очень похожи (как указывает @AdamO, между ними есть некоторые связи, но типичные применения довольно различны). Самым большим отличием будет то, что логистическая регрессия предполагает, что ответ распределяется как биномиальная, а логарифмическая регрессия предполагает, что ответ распределяется как Пуассон . На самом деле, логарифмическая регрессия довольно отличается от большинства регрессионных моделей тем, что переменная отклика на самом деле не является одной из ваших переменных (в обычном смысле этого слова), а представляет собой набор частотных показателей, связанных с комбинациями ваших переменных. в многопользовательской таблице непредвиденных обстоятельств.

— Gung - Восстановить Монику
источник

Благодарность! Я думаю, что тогда мой естественный дополнительный вопрос, который, вероятно, показывает мой недостаток опыта, состоит в том, как определить, как правильно распределить модель данной проблемы. Я думаю, что мне нужно будет немного больше читать, чтобы убедиться, что я всегда могу выбрать правильно.

— user38133

2

{0, 1}

$\{0,\ 1\}$

0

Чтобы уточнить, «бинарная» логистическая регрессия имеет зависимую переменную с двумя результатами. Насколько я понимаю, существует также возможность использования «полиномиальной» логистической регрессии, если ваша зависимая переменная результата имеет более 2 категорий. Смотрите здесь .

— М. Фиппс
источник