Логистическая регрессия с двоичными зависимыми и независимыми переменными

14

Целесообразно ли делать логистическую регрессию, когда зависимые и независимые переменные являются двоичными? например, зависимая переменная равна 0 и 1, а предикторы - это переменные с контрастным кодом -1 и 1?

logistic

— вышеперечисленное
источник

6

Нет причин не делать этого, но есть две предостерегающие мысли:

Внимательно следите, во время анализа чего есть что. В крупных проектах легко потеряться и получить ошибочные результаты.
Если вы решите сообщать о регрессионных оценках, а не о коэффициентах шансов, сделайте вашу схему кодирования понятной в своем отчете , чтобы читатели не создавали неточных ИЛИ самостоятельно, предполагая, что они оба были закодированы как 0,1.

Может показаться простым, но я видел, как обе проблемы превращаются в опубликованные статьи.

— фомиты
источник

Так что тогда было бы также уместно разделить файл данных на 6 отдельных случаев и провести отдельные сравнения в каждом наборе данных с предикторами с ограниченным кодированием?

— выше

Я, честно говоря, не уверен, что вы просите об этом втором бите. Можете ли вы объяснить, чего вы хотите достичь?

— Fomite

У меня есть набор данных с 3 между и 4 в предметных условиях. Я хотел бы протестировать каждый эффект, но одна регрессия со всеми взаимодействиями пропускает много интересующей меня информации. Вместо этого я бы разделил данные по условию на отдельные наборы данных и запустил бы фокусированные логистические регрессии для каждого набора данных с контрастом. коды, кодирующие различия, которые меня интересуют.

— выше

Более подробную информацию о том, как я кодирую

— выше

11

Для ясности: термин «двоичный» обычно зарезервирован только для кодирования 1 против 0. Более общее слово, подходящее для любого двухзначного кодирования, является «дихотомическим». Дихотомические предикторы, конечно, приветствуются для логистической регрессии, как и для линейной регрессии, и, поскольку они имеют только 2 значения, не имеет значения, вводить их как факторы или как ковариаты.

— ttnphns
источник

5

Обычно это помогает интерпретации, если вы кодируете свои предикторы 0-1, но кроме этого (и отмечая, что это не требуется), в этом нет ничего плохого. Существуют и другие подходы (на основе таблиц сопряженности), но, если я правильно помню, они оказываются эквивалентными (в некоторой форме) логистической регрессии.

Итак, вкратце: я не вижу причин не делать этого.

— Ник Саббе
источник

Благодарность! И если у меня есть 3 предиктора с контрастным кодированием, и я кодирую их все 0-1, то они не будут ортогональными. Например, у меня есть 4 категории, и мои три кода: L1: 1, -1,0,0, L2: 0,1, -1,0, L3: 0,0,1, -1. это проблема?

— выше

Ваш пример L-матрицы (L1, L2, L3) - это повторяющиеся контрасты, при которых каждая категория сравнивается со следующей категорией. Ни эти предикторы контраста не являются ортогональными, ни двоичными (кодируются как 0-1). На самом деле их значения: 0,75 против -25 (1-я переменная), .5 против -.5 (2-я переменная), .25 против -.75 (3-я переменная)

— ttnphns

3

Кроме того, если у вас есть более двух предикторов, то, скорее всего, возникнет проблема мультиколлинеарности даже для логистической или множественной регрессии. Тем не менее, нет никакого вреда в использовании логистической регрессии со всеми двоичными переменными (т. Е. С кодом (0,1)).

— любовь-статистика
источник