Псевдо-R2 Макфаддена Интерпретация


29

У меня есть бинарная модель логистической регрессии с псевдо R-квадратом Макфаддена 0,192 с зависимой переменной, называемой платежом (1 = оплата и 0 = нет оплаты). Какова интерпретация этого псевдо R-квадрата?

Является ли это относительным сравнением для вложенных моделей (например, модель с 6 переменными имеет псевдо R-квадрат Макфаддена 0,192, тогда как модель с 5 переменными (после удаления одной переменной из вышеупомянутой модели с 6 переменными), эта модель с 5 переменными имеет псевдо R в квадрате 0,131. Хотели бы мы сохранить эту шестую переменную в модели?) или это абсолютная величина (например, данная модель, у которой псевдо R-квадрат Макфаддена равен 0,192, лучше, чем любая существующая модель с псевдо-индексом Макфаддена?) R-квадрат 0,180 (даже для не вложенных моделей) - это просто возможные способы взглянуть на псевдо-R-квадрат Макфаддена, однако я полагаю, что эти два представления далеко, и поэтому я задаю этот вопрос здесь.

Я провел много исследований по этой теме, и мне еще предстоит найти ответ, который я ищу, с точки зрения возможности интерпретировать псевдо R-квадрат Макфаддена 0,192. Любое понимание и / или ссылки с благодарностью! Прежде чем ответить на этот вопрос, я знаю, что это не лучшая мера для описания модели логистической регрессии, но я хотел бы иметь лучшее понимание этой статистики независимо!

Ответы:


34

Поэтому я решил, что подытожу то, что узнал о псевдо R2 Макфаддена, как правильный ответ.

Исходная ссылка, которую я вижу для псевдо R2 Макфаддена: McFadden, D. (1974) «Условный логит-анализ качественного поведения выбора». Стр. 105-142 в П. Зарембка (ред.), Границы в эконометрике. Академическая пресса. http://eml.berkeley.edu/~mcfadden/travel.html На рисунке 5.5 показана взаимосвязь между rho-квадратом и традиционными мерами R2 из OLS. Моя интерпретация заключается в том, что большие значения rho-квадрата (псевдо R2 Макфаддена) лучше, чем меньшие.

Интерпретация псевдо R2 Макфаддена между 0,2-0,4 взята из главы книги, в которую он внес вклад: Моделирование Бахвиорального Путешествия. Под редакцией Дэвида Хеншера и Питера Стопера. 1979. Макфадден способствовал Ch. 15 «Количественные методы анализа туристического поведения на отдельных лицах: некоторые недавние разработки». Обсуждение оценки модели (в контексте полиномиальных логит-моделей) начинается на странице 306, где он вводит rho-квадрат (псевдо R2 Макфаддена). Макфадден утверждает, что «хотя индекс R2 является более знакомой концепцией для планировщика, имеющего опыт работы с OLS, он не так хорошо ведет себя, как показатель rho-квадрат, для оценки ML. Те, кто не знаком с rho-квадрат, должны быть предупреждены о том, что его значения имеют тенденцию быть значительно ниже, чем у индекса R2 ... Например, значения от 0,2 до 0,4 для RHO-квадрата представляют ОТЛИЧНОЕ соответствие.

Таким образом, в целом rho-квадрат можно интерпретировать как R2, но не ожидайте, что он будет таким большим. И значения от 0,2 до 0,4 указывают (по словам Макфаддена) на превосходную модель.


Хорошее завершение, Крис. Спасибо за старания!
Мэтт Райхенбах

Я опоздал к обсуждению, но я оставлю эту ссылку, где они объясняют R2 MacFadden по сравнению с другими мерами по корректировке: statisticshorizons.com/r2logistic
sergiouribe

13

Квадрат R Макфаддена определяется как 1-l_mod / l_null, где l_mod - значение логарифмического правдоподобия для подобранной модели, а l_null - логарифмическое правдоподобие для нулевой модели, которая включает в себя только перехват в качестве предиктора (так что каждый индивидуум прогнозируется с одинаковой вероятностью «успеха»).

Для модели логистической регрессии значение логарифмического правдоподобия всегда отрицательно (поскольку вклад правдоподобия от каждого наблюдения составляет вероятность от 0 до 1). Если ваша модель на самом деле не предсказывает результат лучше, чем нулевая модель, l_mod не будет намного больше, чем l_null, и поэтому l_mod / l_null составляет приблизительно 1, а квадрат Макфаддена R близок к 0 (ваша модель не имеет прогнозирующего значения) ,

И наоборот, если ваша модель действительно хороша, у людей с успешным (1) исходом будет подходящая вероятность, близкая к 1, и наоборот для лиц с неудачным (0) исходом. В этом случае, если вы пройдете расчет вероятности, вклад вероятности от каждого индивидуума для вашей модели будет близок к нулю, так что l_mod близок к нулю, а квадрат Макфаддена R близок к 1, что указывает на очень хорошую способность к предсказанию.

Что касается того, что можно считать хорошей ценностью, то, по моему личному мнению, подобные статистические вопросы (например, что представляет собой большую корреляцию?) Никогда не могут быть окончательным ответом. В прошлом году я написал сообщение в блоге о квадрате Макфаддена R в логистической регрессии, в котором есть некоторые дополнительные иллюстрации моделирования.


5

Я провел более целенаправленное исследование на эту тему и обнаружил, что интерпретации псевдо R-квадрата Макфаддена (также известный как индекс отношения правдоподобия) не ясны; однако он может варьироваться от 0 до 1, но никогда не достигнет или превысит 1 в результате своего вычисления.

Эмпирическое правило, которое я нашел весьма полезным, заключается в том, что псевдо R-квадрат Макфаддена в диапазоне от 0,2 до 0,4 указывает на очень хорошее соответствие модели. Таким образом, упомянутая выше модель с псевдо R-квадратом Макфаддена 0,192, вероятно, не является ужасной моделью, по крайней мере, по этой метрике, но она также не особенно сильна.

Также важно отметить, что псевдо R-квадрат Макфаддена лучше всего использовать для сравнения различных характеристик одной и той же модели (то есть вложенных моделей). Ссылаясь на вышеупомянутый пример, модель с 6 переменными (псевдо R-квадрат Макфаддена = 0,192) соответствует данным лучше, чем модель с 5 переменными (псевдо R-квадрат Макфаддена = 0,131), которую я формально протестировал с помощью теста логарифмического отношения правдоподобия , что указывает на существенную разницу ( p <0,001) между двумя моделями, и, таким образом, модель с 6 переменными является предпочтительной для данного набора данных.


1
Какую ссылку вы нашли, которая утверждает, что R2 Макфаддена между 0,2 - 0,4 является "очень хорошей" подгонкой?
Крис

Кстати ... вот ссылка и ссылка на оригинальную статью Макфаддена, где он определяет свою меру псевдо-R2. McFadden, D. (1974) «Условный логит-анализ качественного поведения выбора». Стр. 105-142 в П. Зарембка (ред.), Границы в эконометрике. Академическая пресса. elsa.berkeley.edu/reprints/mcfadden/zarembka.pdf
Chris

1
Спасибо за ссылки. Похоже, что много работ Макфаддена можно найти на его сайте в Беркли. Ниже приведена ссылка на всю книгу, которую вы цитируете выше: elsa.berkeley.edu/users/mcfadden/travel.html Все главы отображаются в формате PDF. Ро-квадрат (псевдо R2 Макфаддена) упоминается в главе 5. Далее (см. Уравнение 5.33 и график, который следует сразу после этого). Я не вижу никаких упоминаний о 0,2-0,4 = "VG модель подходит". Я буду продолжать искать оригинальное появление этого «правила большого пальца». Спасибо за вашу помощь!
Крис

1
Нет проблем! Я ценю ваше любопытство и тщательность. Точную фразу можно найти по адресу lifesciencesite.com/lsj/life1002/… , где авторы утверждают, что для подгонки к общей модели используется «соответствие» с использованием псевдо-квадрата Макфаддена (ρ2). Макфадден предложил ρ2 значения от 0,2 до 0,4 должны быть взяты, чтобы представить очень хорошее соответствие модели (Louviere et al., 2000). "
Мэтт Райхенбах

4
У моего учреждения есть электронная копия Louviere et al (2000). «Методы заявленного выбора: анализ и приложения». Издательство Кембриджского университета. Это ссылка, которую Ли (Life Science Journal) цитирует как квадрат в {0,2-0,4} = "VG fit". На странице 55 Лувьера (связанной с уравнением 3.32) мы видим следующую цитату: «Значения rho-квадрата между 0,2-0,4 считаются показательными для очень хороших подгонок модели. Моделирование Доменихом и Макфадденом (1975) эквивалентно этому диапазону От 0,7 до 0,9 для линейной функции ".
Крис

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.