Остатки для логистической регрессии и расстояния Кука

10

Существуют ли какие-либо особые предположения относительно ошибок логистической регрессии, такие как постоянная дисперсия слагаемых ошибок и нормальность остатков?
Также обычно, когда у вас есть точки, у которых расстояние Кука больше 4 / n, вы их удаляете? Если вы удалите их, как вы можете определить, лучше ли модель с удаленными точками?

— lord12
источник

12

Я не знаю, смогу ли я дать вам полный ответ, но я могу дать вам некоторые мысли, которые могут быть полезны. Во-первых, все статистические модели / тесты имеют допущения. Однако логистическая регрессия в значительной степени не предполагает, что остатки обычно распределяются, а дисперсия постоянна. Скорее, предполагается, что данные распределены в виде бинома, , то есть с числом испытаний Бернулли, равным количеству наблюдений в этом точном наборе ковариатных значений и с вероятностью, связанной с этим набором ковариатных значений. Помните, что дисперсия бинома равна . Таким образом, если $\mathcal{B}(n_{x_i},p_{x_i})$ $np(1-p)$ $n$ Различаются на разных уровнях ковариаты, различия также будут. Кроме того, если какой-либо из ковариат вообще связан с переменной отклика, то вероятности будут варьироваться, и, следовательно, также будут и дисперсии. Это важные факты о логистической регрессии.

Во-вторых, сравнение моделей обычно выполняется между моделями с различными спецификациями (например, с различными наборами ковариат), а не по разным подмножествам данных. Если честно, я не уверен, как это будет правильно сделано. С линейной моделью, можно посмотреть на 2 с , чтобы увидеть , насколько лучше подгонка с аномальными данными исключены, но это будет только описательное, и вы должны знать , что будет иметь идти вверх. Однако с логистической регрессией стандарт не может быть использован. Существуют различные псевдо- $R^2$ $R^2$ $R^2$ $R^2$ s ', которые были разработаны для предоставления аналогичной информации, но они часто считаются ошибочными и не часто используются. Для обзора различных псевдо- которые существуют, смотрите здесь . Для некоторого обсуждения и критики их смотрите здесь . Другая возможность может заключаться в том, чтобы разыграть бета-версии с включенными выбросами и без них, чтобы увидеть, как их исключение способствует стабилизации распределения выборок. Еще раз, это будет только описательным (то есть, это не будет тест, чтобы сказать вам, какую модель - подмножество ваших данных - предпочитать), и дисперсия должна снизиться. Эти вещи являются правдой, как для псевдо- $R^2$ $R^2$ s и распределения с закрытыми ногами, потому что вы выбрали эти данные для исключения на основании того факта, что они выглядят экстремально.

— Gung - Восстановить Монику
источник

8

1) Существуют ли какие-либо конкретные предположения относительно ошибок логистической регрессии, такие как постоянная дисперсия слагаемых ошибок и нормальность остатков?

Модели логистической регрессии не имеют «ошибок» в традиционном смысле. Это нелогично и методологически противоречиво. Выходные данные модели представляют собой подогнанные вероятности или риски, тогда как наблюдаемые результаты представляют собой 0/1 индикаторы событий. С методологической точки зрения вы склонны недооценивать области с очень высокой или очень низкой подобранной вероятностью (внося очень малые величины в остаточное расстояние), тогда как алгоритм подбора модели придает значительно большую важность таким областям. Квадратное расстояние, как правило, является плохим способом калибровки модели логистической регрессии.

Альтернативным критерием проверки соответствия является тест Хосмера-Лемешова, в котором установленные значения используются для создания разделенных на блоки разделов на основе децилей с установленным риском. Вы можете прочитать об этом тесте в «Анализе категориальных данных» Алана Агрести или в книге «Логистическая регрессия» Хосмера и Лемешоу. Другой процесс заключается в использовании Studentized Residuals, где отношение средней дисперсии используется для перерасчета остатков по их установленной обратной дисперсии. Для логистической регрессии это

r_{s t u d} = \frac{Y - μ}{\sqrt{μ (1 - μ)}}

$r_{stud} = \frac{Y - \mu}{\sqrt{\mu(1-\mu)}}$

2) Также обычно, когда у вас есть очки, у которых расстояние Кука больше 4 / n, вы их удаляете? Если вы удалите их, как вы можете определить, лучше ли модель с удаленными точками?

Я никогда не снимаю очки на основе анализа чувствительности. Если я выберу случайную выборку из 100 человек и их доходов, а 1 человек окажется миллиардером, то мое самое безопасное предположение состоит в том, что 1 миллиардер представляет 1/100 часть населения.

— Adamo
источник

Почему вы предполагаете, что 1 миллиардер представляет 1/100 населения? Вы, вероятно, сможете получить внешнюю оценку доли миллиардеров в населении!

— kjetil b halvorsen

6

Я согласен с приведенным выше замечанием AdamO в целом: если предположить, что 1 миллиардер представляет 1/100 населения, это совершенно нормально. Однако, если присутствие 1 миллиардера искажает данные настолько сильно, что это влияет на прогноз для остальных 99 человек, я бы убрал 1 миллиардера. Я предпочел бы ошибиться с предсказанием выброса, чем все остальные.

Сказав это, если вы удалите точки данных, используя значения D Кука (т. Е. Что-нибудь> 4 / df), то вы можете использовать площадь под кривыми ROC для обеих моделей, чтобы проверить улучшение.

— Санджай Сараванан
источник

1

(+1) Моделирование соотношения между логарифмическими коэффициентами ответа и дохода с естественным сплайном, возможно, трансформирующим доход заранее, является еще одним способом избежать чрезмерного влияния прогнозов миллиардера на других. Удаление его предполагает, что вы счастливы не делать прогнозы для других миллиардеров (достаточно справедливо), а не счастливы делать неправильные прогнозы о них.

— Scortchi - Восстановить Монику

По иронии судьбы, когда речь идет о прогнозировании бинарных событий, это правда, что исключение влиятельных наблюдений может привести к лучшей калибровке прогнозов риска. Однако исключение влиятельных наблюдений уменьшит дискриминацию прогнозов риска. Последнее, возможно, более важно. Когда речь идет о прогнозировании риска определенного события (которое равно 0 или 1, но не оценивается непрерывно), наилучший вид прогнозирования подталкивает прогнозы случаев ближе к 1 и контролирует прогнозы ближе к 0. Точки с высоким влиянием часто эффективны при этом.

— AdamO