Как читать дистанционные графики Кука?


40

Кто-нибудь знает, как определить, являются ли пункты 7, 16 и 29 влиятельными или нет? Я где-то читал, что, поскольку расстояние Кука меньше 1, это не так. Я прав?

введите описание изображения здесь


1
Есть разные мнения. Некоторые из них относятся к числу наблюдений или количеству параметров. Они зарисованы на en.wikipedia.org/wiki/… .
whuber

@whuber Спасибо. Это всегда серая область при выполнении исследования данных для меня. Точка 16 данных выше оказывает огромное влияние на результаты модели, увеличивая количество ошибок типа I.
Платипезид

2
Можно утверждать, что это также увеличивает ошибки типа III, которые (в общем и целом) являются ошибками, связанными с неприменимостью базовой вероятностной модели.
whuber

@ Да, очень верно!
Платипезид

Ответы:


43

В некоторых текстах говорится, что точки, для которых расстояние Кука больше 1, следует рассматривать как влиятельные. Другие тексты дают вам порог или , где - количество наблюдений, а - количество объясняющих переменных. В вашем случае последняя формула должна дать порог около 0,1.4 / ( N - k - 1 ) N k4/N4/(Nk1)Nk

Джон Фокс (1) в своем буклете по регрессионной диагностике весьма осторожен, когда речь идет о числовых порогах. Он советует использовать графику и более детально изучить точки со «значениями D, которые значительно больше остальных». По словам Фокса, пороги следует использовать только для улучшения графического отображения.

В вашем случае наблюдения 7 и 16 могут рассматриваться как влиятельные. Ну, я бы хотя бы поближе взглянул на них. Наблюдение 29 существенно не отличается от пары других наблюдений.


(1) Фокс, Джон. (1991). Регрессионная диагностика: введение . Sage Publications.


9
+1 Очистить резюме. Я хотел бы добавить , что влиятельные случаи обычно не является проблемой , когда их удаление из набора данных будет оставить параметр оценки по существу без изменений: те , которые мы беспокоиться о те , чье присутствие на самом деле это изменить результаты.
whuber

1
@lejohn Очень признателен за ваш ответ. Вубер прав, отличная ясность в вашем ответе. Это очень информативно. Могу ли я предложить вам выделить Фокса и ваше мнение на странице википедии!
Платипезид

29

kk+1β0β

Здесь стоит отметить еще один момент. В обсервационных исследованиях часто бывает трудно сделать выборку равномерно по всему пространству предикторов, и у вас может быть всего несколько точек в данной области. Такие точки могут отличаться от остальных. Наличие нескольких отдельных случаев может приводить в замешательство, но заслуживает значительных размышлений, прежде чем их выбросят. На законных основаниях может существовать взаимодействие между предикторами, или система может изменить свое поведение, когда значения предикторов становятся экстремальными. Кроме того, они могут помочь вам распутать эффекты коллинеарных предикторов. Влиятельные точки могут быть замаскированным благословением.


6
+1 «Расстояние Кука, по-видимому, более важно для вас, если вы занимаетесь прогнозным моделированием, тогда как dfbeta более важно для объяснительного моделирования»: это очень полезный совет.
Энн З.

Привет - интересная дискуссия. Но не может ли быть рационально интегрировать фиктивную переменную для измерения эффекта, например, из наблюдения 16?
Pantera

@Pantera Я удалил 16 и сравнил модели до и после пропуска
Platypezid

Привет - если вы удаляете наблюдения, вы должны убедиться, что у вас есть «хороший» аргумент для этого, например, что измерение неправильно измерено. Если мы отбросим наблюдения, потому что они просто создают некоторые статистические проблемы, то мы близки к добыче данных.
Pantera
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.