Предельное значение расстояния Кука

Я читал на расстоянии повара, чтобы определить выбросы, которые имеют большое влияние на мою регрессию. В оригинальном исследовании Кука он говорит, что уровень отсечки 1 должен быть сопоставим для выявления влияющих факторов. Тем не менее, различные другие исследования используют или в качестве отсечения. $\frac{4}{n}$ $\frac{4}{n-k-1}$

В моем исследовании ни один из моих остатков не имеет D больше 1. Однако, если я использую в качестве отсечки , то есть различные данные точки, которые считаются влияющими. Я решил проверить, изменит ли удаление этих точек данных мою общую линейную регрессию. Все мои IVs сохранили свое значение, и никаких очевидных изменений не было очевидно. $\frac{4}{n}$ $(\frac{4}{149}= .026)$

Должен ли я сохранить все свои данные и использовать частоту отсечения 1? Или удалить их?

outliers cooks-distance

— dissertationhelp
источник

Проверить Балтаги (2011) Эконометрика, 5е. В главе 8, раздел 8.1. Он предлагает другую меру, основанную на расстоянии Кука, и также проверяет искажения / влияния влиятельных аксов в матрице Вар-Ковара, которые вам также могут понадобиться, поскольку ваши оценки не сильно меняются ...

— SirAlex

Вы не должны удалять какие-либо данные на основе этой диагностики. Его цель - помочь вам подумать о них и их влиянии на ваш анализ.

— whuber

Я бы, наверное, пошел с вашей оригинальной моделью с вашим полным набором данных. Я обычно думаю об этих вещах как об облегчении анализа чувствительности. То есть они указывают вам на то, что проверять, чтобы убедиться, что у вас нет заданного результата только из-за чего-то глупого. В вашем случае у вас есть некоторые потенциально влиятельные моменты, но если вы повторно запустите модель без них, вы получите практически тот же ответ (по крайней мере, в отношении аспектов, которые, по-видимому, вас волнуют). Другими словами, используйте любой порог, который вам нравится - вы переоборудуете модель только как проверку, а не как «истинную» версию. Если вы думаете, что другие люди будут в достаточной степени обеспокоены потенциальными выбросами, вы можете сообщить об обеих моделях. То, что вы сказали бы, по линии,

Вот мои результаты. Кто-то может быть обеспокоен тем, что эта картина появляется только из-за пары необычных, но очень влиятельных наблюдений. Это результаты той же модели, но без этих наблюдений. Существенных различий нет.

Также возможно удалить их и использовать вторую модель в качестве основного результата. В конце концов, пребывание с исходным набором данных равносильно предположению о том, какие данные относятся к модели так же, как и к подмножеству. Но люди, вероятно, будут очень скептически относиться к вашим отчетным результатам, потому что психологически слишком легко кому-то убедить себя, без каких-либо фактических искаженных намерений, пойти с набором пост-специальных настроек (таких как отбрасывание некоторых наблюдений), которые дают им результат, которого они больше всего ожидали увидеть. Постоянно используя полный набор данных, вы упускаете такую возможность и заверяете людей (скажем, рецензентов), что это не то, что происходит в вашем проекте.

Другая проблема заключается в том, что люди « гоняются за пузырем ». Когда вы отбрасываете некоторые потенциальные выбросы и повторно запускаете свою модель, вы получаете результаты, которые показывают новые, разные наблюдения в качестве потенциальных выбросов. Сколько итераций вы должны пройти? Стандартный ответ на это заключается в том, что вы должны остаться с исходным, полным набором данных и вместо этого выполнить надежную регрессию . Это опять же, можно понимать как анализ чувствительности.

— Gung - Восстановить Монику
источник