Влиятельный остаток против выброса

Во-первых, я должен заявить, что я искал на этом сайте ответ. Либо я не нашел вопрос, который ответил на мой вопрос, либо мой уровень знаний настолько низок, что я не понял, что уже прочитал ответ.

Я готовлюсь к экзамену по статистике AP. Я должен изучить линейную регрессию, и одна из тем - остатки. У меня есть копия « Введение в статистику и анализ данных» на странице 253.

Необычные точки в наборе данных двумерный являются те , которые падают от большинства других точек в диаграмме рассеяния либо в направлении или направления $x$ $y$

Наблюдение является потенциально влиятельным наблюдением, если оно имеет значение которое находится далеко от остальных данных (отделенных от остальных данных в направлении ). Чтобы определить, действительно ли наблюдение является влиятельным, мы оцениваем, оказывает ли удаление этого наблюдения большое влияние на значение наклона или пересечение линии наименьших квадратов. $x$ $x$

Наблюдение является выбросом, если оно имеет большой остаток. Наблюдения за выбросами находятся далеко от линии наименьших квадратов в направлении . $y$

Stattreck.com предлагает четыре метода определения отклонения от остатков:

Точки данных, которые сильно расходятся с общей схемой, называются выбросами. Существует четыре способа, которыми точка данных может считаться выбросом.

Он может иметь экстремальное значение X по сравнению с другими точками данных.

Он может иметь экстремальное значение Y по сравнению с другими точками данных.

Может иметь экстремальные значения X и Y.

Это может быть далеко от остальных данных, даже без экстремальных значений X или Y.

Эти два источника, кажется, противоречат друг другу. Может ли кто-нибудь помочь прояснить мою путаницу. Кроме того, как можно определить экстрим. Статистика AP использует правило, если точка данных находится за пределами (Q1-1.5IQR, Q3 + 1.5IQR), то это отклонение. Я не знаю, как применить это из графика на основе остатков.

regression outliers residuals

— MaoYiyi
источник

Ответы:

Сайт stattrek, кажется, имеет гораздо лучшее описание выбросов и влиятельных моментов, чем ваш учебник, но вы только процитировали короткий отрывок, который может вводить в заблуждение. У меня нет этой конкретной книги, поэтому я не могу исследовать ее в контексте. Имейте в виду, однако, что цитата из учебника, которую вы цитировали, говорит "потенциально". Это тоже не эксклюзив. Помня об этом, stattrek и ваша книга не обязательно не согласны. Но кажется, что ваша книга вводит в заблуждение в том смысле, что из этого короткого отрывка следует, что единственное различие между выбросами и влиятельными точками состоит в том, отклоняются ли они по оси x или y. Это неверно.

«Правило» для выбросов варьируется в зависимости от контекста. Правило, которое вы цитируете, - это практическое правило, и да, оно не предназначено для регрессии. Есть несколько способов его использовать. Это может быть проще визуализировать, если представить несколько значений y для каждого x и изучить остатки. Типичные примеры регрессии в учебниках слишком просты, чтобы понять, как это правило может работать, и в большинстве реальных случаев оно совершенно бесполезно. Надеюсь, в реальной жизни вы собираете гораздо больше данных. Если необходимо, чтобы вы применяли правило квантилей для выбросов к проблеме регрессии, тогда они должны предоставлять данные, для которых это уместно.

— Джон
источник

Спасибо за ответ, просто раздражает, что разные книги пытаются излагать эти правила, не говоря, что это, честно говоря, зависит от данных, как вы говорите.

— MaoYiyi

На самом деле, я также сказал это неправильно ... это зависит от теории, метода и данных ... всего исследования.

— Джон

Я согласен с Джоном. Вот еще несколько моментов. Влиятельное наблюдение (строго) влияет на оценки параметров. Небольшое отклонение в значении Y дает большое изменение в оценочном параметре (ах) бета. В простой регрессии одной переменной против другой, влиятельные переменные - это в точности те, чье значение X далеко от среднего значения X. При множественной регрессии (несколько независимых переменных) ситуация более сложная. Вы должны взглянуть на диагональ так называемой шляпной матрицы , и программное обеспечение регрессии даст вам это. Google "кредитное плечо". $X(X'X)^{-1}X'$

Влияние - это функция проектных точек (значений X), как говорится в вашем учебнике.

Обратите внимание, что влияние это сила. В запланированном эксперименте вам нужны влиятельные значения X, при условии, что вы можете точно измерить соответствующее значение Y. Таким образом, вы получаете больше денег за доллар.

Для меня выброс в основном является ошибкой, то есть наблюдением, которое не следует той же модели, что и остальные данные. Это может произойти из-за ошибки сбора данных или из-за того, что этот конкретный предмет был необычным в некотором роде.

Мне не очень нравится определение выброса статтреком по нескольким причинам. Регрессия не является симметричной в Y и X. Y моделируется как случайная величина, и предполагается, что X фиксированы и известны. Странность в Y - это не то же самое, что странность в X. Влияние и влияние означают разные вещи. Влияние при множественной регрессии не выявляется при просмотре остаточных графиков. Хорошее описание выбросов и влияния для случая с одной переменной должно помочь вам разобраться в нескольких случаях.

Мне больше не нравится ваш учебник по причинам, указанным Джоном.

Итог, влиятельные выбросы опасны. Их нужно внимательно изучить и разобраться.

— Placidia
источник

Ваша неприязнь к объяснению регрессии stattrek уместна, если вы пришли из прошлого, где истинные эксперименты являются нормой. Ваши причины все применимы там. Но если вы пришли из прошлого, где квазиэкспериментальные проекты более распространены, то сайт stattrek имеет большее значение. В этих случаях значения x и y часто являются случайными выборками.

— Джон

@ Джон, как насчет того, чтобы сдать экзамен по статистике AP? Что такое квазиэкспериментальный дизайн? Это использует таблицу случайных чисел для симуляции?

— MaoYiyi

Я ничего не знаю о статистическом экзамене AP. Настоящие эксперименты - это те, в которых вы манипулируете переменной-предиктором и создаете группы для проверки нескольких гипотез или контрольных и экспериментальных групп и т. Д. Квазиэкспериментальные конструкции - это почти все, что похоже на эксперимент. Итак, представьте регрессию, где значение x - это вес, а значение y - какой-то спортивный навык. Вы не манипулируете ни одной из переменных, вы случайным образом выбираете обе. Итак, критика Плацидии в отношении статтрека вполне верна для истинных экспериментов, но не так сильно, как для квази.

— Джон

@Джон ... Я родом из прошлого, где разработанные эксперименты считаются золотым стандартом. На практике я знаю, что X и Y часто являются случайными выборками, в связи с чем возникает вопрос о том, почему используется регрессия, а не какая-то форма анализа скрытой переменной.

— Плацидия

Когда у вас есть только две переменные ... :) Иногда у вас есть хорошая теория, позволяющая предположить, что одна вещь предсказывает другую, например, рост и вероятность попадания в NBA ... обе случайные выборки. В случаях с одной или несколькими (особенно некоррелированными) линейными взаимосвязями регрессия хороша.

— Джон