Во-первых, я должен заявить, что я искал на этом сайте ответ. Либо я не нашел вопрос, который ответил на мой вопрос, либо мой уровень знаний настолько низок, что я не понял, что уже прочитал ответ.
Я готовлюсь к экзамену по статистике AP. Я должен изучить линейную регрессию, и одна из тем - остатки. У меня есть копия « Введение в статистику и анализ данных» на странице 253.
Необычные точки в наборе данных двумерный являются те , которые падают от большинства других точек в диаграмме рассеяния либо в направлении или направленияу
Наблюдение является потенциально влиятельным наблюдением, если оно имеет значение которое находится далеко от остальных данных (отделенных от остальных данных в направлении ). Чтобы определить, действительно ли наблюдение является влиятельным, мы оцениваем, оказывает ли удаление этого наблюдения большое влияние на значение наклона или пересечение линии наименьших квадратов.х
Наблюдение является выбросом, если оно имеет большой остаток. Наблюдения за выбросами находятся далеко от линии наименьших квадратов в направлении .
Stattreck.com предлагает четыре метода определения отклонения от остатков:
Точки данных, которые сильно расходятся с общей схемой, называются выбросами. Существует четыре способа, которыми точка данных может считаться выбросом.
- Он может иметь экстремальное значение X по сравнению с другими точками данных.
- Он может иметь экстремальное значение Y по сравнению с другими точками данных.
- Может иметь экстремальные значения X и Y.
- Это может быть далеко от остальных данных, даже без экстремальных значений X или Y.
Эти два источника, кажется, противоречат друг другу. Может ли кто-нибудь помочь прояснить мою путаницу. Кроме того, как можно определить экстрим. Статистика AP использует правило, если точка данных находится за пределами (Q1-1.5IQR, Q3 + 1.5IQR), то это отклонение. Я не знаю, как применить это из графика на основе остатков.