Вопросы с тегом «outliers»

Выделение - это наблюдение, которое кажется необычным или недостаточно хорошо описанным по сравнению с простой характеристикой набора данных. Беспокоящая возможность состоит в том, что эти данные поступают из другой популяции, чем та, которую намеревались изучить.

4
Обнаружение выбросов с использованием стандартных отклонений
После моего вопроса здесь , мне интересно , если есть сильные мнения за или против использования стандартного отклонения для выявления выбросов (например , любой Datapoint , что более чем 2 стандартное отклонение является останец). Я знаю, что это зависит от контекста исследования, например, точка данных, 48 кг, безусловно, будет выделяться …
27 outliers 

1
Почему PCA чувствителен к выбросам?
В этой SE много постов, в которых обсуждаются надежные подходы к анализу главных компонентов (PCA), но я не могу найти ни одного хорошего объяснения того, почему PCA в первую очередь чувствителен к выбросам.

4
Почему RANSAC не наиболее широко используется в статистике?
Исходя из области компьютерного зрения, я часто использовал метод RANSAC (Random Sample Consensus) для подгонки моделей к данным с большим количеством выбросов. Тем не менее, я никогда не видел, чтобы он использовался статистиками, и у меня всегда было впечатление, что его не считают «статистически обоснованным» методом. Почему это так? Это …

3
Применение вейвлетов к алгоритмам обнаружения аномалий на основе временных рядов
Эндрю Мур ( Andrew Moore) начал работать над учебными пособиями по сбору статистических данных (настоятельно рекомендуется всем, кто впервые пойдет в эту область). Я начал с чтения этого чрезвычайно интересного PDF-документа под названием «Вводный обзор алгоритмов обнаружения аномалий на основе временных рядов», в котором Мур отслеживает многие из методов, использованных …

3
Обнаружение выбросов на асимметричных распределениях
Согласно классическому определению выброса в качестве точки данных, превышающей 1,5 * IQR из верхнего или нижнего квартиля, существует предположение о неравномерном распределении. Для искаженных распределений (экспоненциальное, пуассоновское, геометрическое и т. Д.) Является наилучшим способом обнаружения выброса путем анализа преобразования исходной функции? Например, распределения, слабо регулируемые экспоненциальным распределением, могут быть преобразованы …

2
В каком порядке следует проводить линейную регрессионную диагностику?
В линейном регрессионном анализе мы анализируем выбросы, исследуем мультиколлинеарность, тестируем гетероскедастичность. Вопрос в том, есть ли порядок их применения? Я имею в виду, нужно ли сначала анализировать выбросы, а затем изучать мультиколлинеарность? Или поменять? Есть ли эмпирическое правило по этому поводу?

2
Распределение наблюдательного уровня по расстоянию Махаланобиса
Если у меня есть многовариантный нормальный пример iid , и я определяю (что-то вроде расстояния Махаланобиса [в квадрате] от точки выборки до вектора с использованием матрицы для взвешивания), каково распределение (расстояние Махаланобиса до среднее значение с использованием выборочной ковариационной матрицы )?d 2 i ( b , A ) = ( …

4
Следует ли удалять случаи, отмеченные статистическими программами как выбросы при выполнении множественной регрессии?
Я выполняю множественный регрессионный анализ и не уверен, следует ли удалять выбросы в моих данных. Данные, которые меня беспокоят, отображаются на прямоугольниках SPSS в виде «кружков», однако звездочек нет (что заставляет меня думать, что они не такие уж «плохие»). Случаи, которые меня беспокоят, отображаются в таблице «Диагностика случаев» в выходных …

1
Обнаружение выбросов в данных подсчета
У меня есть то, что я наивно думал, что это довольно прямая проблема, которая включает в себя обнаружение выбросов для множества различных наборов данных подсчета. В частности, я хочу определить, является ли одно или несколько значений в серии данных подсчета выше или ниже ожидаемого по сравнению с остальными подсчетами в …

3
Как оценить асимметрию с коробочного участка?
Как определить асимметрию, посмотрев на коробочную диаграмму, построенную из этих данных: 340, 300, 520, 340, 320, 290, 260, 330 Одна книга гласит: «Если нижний квартиль находится дальше от медианы, чем верхний квартиль, то распределение отрицательно искажено». Несколько других источников сказали более или менее то же самое. Я построил блокпост с …

2
Самозагрузка - нужно ли сначала удалять выбросы?
Мы запустили сплит-тест новой функции продукта и хотим оценить, является ли увеличение выручки значительным. Наши наблюдения, как правило, не распределяются нормально (большинство наших пользователей не тратят, а среди тех, кто их тратит, они сильно отклоняются от множества мелких и очень больших расходов). Мы решили использовать начальную загрузку для сравнения средств, …

2
Обнаружение аномалий с фиктивными характеристиками (и другими дискретными / категориальными характеристиками)
ТЛ; др Каков рекомендуемый способ обработки discreteданных при обнаружении аномалий? Каков рекомендуемый способ обработки categoricalданных при обнаружении аномалий? Этот ответ предлагает использовать дискретные данные для фильтрации результатов. Возможно, замените значение категории шансом наблюдения перктата? вступление Это моя первая публикация здесь, поэтому, пожалуйста, если что-то не кажется технически правильным, ни в …

4
Что является основанием для определения выброса по Боксу и Вискеру?
Стандартным определением выброса для графика Бокса и Вискера являются точки вне диапазона , где I Q R = Q 3 - Q 1, а Q 1 - первый квартиль и Q 3 - третий квартиль данных.{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 На чем основано это определение? При большом количестве точек даже совершенно нормальное распределение …

1
Можем ли мы использовать одно среднее значение и стандартное отклонение, чтобы выявить выбросы?
Предположим, у меня есть нормально распределенные данные. Для каждого элемента данных я хочу проверить, сколько SD находится от среднего значения. В данных могут быть выбросы (вероятно, только один, но могут быть также два или три) или нет, но этот выброс в основном то, что я ищу. Имеет ли смысл временно …

3
Как представить коробочный сюжет с экстремальным выбросом?
Я мог бы использовать некоторые рекомендации по представлению некоторых данных. Этот первый график представляет собой сравнение случай-контроль для цитокина IL-10. Я вручную установил ось Y, чтобы включить 99% данных. Причина, по которой я установил это вручную, заключается в том, что группа дел имеет экстремальный выброс. Мои сотрудники не решаются выполнить …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.