Вопросы с тегом «outliers»

Выделение - это наблюдение, которое кажется необычным или недостаточно хорошо описанным по сравнению с простой характеристикой набора данных. Беспокоящая возможность состоит в том, что эти данные поступают из другой популяции, чем та, которую намеревались изучить.

5
Может ли очистка данных ухудшить результаты статистического анализа?
Увеличение числа случаев и смертей происходит во время эпидемий (внезапное увеличение числа) из-за циркуляции вируса (например, вируса Западного Нила в США в 2002 г.) или из-за снижения устойчивости людей или загрязнения пищи или воды или увеличения числа комары. Эти эпидемии будут представлены как выбросы, которые могут происходить каждые 1-5 лет. …

1
Надежный PCA против надежного расстояния Махаланобиса для обнаружения выбросов
Надежный PCA (разработанный Candes et al. 2009 или более поздней версии Netrepalli et al 2014 ) является популярным методом многомерного обнаружения выбросов , но расстояние Махаланобиса также можно использовать для обнаружения выбросов с помощью надежной регуляризованной оценки ковариационной матрицы . Мне любопытно (не) преимущества использования одного метода перед другим. Моя …

2
Как сделать прогнозирование с обнаружением выбросов в R? - Процедура и метод анализа временных рядов
У меня есть месячные данные временных рядов, и я хотел бы сделать прогноз с обнаружением выбросов. Это образец моего набора данных: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 …

3
Надежное обнаружение выбросов в финансовых временных сериях
Я ищу некоторые надежные методы для удаления выбросов и ошибок (независимо от причины) из финансовых данных временных рядов (например, тикданных). Тик-тик-тик финансовые данные временных рядов очень грязные. Он содержит огромные (временные) промежутки, когда биржа закрыта, и делает огромные скачки, когда биржа открывается снова. Когда биржа открыта, все виды факторов вводят …

5
Является ли это мошенничеством, чтобы отбросить выбросы, основанные на диаграмме средней абсолютной ошибки, чтобы улучшить регрессионную модель
У меня есть модель прогнозирования, протестированная четырьмя методами, как вы можете видеть на рисунке ниже. Атрибут, который предсказывает модель, находится в диапазоне 0-8. Вы можете заметить, что во всех методах указаны один выброс верхней границы и три выброса нижней границы . Интересно, уместно ли удалять эти экземпляры из данных? Или …

2
Точное значение и сравнение между влиятельной точкой, точкой высокого плеча и выбросом?
Из Википедии Влиятельные наблюдения - это те наблюдения, которые относительно сильно влияют на прогнозы регрессионной модели. Из Википедии Точки воздействия - это те наблюдения, если таковые имеются, сделанные при экстремальных или внешних значениях независимых переменных, так что отсутствие соседних наблюдений означает, что подобранная модель регрессии пройдет близко к этому конкретному …

2
Оценка параметров нормального распределения: медиана вместо среднего?
Общий подход для оценки параметров нормального распределения заключается в использовании среднего значения и стандартного отклонения / дисперсии выборки. Однако, если есть некоторые выбросы, медиана и срединное отклонение от медианы должны быть намного более устойчивыми, верно? На некоторых наборах данных я пытался, нормальное распределение , оцененное N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|) , …

3
Ускоренный курс в устойчивой средней оценке
У меня есть куча (около 1000) оценок, и все они должны быть оценками долгосрочной эластичности. Чуть более половины из них оценивается с использованием метода A, а остальные - с использованием метода B. Где-то я читал что-то вроде: «Я думаю, что метод B оценивает что-то очень отличное от метода A, потому …

3
Понимание доверительной полосы от полиномиальной регрессии
Я пытаюсь понять результат, который вижу на графике ниже. Обычно я использую Excel и получаю линию линейной регрессии, но в приведенном ниже случае я использую R и получаю полиномиальную регрессию с помощью команды: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Поэтому мои вопросы сводятся к следующему: Что такое серая область (стрелка …

5
Есть ли простой способ обнаружения выбросов?
Мне интересно, есть ли простой способ обнаружения выбросов. Для одного из моих проектов, который был в основном корреляцией между количеством раз, когда респонденты участвуют в физической активности в неделю, и количеством раз, когда они едят вне дома (фаст-фуд) в неделю, я нарисовал диаграмму рассеяния и буквально удалил Точки данных, которые …

1
Отбрасывание выбросов на основе «2,5-кратного среднеквадратичного значения»
В Kahneman and Deaton (2010) † авторы пишут следующее:††^\dagger Эта регрессия объясняет 37% дисперсии с среднеквадратической ошибкой (RMSE) 0,67852. Чтобы исключить выбросы и отчеты о неправдоподобных доходах, мы отбросили наблюдения, в которых абсолютная величина разницы между доходом от журнала и его прогнозом превысила среднеквадратичное значение в 2,5 раза. Это обычная …


2
используя информацию о соседях при вменении данных или находке вне данных (в R)
У меня есть набор данных с предположением, что ближайшие соседи являются лучшими предикторами. Просто прекрасный пример визуализации двухстороннего градиента Предположим, у нас есть случай, когда несколько значений отсутствуют, мы можем легко предсказать на основе соседей и тренда. Соответствующая матрица данных в R (фиктивный пример для тренировки): miss.mat <- matrix (c(5:11, …

1
LARS против координатного спуска для лассо
Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи также будут оценены. редактировать: так как я разместил вопрос, chl любезно указал …

4
Отделение двух популяций от образца
Я пытаюсь отделить две группы значений из одного набора данных. Я могу предположить, что одна из популяций обычно распределена и составляет не менее половины размера выборки. Значения второго значения ниже или выше значений первого (распределение неизвестно). То, что я пытаюсь сделать, - это найти верхний и нижний пределы, которые бы …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.