Статистика и большие данные outliers

5

Может ли очистка данных ухудшить результаты статистического анализа?

Увеличение числа случаев и смертей происходит во время эпидемий (внезапное увеличение числа) из-за циркуляции вируса (например, вируса Западного Нила в США в 2002 г.) или из-за снижения устойчивости людей или загрязнения пищи или воды или увеличения числа комары. Эти эпидемии будут представлены как выбросы, которые могут происходить каждые 1-5 лет. …

17 time-series forecasting epidemiology outliers

1

Надежный PCA против надежного расстояния Махаланобиса для обнаружения выбросов

Надежный PCA (разработанный Candes et al. 2009 или более поздней версии Netrepalli et al 2014 ) является популярным методом многомерного обнаружения выбросов , но расстояние Махаланобиса также можно использовать для обнаружения выбросов с помощью надежной регуляризованной оценки ковариационной матрицы . Мне любопытно (не) преимущества использования одного метода перед другим. Моя …

17 pca outliers covariance-matrix robust anomaly-detection

2

Как сделать прогнозирование с обнаружением выбросов в R? - Процедура и метод анализа временных рядов

У меня есть месячные данные временных рядов, и я хотел бы сделать прогноз с обнаружением выбросов. Это образец моего набора данных: Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2006 7.55 7.63 7.62 7.50 7.47 7.53 7.55 7.47 7.65 7.72 7.78 7.81 2007 7.71 7.67 7.85 …

16 r time-series forecasting arima outliers

3

Надежное обнаружение выбросов в финансовых временных сериях

Я ищу некоторые надежные методы для удаления выбросов и ошибок (независимо от причины) из финансовых данных временных рядов (например, тикданных). Тик-тик-тик финансовые данные временных рядов очень грязные. Он содержит огромные (временные) промежутки, когда биржа закрыта, и делает огромные скачки, когда биржа открывается снова. Когда биржа открыта, все виды факторов вводят …

16 time-series outliers

5

Является ли это мошенничеством, чтобы отбросить выбросы, основанные на диаграмме средней абсолютной ошибки, чтобы улучшить регрессионную модель

У меня есть модель прогнозирования, протестированная четырьмя методами, как вы можете видеть на рисунке ниже. Атрибут, который предсказывает модель, находится в диапазоне 0-8. Вы можете заметить, что во всех методах указаны один выброс верхней границы и три выброса нижней границы . Интересно, уместно ли удалять эти экземпляры из данных? Или …

15 regression machine-learning multiple-regression predictive-models outliers

2

Точное значение и сравнение между влиятельной точкой, точкой высокого плеча и выбросом?

Из Википедии Влиятельные наблюдения - это те наблюдения, которые относительно сильно влияют на прогнозы регрессионной модели. Из Википедии Точки воздействия - это те наблюдения, если таковые имеются, сделанные при экстремальных или внешних значениях независимых переменных, так что отсутствие соседних наблюдений означает, что подобранная модель регрессии пройдет близко к этому конкретному …

15 regression outliers leverage

2

Оценка параметров нормального распределения: медиана вместо среднего?

Общий подход для оценки параметров нормального распределения заключается в использовании среднего значения и стандартного отклонения / дисперсии выборки. Однако, если есть некоторые выбросы, медиана и срединное отклонение от медианы должны быть намного более устойчивыми, верно? На некоторых наборах данных я пытался, нормальное распределение , оцененное N(median(x),median|x−median(x)|)N(median(x),median|x−median(x)|)\mathcal{N}(\text{median}(x), \text{median}|x - \text{median}(x)|) , …

15 normal-distribution estimation outliers robust unbiased-estimator

3

Ускоренный курс в устойчивой средней оценке

У меня есть куча (около 1000) оценок, и все они должны быть оценками долгосрочной эластичности. Чуть более половины из них оценивается с использованием метода A, а остальные - с использованием метода B. Где-то я читал что-то вроде: «Я думаю, что метод B оценивает что-то очень отличное от метода A, потому …

15 mean outliers robust references

3

Понимание доверительной полосы от полиномиальной регрессии

Я пытаюсь понять результат, который вижу на графике ниже. Обычно я использую Excel и получаю линию линейной регрессии, но в приведенном ниже случае я использую R и получаю полиномиальную регрессию с помощью команды: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Поэтому мои вопросы сводятся к следующему: Что такое серая область (стрелка …

14 r regression data-visualization outliers

5

Есть ли простой способ обнаружения выбросов?

Мне интересно, есть ли простой способ обнаружения выбросов. Для одного из моих проектов, который был в основном корреляцией между количеством раз, когда респонденты участвуют в физической активности в неделю, и количеством раз, когда они едят вне дома (фаст-фуд) в неделю, я нарисовал диаграмму рассеяния и буквально удалил Точки данных, которые …

14 correlation outliers

1

Отбрасывание выбросов на основе «2,5-кратного среднеквадратичного значения»

В Kahneman and Deaton (2010) † авторы пишут следующее:††^\dagger Эта регрессия объясняет 37% дисперсии с среднеквадратической ошибкой (RMSE) 0,67852. Чтобы исключить выбросы и отчеты о неправдоподобных доходах, мы отбросили наблюдения, в которых абсолютная величина разницы между доходом от журнала и его прогнозом превысила среднеквадратичное значение в 2,5 раза. Это обычная …

13 regression outliers

7

Разница между аномалией и выбросом

В чем разница между Outlier и Anomaly в контексте машинного обучения. Я понимаю, что оба они относятся к одному и тому же.

13 outliers terminology anomaly-detection

2

используя информацию о соседях при вменении данных или находке вне данных (в R)

У меня есть набор данных с предположением, что ближайшие соседи являются лучшими предикторами. Просто прекрасный пример визуализации двухстороннего градиента Предположим, у нас есть случай, когда несколько значений отсутствуют, мы можем легко предсказать на основе соседей и тренда. Соответствующая матрица данных в R (фиктивный пример для тренировки): miss.mat <- matrix (c(5:11, …

13 r prediction outliers data-imputation multiple-imputation

1

LARS против координатного спуска для лассо

Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи также будут оценены. редактировать: так как я разместил вопрос, chl любезно указал …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

4

Отделение двух популяций от образца

Я пытаюсь отделить две группы значений из одного набора данных. Я могу предположить, что одна из популяций обычно распределена и составляет не менее половины размера выборки. Значения второго значения ниже или выше значений первого (распределение неизвестно). То, что я пытаюсь сделать, - это найти верхний и нижний пределы, которые бы …

13 dataset outliers expectation-maximization

Вопросы с тегом «outliers»