Вопросы с тегом «outliers»

Выделение - это наблюдение, которое кажется необычным или недостаточно хорошо описанным по сравнению с простой характеристикой набора данных. Беспокоящая возможность состоит в том, что эти данные поступают из другой популяции, чем та, которую намеревались изучить.

13
Каков наилучший способ выявления выбросов в многомерных данных?
Предположим, у меня есть большой набор многомерных данных, по крайней мере, с тремя переменными. Как я могу найти выбросы? Парные диаграммы рассеяния не будут работать, поскольку выброс может существовать в трех измерениях, который не является выбросом ни в одном из двухмерных подпространств. Я имею в виду не проблему регрессии, а …

6
Основные тесты проверки данных
В своей работе я часто работаю с наборами данных других людей, неспециалисты приносят мне клинические данные, и я помогаю им обобщать их и выполнять статистические тесты. Проблема, с которой я сталкиваюсь, состоит в том, что наборы данных, которые я привожу, почти всегда полны опечаток, несоответствий и других проблем. Мне интересно …

1
Интерпретация plot.lm ()
У меня был вопрос о том, как интерпретировать графики, созданные с помощью plot (lm) в R. Мне было интересно, можете ли вы, ребята, сказать мне, как интерпретировать графики масштаба-местоположения и левереджа? Любые замечания будут оценены. Предположим, базовые знания статистики, регрессии и эконометрики.

14
Простой алгоритм онлайн-определения выбросов общего временного ряда
Я работаю с большим количеством временных рядов. Эти временные ряды в основном представляют собой измерения сети, проводимые каждые 10 минут, и некоторые из них являются периодическими (т. Е. Пропускная способность), а некоторые другие - нет (т. Е. Объем трафика маршрутизации). Я хотел бы, чтобы простой алгоритм для онлайн "обнаружения выбросов". …

14
Почему надежная (и устойчивая) статистика не заменила классические методы?
При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете. Например, то, что многие из распространенных веб-метрик являются «длинными хвостами» (относительно нормального распределения), к настоящему моменту …

3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
Как следует учитывать выбросы в линейном регрессионном анализе?
Часто статистическому аналитику передают набор данных и просят соответствовать модели, используя метод, такой как линейная регрессия. Очень часто набор данных сопровождается заявлением об отказе, похожем на «О, да, мы испортили сбор некоторых из этих точек данных - делай, что можешь». Эта ситуация приводит к припадкам регрессии, на которые сильно влияет …

8
Генерация случайной величины с определенной корреляцией с существующей переменной
Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако невозможно зафиксировать одну из результирующих переменных в существующей переменной. Любые идеи и ссылки на существующие функции …

4
Быстрая линейная регрессия, устойчивая к выбросам
Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем отбросить точку данных с очень большими …

8
Строгое определение выброса?
Люди часто говорят о работе с выбросами в статистике. Что меня беспокоит в этом, так это то, что, насколько я могу судить, определение выброса является полностью субъективным. Например, если истинное распределение некоторой случайной величины является очень тяжелым или бимодальным, любая стандартная визуализация или сводная статистика для обнаружения выбросов будет неправильно …

1
Обнаружение выбросов во временных рядах (LS / AO / TC) с использованием пакета tsoutliers в R. Как представить выбросы в формате уравнения?
Комментарии: Во - первых , я хотел бы сказать большое спасибо автору этого новые tsoutliers пакет , который реализует Чен и Лю обнаружения временных рядов останец , который был опубликован в журнале Американской статистической ассоциации в 1993 году Open Source программного обеспечения .ррR Пакет итеративно обнаруживает 5 различных типов выбросов …

8
Можно ли удалять выбросы из данных?
Я искал способ удалить выбросы из набора данных, и я нашел этот вопрос . В некоторых комментариях и ответах на этот вопрос, однако, люди упоминали, что удаление выбросов из данных является плохой практикой. В моем наборе данных у меня есть несколько выбросов, которые, скорее всего, связаны только с ошибками измерения. …
33 outliers 

3
Как случайные леса не чувствительны к выбросам?
Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML). Тем не менее, две части интуиции говорят мне иначе: Всякий раз, когда построено дерево решений, все точки должны быть классифицированы. Это означает, что …

1
Обнаружение аномалий связи во временной сети
Я наткнулся на эту статью, в которой используется обнаружение аномалий ссылок для прогнозирования актуальных тем, и я нахожу это невероятно интригующим: статья «Обнаружение новых тем в социальных сетях с помощью обнаружения аномалий ссылок» . Я хотел бы скопировать его на другой набор данных, но я недостаточно знаком с методами, чтобы …

8
Замена выбросов на среднее
Этот вопрос был задан моим другом, который не разбирается в Интернете. У меня нет статистики, и я искал в интернете этот вопрос. Вопрос в том, можно ли заменить выбросы средним значением? если это возможно, есть ли какие-либо книги / журналы, чтобы подтвердить это утверждение?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.