Вопросы с тегом «outliers»

Выделение - это наблюдение, которое кажется необычным или недостаточно хорошо описанным по сравнению с простой характеристикой набора данных. Беспокоящая возможность состоит в том, что эти данные поступают из другой популяции, чем та, которую намеревались изучить.

1
Как учесть влияние праздников в прогнозе
У меня довольно предсказуемые ежедневные временные ряды с еженедельной сезонностью. Я могу придумать прогнозы, которые кажутся довольно точными (подтвержденными перекрестной проверкой), когда нет выходных. Однако, когда есть праздники, у меня возникают следующие проблемы: В моем прогнозе я получаю ненулевые числа для праздников, хотя все исторические праздники равны 0. Это действительно …

3
почему метод повышения чувствительности к выбросам
Я нашел много статей, в которых говорится, что методы повышения чувствительны к выбросам, но нет статей, объясняющих почему. По моему опыту, выбросы плохи для любого алгоритма машинного обучения, но почему методы повышения выделяются как особенно чувствительные? Как бы оценили следующие алгоритмы с точки зрения чувствительности к выбросам: буст-дерево, случайный лес, …

4
Хорошая форма для удаления выбросов?
Я работаю над статистикой для сборок программного обеспечения. У меня есть данные для каждой сборки по пройденному / неудачному и истекшему времени, и мы генерируем ~ 200 из них / неделю. Коэффициент успешности легко агрегируется, я могу сказать, что 45% прошли каждую данную неделю. Но я хотел бы также объединить …

3
STL на временных рядах с пропущенными значениями для обнаружения аномалий
Я пытаюсь обнаружить аномальные значения во временном ряду климатических данных с некоторыми отсутствующими наблюдениями. При поиске в Интернете я нашел много доступных подходов. Из них stl разложение кажется привлекательным в смысле удаления трендовых и сезонных компонентов и изучения остатка. Чтение STL: Процедура разложения по сезонным трендам, основанная на Loess , …

1
Различия между PROC Mixed и lme / lmer в R - степени свободы
Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

3
Обнаружение выброса в очень маленьких наборах
Мне нужно получить как можно более точное значение яркости в основном стабильного источника света, учитывая двенадцать значений яркости образца. Датчик неидеален, и свет может иногда «мерцать» ярче или темнее, что можно игнорировать, отсюда моя потребность в обнаружении выбросов (я думаю?). Я немного ознакомился с различными подходами здесь и не могу …

4
Обнаружение выбросов во временных рядах: как уменьшить количество ложных срабатываний?
Я пытаюсь автоматизировать обнаружение выбросов во временных рядах, и я использовал модификацию решения, предложенного здесь Робом Хиндманом . Скажем, я измеряю ежедневные посещения сайта из разных стран. В некоторых странах, где ежедневные посещения составляют несколько сотен или тысяч, мой метод, кажется, работает разумно. Однако в тех случаях, когда страна ведет …

1
Надежная оценка куртоза?
Я использую обычный оценщик для , но я заметилчто даже небольшие «выбросы» в моем эмпирическом распределении, то есть небольшие пики далеко от центра, влияютего чрезвычайно. Существует ли более надежная оценка эксцесса?K^=μ^4σ^4K^=μ^4σ^4\hat{K}=\frac{\hat{\mu}_4}{\hat{\sigma}^4}

2
Обобщенные линейные смешанные модели: диагностика
У меня случайная перехват логистической регрессии (из-за многократных измерений), и я хотел бы провести некоторую диагностику, особенно в отношении выбросов и влиятельных наблюдений. Я посмотрел на остатки, чтобы увидеть, есть ли наблюдения, которые выделяются. Но я также хотел бы взглянуть на что-то вроде расстояния Кука или DFFITS. Хосмер и Лемешоу …

2
Насколько точен IQR для обнаружения выбросов
Я пишу сценарий, который анализирует время выполнения процессов. Я не уверен в их распространении, но хочу знать, выполняется ли процесс «слишком долго». До сих пор я использовал 3 стандартных отклонения времени последнего запуска (n> 30), но мне сказали, что это не дает ничего полезного, если данные не являются нормальными (что, …

1
Автоматический выбор функции для обнаружения аномалий
Каков наилучший способ автоматического выбора функций для обнаружения аномалий? Обычно я рассматриваю обнаружение аномалий как алгоритм, в котором функции выбираются специалистами-людьми: важен выходной диапазон (например, «ненормальный вход - ненормальный выход»), поэтому даже со многими функциями вы можете создать гораздо меньшее подмножество, комбинируя особенности. Однако, предполагая, что в общем случае список …

3
Нахождение средней точки GPS
Мне нужно написать программу, чтобы найти среднюю точку GPS из совокупности точек. На практике происходит следующее: Каждый месяц человек записывает точку GPS одного и того же статического актива. Из-за особенностей GPS эти точки немного отличаются каждый месяц. Иногда человек делает ошибку, записывая неправильную сборку в совершенно другом месте. Каждая точка …
11 outliers  spatial 

2
Обнаружение выбросов с использованием регрессии
Может ли регрессия использоваться для внешнего обнаружения. Я понимаю, что существуют способы улучшить регрессионную модель путем устранения выбросов. Но основная цель здесь не в том, чтобы подогнать регрессионную модель, а в том, чтобы выяснить, кто использует регрессию.

6
Выявление выбросов для нелинейной регрессии
Я занимаюсь исследованиями в области функциональной реакции клещей. Я хотел бы сделать регрессию для оценки параметров (скорость атаки и время обработки) функции Роджерса типа II. У меня есть набор данных измерений. Как я могу лучше всего определить выбросы? Для моей регрессии я использую следующий сценарий в R (нелинейная регрессия): (набор …

3
Хорошие книги, посвященные методам предварительной обработки данных и обнаружения выбросов
Как гласит заголовок, знает ли кто-нибудь хорошую, современную книгу, которая описывает предварительную обработку данных в целом и особенно методы обнаружения выбросов? Книга не должна быть сосредоточена исключительно на этом, но она должна быть исчерпывающе затронута вышеупомянутыми темами - я не был бы счастлив чем-то, что является отправной точкой и цитирует …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.